ES2313413T3 - Compensacion en frecuencia para el analisis de precepcion de habla. - Google Patents

Compensacion en frecuencia para el analisis de precepcion de habla. Download PDF

Info

Publication number
ES2313413T3
ES2313413T3 ES05787331T ES05787331T ES2313413T3 ES 2313413 T3 ES2313413 T3 ES 2313413T3 ES 05787331 T ES05787331 T ES 05787331T ES 05787331 T ES05787331 T ES 05787331T ES 2313413 T3 ES2313413 T3 ES 2313413T3
Authority
ES
Spain
Prior art keywords
frequency
sound intensity
function
input
density function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05787331T
Other languages
English (en)
Inventor
John Gerard Beerends
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Original Assignee
Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO filed Critical Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Application granted granted Critical
Publication of ES2313413T3 publication Critical patent/ES2313413T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Machine Translation (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Measuring Instrument Details And Bridges, And Automatic Balancing Devices (AREA)

Abstract

Método de análisis de la calidad percibida de un sistema de transmisión de audio en el que se establece una primera función de densidad de potencia del nivel tonal de entrada compensado en frecuencia PPX''(f)n de una señal de entrada en tramas de tiempo Xn, en el que el sistema de transmisión de audio (1) presenta una entrada y una salida, y cuya salida da lugar a una señal de salida en tramas de tiempo Yn, representando n una trama de tiempo discreto y f una banda de frecuencia discreta, comprendiendo el método las siguientes etapas: - procesar (2.1-2.3) la señal de entrada Xn, para obtener una función de densidad de potencia del nivel tonal de entrada PPX(f)n; - procesar (2.4-2.6) la señal de salida Yn, para obtener una función de densidad de potencia del nivel tonal de salida PPX(f)n; - compensar en frecuencia (2.7, 2.8) la función de densidad de potencia del nivel tonal de entrada PPX(f)n, con una primera función de compensación en frecuencia H1(f), para obtener la primera función de densidad de potencia del nivel tonal de entrada compensado en frecuencia PPX''(f)n; caracterizándose el método por - la etapa consistente en compensar en frecuencia (2.7, 2.8) la función de densidad de potencia del nivel tonal de entrada PPX(f)n que consiste en ajustar exponencialmente la función de densidad de potencia del nivel tonal de entrada PPX(f)n con una función de factor de ajuste exponencial mediante software con desplazamiento, según la fórmula (Ver fórmula) utilizando un exponente q(f) comprendido entre 0,0 y 1,0, y un desplazamiento comprendido entre 10 4 y 10 6 .

Description

Compensación en frecuencia para el análisis de percepción de habla.
Campo de la invención
La invención se refiere a un procedimiento para establecer una función de densidad de potencia del nivel tonal de entrada compensado en frecuencia de una señal de entrada en tramas de tiempo, para su aplicación a un sistema de transmisión de audio que presenta una entrada y una salida, y cuya salida da lugar a una señal de salida en tramas de tiempo.
La invención también se refiere a un sistema de procesamiento para establecer una función de densidad de potencia del nivel tonal de entrada compensado en frecuencia.
La invención también se refiere a un soporte legible por un ordenador, que comprende un código de software ejecutable por un ordenador.
Antecedentes
El procedimiento y el sistema a los que se refiere la presente invención se pueden utilizar, por ejemplo, como parte de un procedimiento o sistema para analizar la calidad percibida de un sistema de transmisión de audio. En una solicitud de patente europea, nº EP1343145, publicada anteriormente, se dan a conocer tales métodos y sistemas para analizar una medida de la calidad de percepción del impacto de la distorsión de frecuencia lineal, que también se dan a conocer en las referencias bibliográficas [1] ... [8].
El sistema y procedimiento dados a conocer, así como los que les anteceden, permiten realizar la evaluación de percepción del habla como parte de la recomendación ITU-T P.862 (denominada en lo sucesivo P.862), con la que se obtiene una medida global única de la calidad percibida de la señal de salida degradada, con respecto a una señal de entrada.
El procedimiento y sistema dados a conocer están basados en el concepto de que la medición del habla y de la calidad de audio deben realizarse en el dominio de la percepción (véase la figura 1). Este objetivo se alcanza comparando una señal de habla de referencia X_{n}, que se aplica al sistema a prueba (1), con su señal de salida degradada Y_{n}. Estableciendo las representaciones de las percepciones internas de estas señales (0.1), (0.2) y comparándolas (0.3), es posible realizar una estimación de la calidad percibida mapeando (0.4) el resultado según una escala de calidad percibida, lo que da lugar a una medida de la calidad percibida PESQ. En la técnica anterior se ha determinado, por estimación empírica, una escala de calidad percibida, también conocida como escala o puntuación media de opinión (MOS). En ella, varias personas deben juzgar la calidad de fragmentos de habla degradados o distorsionados. Las puntuaciones se relacionan con la distorsión real y se plasman en una escala de percepción. Esta escala puede utilizarse para predecir la puntuación de percepción, dependiendo de la distorsión presente en una señal.
Los sistemas de procesamiento disponibles actualmente para la determinación de la calidad percibida de un sistema de transmisión de audio, incluido P. 862, adolecen del hecho de que dan como resultado un número que representa la calidad global. Esto hace que resulte prácticamente imposible encontrar las causas subyacentes de las degradaciones percibidas. Las mediciones clásicas, tales como el cociente señal / ruido, la distorsión de la respuesta en frecuencia, la distorsión armónica total, etc. presuponen la presencia de cierto tipo de degradación y cuantifican entonces esta degradación realizando cierto tipo de mediciones de calidad. Esta estrategia clásica encuentra una o más causas subyacentes del rendimiento deficiente del sistema a prueba, pero no es capaz de cuantificar el impacto de la distorsión de respuesta en frecuencia lineal en relación con los demás tipos de distorsión, en relación con la calidad percibida global.
Además, el rendimiento de los procedimientos y de los sistemas de procesamiento disponibles actualmente para la determinación de la calidad percibida de un sistema de transmisión de audio, incluido P.862, producen resultados inadecuados, dado que estos sistemas no realizan un tratamiento adecuado de la distorsión de la frecuencia lineal percibida.
Los procedimientos anteriores utilizan la compensación en frecuencia de una función de densidad de potencia de entrada, derivada de la señal de entrada, con el fin de cuantificar el efecto de las distorsiones de respuesta en frecuencia lineal, que tienen menos impacto sobre la calidad percibida del habla que las distorsiones no lineales.
Los procedimientos conocidos de compensación en frecuencia fallan debido a que, o bien utilizan una función de limitación drástica o bien una función de limitación modificada, que no permiten cuantificar el impacto de las distorsiones de respuesta en frecuencia lineal sobre la calidad percibida del habla de una forma correcta desde el punto de vista de percepción.
El documento WO 03/076889 da a conocer un procedimiento de obtención de una medición de la distorsión no lineal que correlaciona la percepción subjetiva promedio de la distorsión no lineal. En este procedimiento, la función de densidad de potencia del nivel tonal de salida de un dispositivo se ajusta de tal forma que se elimina gran parte del efecto de la distorsión lineal. Se utilizan factores de ajuste para las bandas de frecuencia respectivas, que coinciden con un cociente de las densidades de potencia del nivel tonal promedio en estas bandas en la entrada y en la salida del dispositivo, cada una de ellas corregida con un desplazamiento. Los cocientes excesivos se limitan para dar lugar a un factor de ajuste y se utiliza una adaptación más complicada del cociente entre los niveles de limitación y un rango principal de cocientes.
La patente EP 1 241 663 da a conocer un procedimiento de ajuste de señales dependientes del tiempo en la entrada y en la salida de un dispositivo a prueba, mediante un factor de ajuste independiente de la frecuencia que es el cociente de las densidades de potencia del nivel tonal promedio en la entrada y en la salida del dispositivo, cada una de ellas más un desplazamiento. La patente EP 1 241 663 utiliza un factor de ajuste que es la raíz cuadrada de este cociente de potencias cuando se ajustan las amplitudes de las señales.
Breve descripción de la invención
Es un objetivo de la presente invención dar a conocer un procedimiento y un sistema para la compensación en frecuencia de funciones de densidad de potencia del nivel tonal de entrada, que permiten cuantificar el impacto de las distorsiones de respuesta en frecuencia lineal sobre la calidad percibida del habla de una forma correcta desde el punto de vista de percepción.
El objetivo de la invención puede alcanzarse, en un primer aspecto de la presente invención, mediante un procedimiento, según la reivindicación 1.
En la técnica anterior se conocen las funciones de densidad de potencia del nivel tonal y el ajuste mediante software propiamente dichos. Con esta función de compresión, se puede cuantificar el impacto global de las distorsiones de respuesta en frecuencia lineal a fin de obtener una puntuación global de la calidad global, que incluye la cuantificación correcta de las distorsiones de respuesta en frecuencia lineal. Este único número de calidad puede calcularse, por ejemplo, del mismo modo que se realiza en P.862 [3], es decir, para cada trama de tiempo, se calculan dos perturbaciones diferentes a partir de una integración de frecuencia de la función diferencial de la intensidad sonora. El número de calidad final se obtiene a partir de dos integraciones en función del tiempo distintas. La mejora permite realizar una correlación mejor entre las mediciones objetivas de la calidad del habla y las evaluaciones subjetivas de la calidad del habla, en especial en los sistemas de transmisión de habla en los que las distorsiones de respuesta en frecuencia lineal dominan la calidad global del habla (es decir, sistemas que sólo llevan a cabo una limitación del ancho de banda).
Basándose en este procedimiento mejorado, según la presente invención, las realizaciones pueden dar a conocer un procedimiento o sistema para la determinación de la calidad percibida de un sistema de transmisión de audio, que puede obtener resultados precisos con respecto a la distorsión de respuesta en frecuencia lineal tal como P.862 y un procedimiento o sistema que permiten obtener un único valor de salida que es representativo de la distorsión percibida, incluidas las distorsiones en frecuencia lineal.
Otra realización, según el primer aspecto de la presente invención, comprende además las etapas de:
-
compensar la función de densidad de potencia del nivel tonal de salida por las variaciones de ganancia a corto plazo, para obtener una función de densidad de potencia del nivel tonal de salida ajustado localmente;
-
transformar la función de densidad de potencia del nivel tonal de salida compensado en frecuencia en una escala de percepción de la intensidad sonora para obtener una función de densidad de la intensidad sonora de salida;
-
compensar en frecuencia la función de densidad de potencia del nivel tonal de entrada, que da lugar a una segunda función de densidad de potencia del nivel tonal de entrada compensado en frecuencia basada en una función de factor de ajuste exponencial mediante software, con una potencia del orden de 0,4 y un desplazamiento del orden de 5\cdot10^{6}
-
transformar la segunda función de densidad de potencia del nivel tonal de entrada compensado en frecuencia en una escala de percepción de la intensidad sonora para obtener una función de densidad de la intensidad sonora de entrada;
-
promediar sobre las tramas de tiempo de la función de densidad de la intensidad sonora de entrada en tramas a fin de obtener un espectro de intensidad sonora de entrada promedio;
-
promediar sobre las tramas de tiempo de la función de densidad de la intensidad sonora de salida en tramas a fin de obtener un espectro de intensidad sonora de salida promedio;
-
normalizar el espectro de intensidad sonora de salida promedio con respecto al espectro de intensidad sonora de entrada promedio, obteniendo de este modo un espectro de intensidad sonora de salida promedio normalizado;
-
restar el espectro de intensidad sonora de entrada promedio del espectro de intensidad sonora de salida promedio normalizado, obteniendo de este modo un espectro de intensidad sonora promedio diferencial;
-
integrar según Lebesque el espectro de intensidad sonora promedio diferencial, a fin de establecer una medida de distorsión espectral lineal para el sistema de transmisión de audio;
ello permite establecer una medida única indicativa de la distorsión en frecuencia lineal percibida.
\vskip1.000000\baselineskip
El procedimiento como tal obtiene una medida única de la calidad con respecto a la distorsión en frecuencia lineal, basada en la diferencia en el espectro de la intensidad sonora. No obstante, esta medida aún debe ser mapeada a una medida de la calidad de percepción, lo que se consigue en la siguiente realización, según el primer aspecto de la presente invención, que comprende además las etapas de
-
determinar una medida de aspereza sonora del espectro de intensidad sonora promedio diferencial basado en la diferencia absoluta de los valores de banda de frecuencia consecutivos;
-
combinar la medida de aspereza sonora y la medida de distorsión espectral lineal por multiplicación y mapear el resultado en forma de una escala MOS, obteniendo así una medida de la calidad de impacto de la respuesta en frecuencia.
\vskip1.000000\baselineskip
Otra realización según el primer aspecto de la presente invención, en la que la etapa de procesamiento de la señal de entrada en tramas de tiempo consiste además en compensar en frecuencia una función de densidad de potencia del nivel tonal de entrada con respecto a un espectro ideal, presenta la ventaja de que compensa los errores de la técnica de grabación, que con frecuencia conducen a densidades de potencia espectral desequilibradas, en la mayor parte de los casos una acentuación excesiva de las frecuencias más bajas (inferiores a 500 Hz). Esta etapa se aplica sobre las densidades de potencia del nivel tonal de entrada según se obtienen de la función de ventana de Hanning, de la función de transformación rápida de Fourier (FFT) y distorsión en frecuencia de la señal de entrada, según la referencia [1].
En otra realización, según el primer aspecto de la presente invención, la primera función de compensación en frecuencia se expresa en términos de valores de banda de frecuencia Bark y se obtiene realizando un promedio, como mínimo, de dos valores de banda de frecuencia Bark vecinos de las funciones de densidad de potencia del nivel tonal de entrada y de salida.
En otra realización, según el primer aspecto de la presente invención, la segunda función de compensación en frecuencia también se expresa en términos de valores de banda de frecuencia Bark y se obtiene realizando un promedio, como mínimo, de dos valores de banda de frecuencia Bark vecinos de las funciones de densidad de potencia del nivel tonal de entrada y de salida.
La obtención de promedios en el cálculo de la función de compensación en frecuencia suaviza los máximos locales de la función de compensación en frecuencia que son menos audibles de lo que habría predicho un cálculo directo, sin la suavización.
Otra realización, según el primer aspecto de la presente invención, comprende además las etapas de:
-
detectar tramas de tiempo en las que las funciones de densidad de potencia del nivel tonal de entrada y de salida por trama son simultáneamente mayores que un valor de criterio de silencio;
-
disponer las tramas de la función de densidad de la intensidad sonora de entrada y las tramas de la función de densidad de la intensidad sonora de salida bajo el control de la detección de tramas de tiempo,
evitando la inestabilidad de los resultados debido a valores del orden de 0, especialmente en las zonas en las que pueda producirse una división por cero.
\vskip1.000000\baselineskip
Una realización adicional, según el primer aspecto de la presente invención, en el que la etapa de establecimiento de la medida de distorsión espectral lineal comprende además
-
dividir el espectro de intensidad sonora promedio diferencial en un espectro de intensidad sonora promedio diferencial positivo y en un espectro de intensidad sonora promedio diferencial negativo;
-
integrar en el dominio de frecuencia los valores positivos del espectro de intensidad sonora promedio diferencial, estableciendo de este modo una medida de distorsión espectral lineal positiva;
-
integrar en el dominio de frecuencia los valores negativos del espectro de intensidad sonora promedio diferencial, estableciendo de este modo una medida de distorsión espectral lineal negativa;
-
multiplicar la medida de aspereza sonora y la medida de distorsión espectral lineal positiva y mapear el resultado en forma de una escala MOS (puntuación media de opinión), obteniendo así una medida de la calidad de la distorsión de la respuesta en frecuencia positiva;
-
combinar la medida de aspereza sonora y la medida de distorsión espectral lineal negativa mediante multiplicación y mapear el resultado en forma de una escala MOS (puntuación media de opinión), obteniendo así una medida de la calidad de la distorsión de la respuesta en frecuencia negativa,
-
ponderar la medida de la calidad de la distorsión de la respuesta en frecuencia positiva con un primer factor de ponderación mayor que 0,
-
ponderar la medida de la calidad de la distorsión de la respuesta en frecuencia negativa con un segundo factor de ponderación mayor que 0;
-
sumar la medida de la calidad de impacto de la respuesta en frecuencia negativa ponderada y la medida de la calidad de impacto de la respuesta en frecuencia positiva, obteniendo de este modo una medida de la calidad de impacto de la respuesta en frecuencia única,
permitiendo realizar un ajuste fino y optimizar el procedimiento para las bandas de frecuencia que aparecen más intensas en la señal de salida y las bandas de frecuencia menos intensas en la señal de salida. Las bandas de frecuencia que se incluyen en las partes positiva o negativa del espectro de intensidad sonora promedio diferencial se pueden controlar en la etapa de compensación en frecuencia de la función de densidad de potencia del nivel tonal de entrada, ajustando los factores de compensación de dicha etapa. Estos factores de compensación se ajustan para conseguir una correlación óptima entre la salida de la medida de la calidad de impacto de la respuesta en frecuencia y la percepción subjetiva.
\vskip1.000000\baselineskip
Otra realización, según el primer aspecto de la presente invención, comprende además las etapas de:
-
compensar la función de densidad de potencia del nivel tonal de salida por las variaciones de ganancia a corto plazo, para obtener una función de densidad de potencia del nivel tonal de salida ajustado localmente;
-
transformar la primera función de densidad de potencia del nivel tonal de entrada compensado en frecuencia en una escala de percepción de la intensidad sonora para obtener una función de densidad de la intensidad sonora de entrada;
-
transformar la función de densidad de potencia del nivel tonal de salida compensado en frecuencia en una escala de percepción de la intensidad sonora para obtener una función de densidad de la intensidad sonora de salida;
-
restar las funciones de densidad de la intensidad sonora de entrada y de salida para obtener una función de densidad de la intensidad sonora diferencial;
-
realizar un procesamiento asimétrico entre las bandas de frecuencia positiva y negativa de la función de densidad de la intensidad sonora diferencial, obteniendo de este modo una función de densidad de la intensidad sonora diferencial asimétrica;
-
realizar una integración de frecuencia de la función de densidad de la intensidad sonora diferencial asimétrica, y acentuar las partes silenciosas, obteniendo así una medida de la perturbación asimétrica;
-
realizar una integración de frecuencia de la función de densidad de la intensidad sonora diferencial, y acentuar las partes silenciosas, obteniendo así una medida de la perturbación simétrica;
-
realizar una integración temporal de la función de densidad de la intensidad sonora diferencial y de la función de densidad de la intensidad sonora diferencial asimétrica, obteniéndose así una medida de la perturbación simétrica y asimétrica y combinar seguidamente las medidas de la perturbación simétrica y asimétrica, a fin de obtener una estimación única de la calidad de percepción,
permitiendo determinar la calidad percibida de un sistema de transmisión de audio, que puede obtener resultados precisos con respecto a la distorsión en frecuencia lineal.
\vskip1.000000\baselineskip
El objetivo de la invención puede alcanzarse además, en un segundo aspecto de la presente invención, mediante un sistema de procesamiento, según la reivindicación 11.
El objetivo de la invención puede alcanzarse además, en un tercer aspecto de la presente invención, mediante un soporte legible por ordenador, según se define en la reivindicación 12.
Breve descripción de los dibujos
La figura 1 muestra un diagrama general de un procedimiento para la determinación de la calidad percibida de un sistema de transmisión de audio, según la técnica anterior.
La figura 2 muestra un diagrama que representa un procedimiento para la determinación de la calidad percibida de un sistema de transmisión de audio, según la recomendación ITU-T P.862, según la técnica anterior.
La figura 3 muestra un diagrama que representa un procedimiento para la determinación de la calidad percibida de un sistema de transmisión de audio, según una realización preferente de la invención.
La figura 4 muestra una mejora según una primera realización de la invención.
La figura 5 muestra una mejora adicional según una segunda realización de la invención.
Descripción detallada
La figura 2 da a conocer un diagrama que representa un procedimiento para la determinación de la calidad percibida de un sistema de transmisión de audio, según la recomendación ITU-T P.862, referencia bibliográfica [6], que se incluye en la presente memoria a modo de referencia.
Este diagrama se explica brevemente, dado que las etapas 2.1 ... 2.12 también se utilizan en el sistema y en el procedimiento según la presente invención. La etapa 1 representa la conversión de una señal de entrada X_{n} en una señal de salida Y_{n} por acción de un sistema o dispositivo a prueba 1, en donde las señales de entrada y de salida están representadas por tramas de tiempo discretas 1 ... n, representando X_{n} una señal de referencia y Y_{n} la respuesta distorsionada procedente de un sistema a prueba 1 en X_{n} . Las tramas pueden tener una duración de 32 ms, según las presentes realizaciones de PESQ. Para la invención, la duración de la trama puede ser menor que 32 ms o mucho más larga. También es posible contemplar duraciones que cubran un fragmento completo de habla, del orden de minutos.
El dispositivo o sistema a prueba puede ser una red de telecomunicaciones, un terminal de telecomunicaciones, por ejemplo un teléfono, o cualquier dispositivo o sistema para el procesamiento de audio. La señal de entrada puede ser un fragmento de habla, pero la aplicación de las realizaciones de la invención no se limitan al habla.
A fin de establecer una medida de la calidad percibida para la señal de salida Y_{n} con respecto a la señal de entrada X_{n}, es necesario realizar cierto procesamiento previo. Según la técnica anterior, esto se realiza durante las etapas
2.1 ... 2.6.
Las etapas 2.1 y 2.4 representan la asignación a ventanas de tiempo de las tramas de la señal de entrada X_{n} y de las tramas de la señal de salida Y_{n}, respectivamente, mediante una función de ventana de Hanning.
Las etapas 2.2 y 2.5 representan la transformación discreta de Fourier trama por trama de las señales de entrada y de salida, respectivamente.
Las etapas 2.3 y 2.6 representan la distorsión de la señal de entrada y de salida transformadas de Fourier en las denominadas bandas Bark, obteniendo de este modo las funciones de densidad de potencia del nivel tonal en bandas de frecuencia discretas para la señal de entrada y para la señal de salida, PPX(f)_{n} y PPY(f)_{n} respectivamente.
La etapa 2.7 representa el cálculo de una compensación en frecuencia lineal, que se utiliza para ponderar en la etapa 2.8 la función de densidad de potencia del nivel tonal de entrada PPX(f)_{n} para obtener una función de densidad de potencia del nivel tonal de entrada compensado en frecuencia PPX'(f)_{n}. La función de densidad de potencia del nivel tonal de entrada PPX(f)_{n} se compensa en frecuencia para el filtrado que tiene lugar en el sistema de transmisión de audio a prueba 1. En P862, la magnitud de la compensación determina la contribución de la distorsión en frecuencia lineal en el valor PESQ definitivo.
La compensación en frecuencia, según se da a conocer la técnica anterior, es decir P.862, utiliza una estimación de la respuesta en frecuencia lineal del sistema a prueba, basada en todas las tramas para las que la señal de referencia de entrada es mayor que un valor de criterio de silencio (tramas de habla activa, PPX(f)_{n}>10^{7}, tramas más intensas que aproximadamente 70 dB SPL para P.862 cuando se utiliza con niveles de reproducción correctamente fijados). La compensación en respuesta de frecuencia en P.862 se lleva a cabo sobre la función de densidad de potencia del nivel tonal de entrada PPX(f)_{n} por trama.
Todas las funciones de densidad y desplazamientos de esta descripción se ajustan según un estándar ITU P.862 para las funciones de potencia.
En 2.7 se calcula una función de compensación de la respuesta en frecuencia H(f) promediando PPX(f)_{n} y
PPY(f)_{n}, las salidas de 2.3 y 2.6 respectivamente, a lo largo del índice de tiempo n (promedio de potencia plana), dando como resultado unas funciones de densidad de potencia del nivel tonal promedio APPX y APPY (utilizadas en 2.7), a partir de las cuales se calcula, mediante multiplicación, una primera función de compensación en frecuencia PPX'(f)_{n}
en la salida de 2.8 . El objetivo consiste en compensar completamente las distorsiones de respuestas de frecuencia
pequeñas e inaudibles, es decir, se compensan todas las desviaciones menores de un valor prefijado de decibelios.
La etapa 2.9 representa el cálculo de una función de ajuste exponencial local para compensar las variaciones de ganancia a corto plazo de la función de densidad de potencia del nivel tonal de salida, de modo que se almacena en 2.10 una función de ajuste exponencial local S_{n-1}, que se utilizará en la siguiente trama. La compensación se lleva a cabo multiplicando en 2.11 la función de ajuste exponencial local S_{n} por la función de densidad de potencia del nivel tonal de salida PPY(f)_{n}, dando lugar a una función de densidad de potencia del nivel tonal de salida con ajuste exponencial local PPY'(f)_{n}.
Las funciones de densidad de potencia del nivel tonal de entrada y de salida PPX'(f)_{n} y PPY'(f)_{n} se transforman a una escala de intensidad sonora en las etapas 2.12 y 2.13, según la escala de intensidad sonora Sone utilizando el algoritmo de Zwicker, resultando las funciones de densidad de la intensidad sonora de entrada y de salida LX(f)_{n} y LY(f)_{n} respectivamente. Por consiguiente, las funciones de densidad de la intensidad sonora de entrada y de salida LX(f)_{n} y LY(f)_{n} son representaciones de la intensidad sonora de las señales de entrada y de salida en un dominio de frecuencia de percepción. En la etapa 2.14, se restan las funciones de densidad de la intensidad sonora de entrada y de salida LX(f)_{n} y LY(f)_{n}, para obtener una función de densidad de la intensidad sonora diferencial D(f)_{n}, de la que se puede deducir una medida de la calidad percibida.
Tras realizar un procesamiento asimétrico en 2.15 entre las bandas de frecuencia positiva y negativa de la función de densidad de la intensidad sonora diferencial D(f)_{n}, la integración de frecuencia en 2.16 y la acentuación de las partes silenciosas en 2.17, la función de densidad de la intensidad sonora diferencial D(f)_{n} se transforma en una medida de la perturbación asimétrica DA, que se puede utilizar como medida de la calidad percibida. Lo mismo es aplicable en las etapas 2.18 y 2.19, en las que la función de densidad de la intensidad sonora diferencial D(f)_{n} se transforma en una medida de la perturbación Dn, realizando una integración de frecuencia y acentuando las partes silenciosas, respectivamente, pero sin asimetría.
A continuación, tras la suma sobre las tramas de tiempo en la etapa 2.20, la medida de la perturbación D y la medida de la perturbación asimétrica DA se combinan en una única calificación PESQ, que denota una estimación de la calidad de percepción para el sistema de transmisión de audio 1.
Todas las etapas 2.1 ... 2.20 se describen con más detalle en [6].
La figura 3 de conocer un procedimiento para la medición de la calidad de transmisión de un sistema de transmisión de audio según la presente invención, en el que se utilizan las etapas conocidas 2.1 ... 2.11 para determinar una función de densidad de potencia del nivel tonal de entrada compensado en frecuencia PPX'(f)_{n} y en el se utiliza la etapa 2.13 para determinar una función de densidad de la intensidad sonora LY(f)_{n}.
Según la presente invención, en la etapa 2.7 se calcula una nueva primera función de compensación en frecuencia H_{1}(f). H_{1}(f), es una función de factor de ajuste exponencial mediante software con desplazamiento [6], que utiliza las funciones de densidad de potencia del nivel tonal de entrada y de salida promediadas en el tiempo APPX(f) y APPY(f):
\vskip1.000000\baselineskip
1
\vskip1.000000\baselineskip
en la que q(f) se encuentra comprendida en el intervalo 0,0-1,0 (puede ser dependiente de la frecuencia), y en la que el DESPLAZAMIENTO se encuentra comprendido en el intervalo 10^{4}-10^{6}.
\vskip1.000000\baselineskip
Cuanto menor sea q y mayor sea el DESPLAZAMIENTO, menor será la magnitud de la compensación en frecuencia conseguida. Es necesario ajustar los parámetros q y DESPLAZAMIENTO de esta etapa 2.7 para obtener unos resultados óptimos.
Preferentemente, q(f) es del orden de 0,5 y el DESPLAZAMIENTO es del orden de 4\cdot10^{5}.
Al igual que en P.862, en 2.8 se calcula una primera función de densidad de potencia del nivel tonal de entrada compensado en frecuencia PPX'(f)_{n} multiplicando la función de densidad de potencia del nivel tonal de entrada PPX(f)_{n} por la primera función de compensación en frecuencia H_{1}(f).
En la etapa 3.10, se calcula una segunda función de compensación en frecuencia H_{2}(f) de forma similar a la etapa 2.7 durante el mismo conjunto de tramas de habla activa, utilizando una función de factor de ajuste exponencial mediante software con desplazamiento, pero ahora con un mayor desplazamiento:
2
en la que q(f) se encuentra comprendida en el intervalo 0,0-1,0 (puede ser dependiente de la frecuencia), y en la que el DESPLAZAMIENTOGRANDE se encuentra comprendido en el intervalo 10^{5}-10^{8}.
Preferentemente, q(f) es del orden de 0,4 y el DESPLAZAMIENTOGRANDE es del orden de 5\cdot10^{6}.
La segunda función de compensación en frecuencia H_{2}(f) se utiliza para multiplicar, en la etapa 3.11, la función de densidad de potencia del nivel tonal de entrada PPX(f)_{n} para obtener una función de densidad de potencia del nivel tonal compensado secundaria PPX''(f)_{n}.
En una realización, según la presente invención, las funciones de compensación en frecuencia primaria y secundaria H_{1}(f) y H_{2}(f) no se calculan directamente a partir de las funciones APPX(f) y APPY(f), sino a partir de una versión suavizada de estas funciones. El alisado se lleva a cabo realizando un promedio sobre los valores de banda de frecuencia Bark (f), f=0, ... f_{MAX} según lo especificado en P.862 [3], en donde f=0 y f_{MAX} representan el primero y el último de los valores de banda de frecuencia. El cálculo del promedio se realiza sobre las bandas de frecuencia 0, 1 y f_{MAX}, f_{MAX}-1, respectivamente. En el caso del segundo y penúltimo valores (1 y f_{MAX}-1) el promedio se realiza sobre las bandas de frecuencia 0, 1, 2 y f_{MAX}, f_{MAX}-1, f_{MAX}-2, respectivamente. A continuación, este promedio se repite hacia arriba hasta un índice inferior de 10 y hacia abajo hasta un índice superior de f_{MAX}-4. Entre los índices 10 y f_{MAX}-4, el cálculo del promedio se realiza sobre cinco bandas de frecuencia, desde dos a la izquierda hasta dos a la derecha del valor del índice.
En la etapa 3.14, similar a la etapa 2.12, la función de densidad de potencia del nivel tonal compensado secundaria PPX''(f)_{n} se transforma en una función de densidad de la intensidad sonora de entrada LX'(f)_{n} que contiene menos compensaciones de la distorsión de respuesta en frecuencia lineal, y después se utiliza en el cálculo de la intensidad sonora según la presente invención. Es necesario ajustar los parámetros q(f) y DESPLAZAMIENTOGRANDE de estas etapas 3.10 y 3.11 para obtener unos resultados óptimos en una medida de la calidad de la distorsión en frecuencia lineal.
Seguidamente, la nueva función de densidad de la intensidad sonora de entrada LX'(f)_{n} y la función de densidad de la intensidad sonora de salida LY(f)_{n} de tipo P.862, se utilizan para calcular las funciones de densidad de la intensidad sonora promediadas ALSX(f) y ALSY(f) promediando en las etapas 3.4 y 3.5 las funciones de densidad de la intensidad sonora espectral LX'(f)_{n} y LY(f)_{n}.
El promedio en el tiempo se realiza según Lebesque, 3 y 30 con p>1, preferentemente p = 2,5.
Opcionalmente, este promedio se realiza sólo sobre las tramas de tiempo para las que tanto la potencia de entrada y de salida por trama sea mayor que un valor de criterio de silencio, preferentemente PPX(f)_{n} y PPY(f)_{n}>10^{7}, determinado en la etapa 3.1 y efectuado en las etapas 3.2 y 3.3.
Estas funciones de densidad de la intensidad sonora de entrada y de salida promediadas, que representan la intensidad sonora como función de la frecuencia, se integran después con respecto a la potencia en la etapa 3.6 sobre el eje de frecuencias (Lp=1), dando como resultado un único número de intensidad sonora NX para la referencia (idealizada) y un número de intensidad sonora NY para la señal distorsionada ajustada, según 4 y 40
Estos números de intensidad sonora NX, NY únicos se utilizan después para normalizar la función de densidad de la intensidad sonora promediada ALSY(f) en la etapa 3.7, de tal forma que el promedio de la función de densidad de la intensidad sonora de salida promediada ALSY(f) en el dominio de frecuencia sea el mismo tanto para la señal de entrada (idealizada) como para la señal de salida ajustada, dando como resultado una función de densidad de la intensidad sonora promediada normalizada NALSY(f).
En la etapa 3.8, se define una función de intensidad sonora promedio diferencial DALS(f) entre las densidades de la intensidad sonora promediadas ALSX(f) y NALSY(f). En la etapa 3.9, esta función de intensidad sonora promedio diferencial se integra sobre el eje de la frecuencia utilizando de nuevo Lebesque, pero no sobre las diferencias de las bandas de frecuencia individuales, utilizando un p<1,0 (con p preferentemente en el intervalo de 0,2 a 0,4) para la intensidad sonora en cada banda de frecuencia Bark. El resultado es una medida de la distorsión de la respuesta en frecuencia LSDM, según 5, en la que f denota una banda de frecuencia en el espectro de intensidad sonora promedio diferencial.
En la etapa 3.12, se puede calcular una medida de aspereza sonora RM especial, tomando el valor absoluto de las bandas de frecuencia de intensidad sonora consecutivas de la función de la intensidad sonora diferencial DALS(f) y realizando el sumatorio para todas las bandas de frecuencia consecutivas: 6, (siendo f el número del índice de banda, con p comprendida entre 0,5-2,0 siendo preferentemente p del orden de 1,5).
El número de aspereza RM se puede combinar en la etapa 3.13 con la medida de la distorsión de la respuesta en frecuencia LSDM mediante una multiplicación, mapeándose el resultado de esta operación a una tabla de puntuación media de opinión (Mean Opinion Score), lo que tiene como resultado una única medida de la calidad de impacto de la respuesta en frecuencia FRIQM.
La figura 4 muestra una realización, según la invención, en la que, en la etapa 4.1, la función diferencial DALS(f) se divide en una parte positiva (entrada > salida) y una parte negativa, DALS+(f) y DALS-(f). En las etapas 4.2 y 4.3, ambas partes, DALS(f)+ y DALS(f)-, respectivamente, se integran entonces según Lebesque sobre el eje de la frecuencia utilizando de nuevo la norma Lp, pero no sobre las diferencias de las bandas de frecuencia individuales, utilizando un p<1,0 con 0,1<p< 0,5 para la intensidad sonora en cada banda de frecuencia Bark. Esto tiene como resultado un número de distorsión de la respuesta en frecuencia positivo y negativo LSDM+ y LSDM- .
En las etapas 4.4 y 4.5, los dos números de impacto en el dominio de frecuencia lineal FRIQM+ y FRIQM- se calculan a partir de los números de distorsión de la respuesta en frecuencia positivo y negativo LSDM+ y LSDM-, multiplicándolos por el número de aspereza RM. Estos números de distorsión de la respuesta en frecuencia se mapean entonces en la etapa 4.6 a una MOS (puntuación media de opinión) como escala para cuantificar el impacto de la distorsión de respuesta en frecuencia lineal, dando como resultado dos números de impacto en el dominio de frecuencia lineal FRIQM+ y FRIQM-, respectivamente. FRIQM+ y FRIQM- se ponderan para obtener una única medida de la calidad de impacto de la respuesta en frecuencia FRIQM: FRIQM = \alpha * FRIQM+ + \beta* FRIQM-, en la que, preferentemente, \alpha + \beta=1, y en la que el cociente entre \alpha y \beta es, preferentemente, mayor que 10. En una implementación actual, \beta=0, de forma que sólo se tienen en cuenta los valores LSDM+.
Por supuesto, los valores LSDM+ y LSDM- también se pueden combinar de una forma similar a las medidas de la calidad de impacto de la respuesta en frecuencia FRIQM+ y FRIQM-, tras lo cual se puede realizar un mapeo a una MOS, dando como resultado una única medida de la calidad de impacto de la respuesta en frecuencia FRIQM. Además, en esta realización también se puede realizar la multiplicación por la medida de la aspereza sólo sobre el LSDM.
Según una realización preferente de la presente invención, según se muestra en la figura 4, la función de densidad de potencia del nivel tonal de entrada se compensa en frecuencia, mediante Lebesque, sobre la base de un ajuste exponencial Lp con 0,3<p<0,6 para conseguir una densidad de potencia espectral ideal Ideal(f) de una señal de habla. La función de densidad de potencia del nivel tonal de entrada se calcula a partir de la señal de habla de referencia de entrada, calculando la potencia media en cada banda de frecuencia Bark sobre el fragmento de habla completo para el que se ha de calcular la calidad de la señal distorsionada. La función de densidad de potencia espectral ideal Ideal(f) se define sobre la base del cálculo del promedio de la densidad de potencia espectral promedio a largo plazo de muchas voces masculinas y femeninas, que se graban con un micrófono de respuesta en frecuencia plana. En cada banda Bark, según se utiliza en PESQ, se calcula un número de densidad sobre la base de esta función de densidad ideal.
Este ajuste exponencial parcial hacia una función de densidad de potencia espectral ideal Ideal(f) compensa los errores que se produzcan en la técnica de grabación. Con frecuencia, las técnicas de grabación conducen a densidades de potencia espectral desequilibradas, en la mayor parte de los casos una acentuación excesiva de las frecuencias más bajas (inferiores a 500 Hz).
A partir de las versiones con alisamiento espectral de entrada e ideal de la función de densidad de potencia espectral ideal Ideal(f), en la etapa 5.1 se calcula una función de densidad de potencia del nivel tonal de entrada PPX(f)_{n} calculando el promedio sobre un número de bandas de frecuencia consecutivas. A partir de estas versiones alisadas, se pueden calcular factores de compensación S(f) para cada banda Bark, definidas como el cociente de las potencias "ideal/referencia". Posteriormente, estos factores S(f) se utilizan para ajustar de nuevo, en la etapa 5.2 la función de densidad de potencia del nivel tonal de entrada PPX(f)_{n} con S(f)^{p}, con 0,3<p<0,8, para obtener una función de densidad de potencia del nivel tonal de entrada (idealizada) PPXI(f)_{n} que puede utilizarse para realizar evaluaciones adicionales, según la presente invención, en lugar de la función de densidad de potencia del nivel tonal de entrada PPX(f)_{n}.
Obsérvese que la invención puede combinarse con un ajuste exponencial temporal local, utilizando un ajuste exponencial iterativo de la compensación en frecuencia y realizando un ajuste exponencial temporal local según [7].
La invención puede realizarse en forma de un sistema informático que comprende un procesador, una memoria y una entrada y una salida. La entrada puede ser un dispositivo de lectura, tal como una entrada analógica capaz de muestrear una señal de entrada de referencia y una señal de salida degradada procedentes de un sistema de transmisión de audio a prueba. Las señales mostradas se pueden almacenar en una memoria, por ejemplo en un disco duro, y ser dispuestas en tramas, seleccionando filas de muestras. A continuación, el procesador puede realizar las etapas descritas anteriormente. Un resultado, por ejemplo la medida de la calidad de impacto en frecuencia lineal, puede enviarse a una pantalla, o un puerto de comunicaciones, o almacenarse en una memoria para su uso posterior.
Bibliografía
[1] A. W. Rix, M. P. Hollier, A. P. Hekstra and J. G. Beerends, "PESQ, the new ITU standard for objective measurement of perceived speech quality, Part 1- Time alignment", J. Audio Eng. Soc., vol. 50, pp. 755-764 (2002 Oct.).
[2] J. G. Beerends, A. P. Hekstra, A. W. Rix and M. P. Hollier, "PESQ, the new ITU standard for objective measurement of perceived speech quality, Part II - De percepción model", J. Audio Eng. Soc., vol. 50, pp. 765-778 (2002 Oct.) (equivalent to KPN Research publication 00-32228).
[3] ITU-T Rec. P.862, "De percepción Evaluation Of Speech Quality (PESQ), An Objective Method for End-to-end Speech Quality Assessment of Narrowband Telephone Networks and Speech Codecs", International Telecommunication Union, Geneva, Switzerland (2001 February.).
[4] A. P. Hekstra, J. G. Beerends, "Output power decompensation", International patent application; PCT EP02/
02342; European patent application 01200945.2, March 2001; Koninklijke PTT Nederland N.V.
[5] J. G. Beerends, "Frequency dependent frequency compensation", International patent application; PCT EP02/
05556; European patent application 01203699.2, June 2001; Koninklijke PTT Nederland N.V.
[6] J. G. Beerends, "Method and system for measuring a system's transmission quality", Softscaling, International patent application; PCT WO 03076889; European patent application 02075973.4-2218, April K 2002, Koninklijke PTT Nederland N.V.
[7] J. G. Beerends, "Method and system for measuring a system's transmission quality"; European patent application 02075973, July 2003, Koninklijke PTT Nederland N.V.
[8] T. Goldstein, J. G. Beerends, H. Klaus and C. Schmidmer, "Draft ITU-T Recommendation P.AAM, An objective method for end-to-end speech quality assessment of narrow-band telephone networks including acoustic terminal (s)", White contribution COM 12-64 to ITU-T Study Group 12, September 2003.

Claims (12)

1. Método de análisis de la calidad percibida de un sistema de transmisión de audio en el que se establece una primera función de densidad de potencia del nivel tonal de entrada compensado en frecuencia PPX'(f)_{n} de una señal de entrada en tramas de tiempo X_{n}, en el que el sistema de transmisión de audio (1) presenta una entrada y una salida, y cuya salida da lugar a una señal de salida en tramas de tiempo Y_{n}, representando n una trama de tiempo discreto y f una banda de frecuencia discreta, comprendiendo el método las siguientes etapas:
-
procesar (2.1-2.3) la señal de entrada X_{n}, para obtener una función de densidad de potencia del nivel tonal de entrada PPX(f)_{n};
-
procesar (2.4-2.6) la señal de salida Y_{n}, para obtener una función de densidad de potencia del nivel tonal de salida PPX(f)_{n};
-
compensar en frecuencia (2.7, 2.8) la función de densidad de potencia del nivel tonal de entrada PPX(f)_{n}, con una primera función de compensación en frecuencia H_{1}(f), para obtener la primera función de densidad de potencia del nivel tonal de entrada compensado en frecuencia PPX'(f)_{n};
caracterizándose el método por
-
la etapa consistente en compensar en frecuencia (2.7, 2.8) la función de densidad de potencia del nivel tonal de entrada PPX(f)_{n} que consiste en ajustar exponencialmente la función de densidad de potencia del nivel tonal de entrada PPX(f)_{n} con una función de factor de ajuste exponencial mediante software con desplazamiento, según la fórmula
7
utilizando un exponente q(f) comprendido entre 0,0 y 1,0, y un desplazamiento comprendido entre 10^{4} y 10^{6}.
\vskip1.000000\baselineskip
2. Método, según la reivindicación 1, que además comprende las etapas de
-
compensar la función de densidad de potencia del nivel tonal de salida (PPY(f)_{n}) por las variaciones de ganancia a corto plazo (2.9 ... 2.11), para obtener una función de densidad de potencia del nivel tonal de salida ajustada localmente (PPY'(f)_{n});
-
transformar (2.13) la función de densidad de potencia del nivel tonal de salida compensado en frecuencia (PPY(f)_{n}) en una escala de percepción de la intensidad sonora para obtener una función de densidad de la intensidad sonora de salida (LY(f)_{n});
-
compensar en frecuencia (3.10, 3.11) la función de densidad de potencia del nivel tonal de entrada (PPX(f)_{n}), con una segunda función de compensación en frecuencia (H_{2}(f)), para obtener una segunda función de densidad de potencia del nivel tonal de entrada compensado en frecuencia (PPX''(f)_{n});
-
transformar (3.14) la segunda función de densidad de potencia del nivel tonal de entrada compensado en frecuencia (PPX''(f)_{n}) en una escala de percepción de la intensidad sonora para obtener una función de densidad de la intensidad sonora de entrada (LX'(f)_{n});
-
promediar (3.4) sobre las tramas de tiempo de la función de densidad de la intensidad sonora de entrada en tramas (LX'(f)_{n}) a fin de obtener un espectro de intensidad sonora de entrada promedio (ALSX(f));
-
promediar (3.5) sobre las tramas de tiempo de la función de densidad de la intensidad sonora de salida en tramas (LY'(f)_{n}) a fin de obtener un espectro de intensidad sonora de salida promedio (ALSY(f));
-
normalizar (3.6, 3.7) el espectro de intensidad sonora de salida promedio (ALSY(f)) con respecto al espectro de intensidad sonora de entrada promedio (ALSX(f)), obteniendo de este modo un espectro de intensidad sonora de salida promedio normalizado (NALSY(f));
-
restar (3.8) el espectro de intensidad sonora de entrada promedio (ALSX(f)) del espectro de intensidad sonora de salida promedio normalizado (NALSY(f)), obteniendo de este modo un espectro de intensidad sonora promedio diferencial (DALS(f));
\global\parskip0.930000\baselineskip
-
integrar según Lebesque (3.9) el espectro de intensidad sonora promedio diferencial (DALS(f)), a fin de establecer una medida de distorsión espectral lineal LSDM para el sistema de transmisión de audio (1).
\vskip1.000000\baselineskip
3. Método, según la reivindicación 2, que además comprende la etapa de:
-
determinar (3.12) una medida de aspereza sonora RM del espectro de intensidad sonora promedio diferencial (DALS(f)) basado en la diferencia absoluta de los valores de banda de frecuencia consecutivos;
-
combinar (3.13) la medida de aspereza sonora RM y la medida de distorsión espectral lineal LSDM multiplicando y mapeando el resultado en forma de una escala MOS (Mean Opinion Score, puntuación media de opinión) (FRIQM).
\vskip1.000000\baselineskip
4. Método, según una de las reivindicaciones anteriores, en el que la etapa consistente en compensar en frecuencia (3.10, 3.11) la función de densidad de potencia del nivel tonal de entrada (PPX(f)_{n}), que da lugar a una segunda función de densidad de potencia del nivel tonal de entrada compensado en frecuencia (PPX''(f)_{n}) se basa en una función de factor de ajuste exponencial mediante software con desplazamiento, con una potencia del orden de 0,4 y un desplazamiento del orden de 5\cdot10^{6}.
5. Método, según una de las reivindicaciones anteriores, en el que la primera función de compensación en frecuencia (H_{1}(f)) se expresa en términos de valores de banda de frecuencia Bark y se obtiene realizando un promedio, como mínimo, de dos valores de banda de frecuencia Bark vecinos de las funciones de densidad de potencia del nivel tonal de entrada y de salida.
6. Método, según una de las reivindicaciones anteriores, en el que la segunda función de compensación en frecuencia (H_{2}(f)) se expresa en términos de valores de banda de frecuencia Bark y se obtiene realizando un promedio, como mínimo, de dos valores de banda de frecuencia Bark vecinos de las funciones de densidad de potencia del nivel tonal de entrada y de salida.
7. Método, según una de las reivindicaciones anteriores, en el que la etapa de procesamiento (2) de la señal de entrada en tramas de tiempo (X_{n}) comprende además la etapa de
-
compensar en frecuencia (5.1, 5.2) la función de densidad de potencia del nivel tonal de entrada (PPX(f)_{n}) con respecto a un espectro ideal (Ideal(f)).
\vskip1.000000\baselineskip
8. Método, según una de las reivindicaciones anteriores, que además comprende las etapas de
-
detectar tramas de tiempo (3.1) en las que las funciones de densidad de potencia del nivel tonal de entrada y de salida (PPX(f)_{n}), (PPY(f)_{n}) por trama son simultáneamente mayores que un valor de criterio de silencio;
-
disponer (3.2 y 3.3) las tramas de la función de densidad de la intensidad sonora de entrada (LX'(f)_{n}) y las tramas de la función de densidad de la intensidad sonora de salida (LY(f)_{n}) bajo el control de la detección de tramas de tiempo (3.1),
\vskip1.000000\baselineskip
9. Método, según una de las reivindicaciones anteriores, en el que la etapa de establecimiento de la medida de distorsión espectral lineal (LSDM) comprende además las etapas consistentes en
-
dividir (4.1) el espectro de intensidad sonora promedio diferencial (DALS(f)) en un espectro de intensidad sonora promedio diferencial positivo (DALS+(f)) y en un espectro de intensidad sonora promedio diferencial negativo (DALS-(f));
-
integrar (4.2) en el dominio de frecuencia los valores positivos del espectro de intensidad sonora promedio diferencial (DALS+(f)), estableciendo de este modo una medida de distorsión espectral lineal positiva (LSDM+);
-
integrar (4.3) en el dominio de frecuencia los valores negativos del espectro de intensidad sonora promedio diferencial (DALS-(f)), estableciendo de este modo una medida de distorsión espectral lineal negativa (LSDM-);
-
multiplicar (4.4) la medida de aspereza sonora (RM) y la medida de distorsión espectral lineal positiva LSDM+ y mapear el resultado en forma de una escala MOS (puntuación media de opinión), obteniendo así una medida de la calidad de la distorsión de la respuesta en frecuencia positiva (FRIQM+).
-
combinar (4.5) la medida de aspereza sonora (RM) y la medida de distorsión espectral lineal negativa (LSDM-) y mapear el resultado en forma de una escala MOS (puntuación media de opinión), obteniendo así una medida de la calidad de la distorsión de la respuesta en frecuencia negativa (FRIQM-).
\global\parskip1.000000\baselineskip
-
ponderar (4.6) la medida de la calidad de la distorsión de la respuesta en frecuencia positiva (FRIQM+) con un primer factor de ponderación (\alpha) mayor que 0;
-
ponderar (4.6) la medida de la calidad de la distorsión de la respuesta en frecuencia negativa (FRIQM-) con un segundo factor de ponderación (B) mayor que 0;
-
sumar (4.6) la medida de la calidad de impacto de la respuesta en frecuencia negativa ponderada (FRIQM-) y la medida de la calidad de impacto de la respuesta en frecuencia positiva (FRIQM+), obteniendo de este modo una medida de la calidad de impacto de la respuesta en frecuencia única (FRIQM).
\vskip1.000000\baselineskip
10. Método, según la reivindicación 1, que además comprende las etapas de:
-
compensar la función de densidad de potencia del nivel tonal de salida (PPY(f)_{n}) por las variaciones de ganancia a corto plazo (2.9-2.11), para obtener una función de densidad de potencia del nivel tonal de salida ajustada localmente (PPY'(f)_{n});
-
transformar (2.12) la primera función de densidad de potencia del nivel tonal de entrada compensado en frecuencia (PPX'(f)_{n}) en una escala de percepción de la intensidad sonora para obtener una función de densidad de la intensidad sonora de entrada (LX(f)_{n});
-
transformar (2.13) la función de densidad de potencia del nivel tonal de salida compensado en frecuencia (PPY(f)_{n}) en una escala de percepción de la intensidad sonora para obtener una función de densidad de la intensidad sonora de salida (LY(f)_{n});
-
restar (3.4) las funciones de densidad de la intensidad sonora de salida y de entrada (LY(f)_{n}), (LX(f)_{n}) para obtener una función de densidad de la intensidad sonora diferencial (D(f)_{n});
-
realizar un procesamiento asimétrico (2.15) entre las bandas de frecuencia positiva y negativa de la función de densidad de la intensidad sonora diferencial (D(f)_{n}), obteniendo de este modo una función de densidad de la intensidad sonora diferencial asimétrica DA(f)_{n});
-
realizar una integración de frecuencia (2.16) de la función de densidad de la intensidad sonora diferencial asimétrica (DA(f)_{n}), y acentuar las partes silenciosas (2.17), obteniendo así una medida de la perturbación asimétrica (DA_{n});
-
realizar una integración de frecuencia (2.18) de la función de densidad de la intensidad sonora diferencial (D(f)_{n}), y acentuar las partes silenciosas (2.19), obteniendo así una medida de la perturbación simétrica (D_{n});
-
realizar una integración temporal (2.20) de la función de densidad de la intensidad sonora diferencial y de la función de densidad de la intensidad sonora diferencial asimétrica (D_{n}, DA_{n}), obteniéndose así una medida de la perturbación simétrica y asimétrica (D, DA) y combinar seguidamente (2.20) las medidas de la perturbación simétrica y asimétrica (D, DA), a fin de obtener una estimación única de la calidad de percepción (PESQ).
\vskip1.000000\baselineskip
11. Sistema de procesamiento para el análisis de la calidad percibida de un sistema de transmisión de audio, que se aplica a un sistema de transmisión de audio que presenta una entrada y la salida, y cuya salida da lugar a una señal de salida en tramas de tiempo, que comprende
-
un procesador
-
medios para aplicar una señal de entrada en tramas y una señal de salida en tramas (Y_{n}),
-
medios para facilitar una medida de la calidad de impacto de la respuesta en frecuencia (LSDM, FRIQM, PESQ),
en el que el procesador está programado para ejecutar cualquiera de las etapas del método, según al menos una de las reivindicaciones 1- 10.
\vskip1.000000\baselineskip
12. Soporte legible por ordenador, que comprende un código de software ejecutable por ordenador que, cuando se ejecuta en un sistema informático, provoca que el sistema informático ejecute cada una de las etapas del método, según al menos una de las reivindicaciones 1-10.
ES05787331T 2004-09-20 2005-09-20 Compensacion en frecuencia para el analisis de precepcion de habla. Active ES2313413T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04077601 2004-09-20
EP04077601 2004-09-20

Publications (1)

Publication Number Publication Date
ES2313413T3 true ES2313413T3 (es) 2009-03-01

Family

ID=35355107

Family Applications (1)

Application Number Title Priority Date Filing Date
ES05787331T Active ES2313413T3 (es) 2004-09-20 2005-09-20 Compensacion en frecuencia para el analisis de precepcion de habla.

Country Status (12)

Country Link
US (1) US8014999B2 (es)
EP (1) EP1792304B1 (es)
JP (1) JP4879180B2 (es)
CN (1) CN101053016B (es)
AT (1) ATE405922T1 (es)
AU (1) AU2005285694B2 (es)
CA (1) CA2580763C (es)
DE (1) DE602005009221D1 (es)
DK (1) DK1792304T3 (es)
ES (1) ES2313413T3 (es)
PT (1) PT1792304E (es)
WO (1) WO2006033570A1 (es)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1975924A1 (en) * 2007-03-29 2008-10-01 Koninklijke KPN N.V. Method and system for speech quality prediction of the impact of time localized distortions of an audio transmission system
JP5192544B2 (ja) * 2007-07-13 2013-05-08 ドルビー ラボラトリーズ ライセンシング コーポレイション 聴覚情景分析とスペクトルの歪みを用いた音響処理
ES2403509T3 (es) * 2007-09-11 2013-05-20 Deutsche Telekom Ag Método y sistema para la evaluación integral y diagnóstica de la calidad de la voz de escucha
ATE470931T1 (de) * 2007-10-11 2010-06-15 Koninkl Kpn Nv Verfahren und system zur messung der sprachverständlichkeit eines tonübertragungssystems
JP5157852B2 (ja) * 2008-11-28 2013-03-06 富士通株式会社 音声信号処理評価プログラム、音声信号処理評価装置
US8655651B2 (en) 2009-07-24 2014-02-18 Telefonaktiebolaget L M Ericsson (Publ) Method, computer, computer program and computer program product for speech quality estimation
KR101430321B1 (ko) * 2009-08-14 2014-08-13 코닌클리즈케 케이피엔 엔.브이. 오디오 시스템의 지각 품질을 결정하기 위한 방법 및 시스템
DK2465112T3 (en) 2009-08-14 2015-01-12 Koninkl Kpn Nv PROCEDURE, COMPUTER PROGRAM PRODUCT, AND SYSTEM FOR DETERMINING AN EVALUATED QUALITY OF AN AUDIO SYSTEM
JP5606764B2 (ja) * 2010-03-31 2014-10-15 クラリオン株式会社 音質評価装置およびそのためのプログラム
CN102456348B (zh) * 2010-10-25 2015-07-08 松下电器产业株式会社 声音补偿参数计算方法和设备、声音补偿系统
TWI687918B (zh) * 2010-12-03 2020-03-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
EP2733700A1 (en) * 2012-11-16 2014-05-21 Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating intelligibility of a degraded speech signal
EP2922058A1 (en) * 2014-03-20 2015-09-23 Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating quality of a degraded speech signal
CN104243723B (zh) * 2014-09-28 2017-03-29 辽宁省建设科学研究院 访客对讲系统音频信号非线性失真检测方法
JP6461064B2 (ja) * 2016-09-28 2019-01-30 本田技研工業株式会社 音響特性校正方法
CN112083807B (zh) * 2020-09-20 2021-10-29 吉林大学 一种基于音触转换的足部地形触觉再现方法及装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8701365D0 (en) * 1987-01-22 1987-02-25 Thomas L D Signal level control
US5321636A (en) * 1989-03-03 1994-06-14 U.S. Philips Corporation Method and arrangement for determining signal pitch
US5588089A (en) * 1990-10-23 1996-12-24 Koninklijke Ptt Nederland N.V. Bark amplitude component coder for a sampled analog signal and decoder for the coded signal
US5687281A (en) * 1990-10-23 1997-11-11 Koninklijke Ptt Nederland N.V. Bark amplitude component coder for a sampled analog signal and decoder for the coded signal
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
JP2953238B2 (ja) * 1993-02-09 1999-09-27 日本電気株式会社 音質主観評価予測方式
US5632003A (en) * 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
NL9500512A (nl) * 1995-03-15 1996-10-01 Nederland Ptt Inrichting voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal, alsmede werkwijze voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal.
WO1997027578A1 (en) * 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
ATE205009T1 (de) * 1996-05-21 2001-09-15 Koninkl Kpn Nv Vorrichtung und verfahren zur bestimmung der qualität eines ausgangssignals, das von einem signalverarbeitungsschaltkreis erzeugt werden soll
WO1998026633A1 (en) * 1996-12-13 1998-06-18 Koninklijke Ptt Nederland N.V. Device and method for signal quality determination
DE19840548C2 (de) * 1998-08-27 2001-02-15 Deutsche Telekom Ag Verfahren zur instrumentellen Sprachqualitätsbestimmung
JP3756686B2 (ja) * 1999-01-19 2006-03-15 日本放送協会 所望信号抽出の度合いを評価する評価値を求める方法および装置、ならびに信号抽出装置のパラメータ制御方法および装置
WO2001065543A1 (en) * 2000-02-29 2001-09-07 Telefonaktiebolaget Lm Ericsson (Publ) Compensation for linear filtering using frequency weighting factors
DK1206104T3 (da) * 2000-11-09 2006-10-30 Koninkl Kpn Nv Måling af en samtalekvalitet af en telefonforbindelse i et telekommunikationsnetværk
DE10134471C2 (de) * 2001-02-28 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
EP1241663A1 (en) * 2001-03-13 2002-09-18 Koninklijke KPN N.V. Method and device for determining the quality of speech signal
EP1298646B1 (en) * 2001-10-01 2006-01-11 Koninklijke KPN N.V. Improved method for determining the quality of a speech signal
US7146313B2 (en) * 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
EP1485691B1 (en) * 2002-03-08 2006-09-13 Koninklijke KPN N.V. Method and system for measuring a system's transmission quality
US7457757B1 (en) * 2002-05-30 2008-11-25 Plantronics, Inc. Intelligibility control for speech communications systems
US7308403B2 (en) * 2002-07-01 2007-12-11 Lucent Technologies Inc. Compensation for utterance dependent articulation for speech quality assessment
EP1443496B1 (en) * 2003-01-18 2006-07-19 Psytechnics Limited Non-intrusive speech signal quality assessment tool
EP1465156A1 (en) * 2003-03-31 2004-10-06 Koninklijke KPN N.V. Method and system for determining the quality of a speech signal
US7526093B2 (en) * 2003-08-04 2009-04-28 Harman International Industries, Incorporated System for configuring audio system

Also Published As

Publication number Publication date
CA2580763C (en) 2014-07-29
US8014999B2 (en) 2011-09-06
AU2005285694B2 (en) 2010-09-16
JP2008513834A (ja) 2008-05-01
US20080040102A1 (en) 2008-02-14
CN101053016B (zh) 2011-05-18
JP4879180B2 (ja) 2012-02-22
CA2580763A1 (en) 2006-03-30
EP1792304B1 (en) 2008-08-20
EP1792304A1 (en) 2007-06-06
DE602005009221D1 (de) 2008-10-02
PT1792304E (pt) 2008-12-04
AU2005285694A1 (en) 2006-03-30
CN101053016A (zh) 2007-10-10
ATE405922T1 (de) 2008-09-15
DK1792304T3 (da) 2009-01-05
WO2006033570A1 (en) 2006-03-30

Similar Documents

Publication Publication Date Title
ES2313413T3 (es) Compensacion en frecuencia para el analisis de precepcion de habla.
KR101148671B1 (ko) 오디오 전송 시스템의 음성 명료도 측정 방법 및 시스템
ES2531556T3 (es) Método, producto de programa de ordenador y sistema para determinar una calidad percibida de un sistema de audio
US9472202B2 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal
US9953663B2 (en) Method of and apparatus for evaluating quality of a degraded speech signal
US20140316773A1 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal
JP4263620B2 (ja) システムの伝送品質を測定する方法及びシステム
ES2403509T3 (es) Método y sistema para la evaluación integral y diagnóstica de la calidad de la voz de escucha
US20100106489A1 (en) Method and System for Speech Quality Prediction of the Impact of Time Localized Distortions of an Audio Transmission System
ES2294143T3 (es) Procedimiento mejorado para determinar la calidad de una señal de habla.
ES2556587T3 (es) Método y aparato para evaluar la inteligibilidad de una señal de voz degradada
KR100275478B1 (ko) 주관적 음질과 상관도가 높은 객관 음질 평가 방법
JP2023535694A (ja) 信号の知覚される品質に対する残響の知覚的影響を判定する方法、及びコンピュータプログラム製品
Yang et al. An improved STI method for evaluating Mandarin speech intelligibility
Olatubosun et al. Intrusive Assessment Of Speech Quality Over Wireless Networks