ES2313413T3 - Compensacion en frecuencia para el analisis de precepcion de habla. - Google Patents
Compensacion en frecuencia para el analisis de precepcion de habla. Download PDFInfo
- Publication number
- ES2313413T3 ES2313413T3 ES05787331T ES05787331T ES2313413T3 ES 2313413 T3 ES2313413 T3 ES 2313413T3 ES 05787331 T ES05787331 T ES 05787331T ES 05787331 T ES05787331 T ES 05787331T ES 2313413 T3 ES2313413 T3 ES 2313413T3
- Authority
- ES
- Spain
- Prior art keywords
- frequency
- sound intensity
- function
- input
- density function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims description 4
- 230000002265 prevention Effects 0.000 title 1
- 230000006870 function Effects 0.000 claims abstract description 173
- 230000004044 response Effects 0.000 claims abstract description 45
- 230000005540 biological transmission Effects 0.000 claims abstract description 23
- 230000010354 integration Effects 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 45
- 238000001228 spectrum Methods 0.000 claims description 35
- 230000008447 perception Effects 0.000 claims description 25
- 230000003595 spectral effect Effects 0.000 claims description 23
- 238000006073 displacement reaction Methods 0.000 claims description 15
- 238000005259 measurement Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 230000001944 accentuation Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 238000004439 roughness measurement Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 101100409074 Nicotiana tabacum PPXI gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- XOFYZVNMUHMLCC-ZPOLXVRWSA-N prednisone Chemical compound O=C1C=C[C@]2(C)[C@H]3C(=O)C[C@](C)([C@@](CC4)(O)C(=O)CO)[C@@H]4[C@@H]3CCC2=C1 XOFYZVNMUHMLCC-ZPOLXVRWSA-N 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2236—Quality of speech transmission monitoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
- Machine Translation (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Measuring Instrument Details And Bridges, And Automatic Balancing Devices (AREA)
Abstract
Método de análisis de la calidad percibida de un sistema de transmisión de audio en el que se establece una primera función de densidad de potencia del nivel tonal de entrada compensado en frecuencia PPX''(f)n de una señal de entrada en tramas de tiempo Xn, en el que el sistema de transmisión de audio (1) presenta una entrada y una salida, y cuya salida da lugar a una señal de salida en tramas de tiempo Yn, representando n una trama de tiempo discreto y f una banda de frecuencia discreta, comprendiendo el método las siguientes etapas: - procesar (2.1-2.3) la señal de entrada Xn, para obtener una función de densidad de potencia del nivel tonal de entrada PPX(f)n; - procesar (2.4-2.6) la señal de salida Yn, para obtener una función de densidad de potencia del nivel tonal de salida PPX(f)n; - compensar en frecuencia (2.7, 2.8) la función de densidad de potencia del nivel tonal de entrada PPX(f)n, con una primera función de compensación en frecuencia H1(f), para obtener la primera función de densidad de potencia del nivel tonal de entrada compensado en frecuencia PPX''(f)n; caracterizándose el método por - la etapa consistente en compensar en frecuencia (2.7, 2.8) la función de densidad de potencia del nivel tonal de entrada PPX(f)n que consiste en ajustar exponencialmente la función de densidad de potencia del nivel tonal de entrada PPX(f)n con una función de factor de ajuste exponencial mediante software con desplazamiento, según la fórmula (Ver fórmula) utilizando un exponente q(f) comprendido entre 0,0 y 1,0, y un desplazamiento comprendido entre 10 4 y 10 6 .
Description
Compensación en frecuencia para el análisis de
percepción de habla.
La invención se refiere a un procedimiento para
establecer una función de densidad de potencia del nivel tonal de
entrada compensado en frecuencia de una señal de entrada en tramas
de tiempo, para su aplicación a un sistema de transmisión de audio
que presenta una entrada y una salida, y cuya salida da lugar a una
señal de salida en tramas de tiempo.
La invención también se refiere a un sistema de
procesamiento para establecer una función de densidad de potencia
del nivel tonal de entrada compensado en frecuencia.
La invención también se refiere a un soporte
legible por un ordenador, que comprende un código de software
ejecutable por un ordenador.
El procedimiento y el sistema a los que se
refiere la presente invención se pueden utilizar, por ejemplo, como
parte de un procedimiento o sistema para analizar la calidad
percibida de un sistema de transmisión de audio. En una solicitud
de patente europea, nº EP1343145, publicada anteriormente, se dan a
conocer tales métodos y sistemas para analizar una medida de la
calidad de percepción del impacto de la distorsión de frecuencia
lineal, que también se dan a conocer en las referencias
bibliográficas [1] ... [8].
El sistema y procedimiento dados a conocer, así
como los que les anteceden, permiten realizar la evaluación de
percepción del habla como parte de la recomendación
ITU-T P.862 (denominada en lo sucesivo P.862), con
la que se obtiene una medida global única de la calidad percibida de
la señal de salida degradada, con respecto a una señal de
entrada.
El procedimiento y sistema dados a conocer están
basados en el concepto de que la medición del habla y de la calidad
de audio deben realizarse en el dominio de la percepción (véase la
figura 1). Este objetivo se alcanza comparando una señal de habla
de referencia X_{n}, que se aplica al sistema a prueba (1), con su
señal de salida degradada Y_{n}. Estableciendo las
representaciones de las percepciones internas de estas señales
(0.1), (0.2) y comparándolas (0.3), es posible realizar una
estimación de la calidad percibida mapeando (0.4) el resultado
según una escala de calidad percibida, lo que da lugar a una medida
de la calidad percibida PESQ. En la técnica anterior se ha
determinado, por estimación empírica, una escala de calidad
percibida, también conocida como escala o puntuación media de
opinión (MOS). En ella, varias personas deben juzgar la calidad de
fragmentos de habla degradados o distorsionados. Las puntuaciones se
relacionan con la distorsión real y se plasman en una escala de
percepción. Esta escala puede utilizarse para predecir la puntuación
de percepción, dependiendo de la distorsión presente en una
señal.
Los sistemas de procesamiento disponibles
actualmente para la determinación de la calidad percibida de un
sistema de transmisión de audio, incluido P. 862, adolecen del hecho
de que dan como resultado un número que representa la calidad
global. Esto hace que resulte prácticamente imposible encontrar las
causas subyacentes de las degradaciones percibidas. Las mediciones
clásicas, tales como el cociente señal / ruido, la distorsión de la
respuesta en frecuencia, la distorsión armónica total, etc.
presuponen la presencia de cierto tipo de degradación y cuantifican
entonces esta degradación realizando cierto tipo de mediciones de
calidad. Esta estrategia clásica encuentra una o más causas
subyacentes del rendimiento deficiente del sistema a prueba, pero
no es capaz de cuantificar el impacto de la distorsión de respuesta
en frecuencia lineal en relación con los demás tipos de distorsión,
en relación con la calidad percibida global.
Además, el rendimiento de los procedimientos y
de los sistemas de procesamiento disponibles actualmente para la
determinación de la calidad percibida de un sistema de transmisión
de audio, incluido P.862, producen resultados inadecuados, dado que
estos sistemas no realizan un tratamiento adecuado de la distorsión
de la frecuencia lineal percibida.
Los procedimientos anteriores utilizan la
compensación en frecuencia de una función de densidad de potencia
de entrada, derivada de la señal de entrada, con el fin de
cuantificar el efecto de las distorsiones de respuesta en
frecuencia lineal, que tienen menos impacto sobre la calidad
percibida del habla que las distorsiones no lineales.
Los procedimientos conocidos de compensación en
frecuencia fallan debido a que, o bien utilizan una función de
limitación drástica o bien una función de limitación modificada, que
no permiten cuantificar el impacto de las distorsiones de respuesta
en frecuencia lineal sobre la calidad percibida del habla de una
forma correcta desde el punto de vista de percepción.
El documento WO 03/076889 da a conocer un
procedimiento de obtención de una medición de la distorsión no
lineal que correlaciona la percepción subjetiva promedio de la
distorsión no lineal. En este procedimiento, la función de densidad
de potencia del nivel tonal de salida de un dispositivo se ajusta de
tal forma que se elimina gran parte del efecto de la distorsión
lineal. Se utilizan factores de ajuste para las bandas de frecuencia
respectivas, que coinciden con un cociente de las densidades de
potencia del nivel tonal promedio en estas bandas en la entrada y
en la salida del dispositivo, cada una de ellas corregida con un
desplazamiento. Los cocientes excesivos se limitan para dar lugar a
un factor de ajuste y se utiliza una adaptación más complicada del
cociente entre los niveles de limitación y un rango principal de
cocientes.
La patente EP 1 241 663 da a conocer un
procedimiento de ajuste de señales dependientes del tiempo en la
entrada y en la salida de un dispositivo a prueba, mediante un
factor de ajuste independiente de la frecuencia que es el cociente
de las densidades de potencia del nivel tonal promedio en la entrada
y en la salida del dispositivo, cada una de ellas más un
desplazamiento. La patente EP 1 241 663 utiliza un factor de ajuste
que es la raíz cuadrada de este cociente de potencias cuando se
ajustan las amplitudes de las señales.
Es un objetivo de la presente invención dar a
conocer un procedimiento y un sistema para la compensación en
frecuencia de funciones de densidad de potencia del nivel tonal de
entrada, que permiten cuantificar el impacto de las distorsiones de
respuesta en frecuencia lineal sobre la calidad percibida del habla
de una forma correcta desde el punto de vista de percepción.
El objetivo de la invención puede alcanzarse, en
un primer aspecto de la presente invención, mediante un
procedimiento, según la reivindicación 1.
En la técnica anterior se conocen las funciones
de densidad de potencia del nivel tonal y el ajuste mediante
software propiamente dichos. Con esta función de compresión, se
puede cuantificar el impacto global de las distorsiones de
respuesta en frecuencia lineal a fin de obtener una puntuación
global de la calidad global, que incluye la cuantificación correcta
de las distorsiones de respuesta en frecuencia lineal. Este único
número de calidad puede calcularse, por ejemplo, del mismo modo que
se realiza en P.862 [3], es decir, para cada trama de tiempo, se
calculan dos perturbaciones diferentes a partir de una integración
de frecuencia de la función diferencial de la intensidad sonora. El
número de calidad final se obtiene a partir de dos integraciones en
función del tiempo distintas. La mejora permite realizar una
correlación mejor entre las mediciones objetivas de la calidad del
habla y las evaluaciones subjetivas de la calidad del habla, en
especial en los sistemas de transmisión de habla en los que las
distorsiones de respuesta en frecuencia lineal dominan la calidad
global del habla (es decir, sistemas que sólo llevan a cabo una
limitación del ancho de banda).
Basándose en este procedimiento mejorado, según
la presente invención, las realizaciones pueden dar a conocer un
procedimiento o sistema para la determinación de la calidad
percibida de un sistema de transmisión de audio, que puede obtener
resultados precisos con respecto a la distorsión de respuesta en
frecuencia lineal tal como P.862 y un procedimiento o sistema que
permiten obtener un único valor de salida que es representativo de
la distorsión percibida, incluidas las distorsiones en frecuencia
lineal.
Otra realización, según el primer aspecto de la
presente invención, comprende además las etapas de:
- -
- compensar la función de densidad de potencia del nivel tonal de salida por las variaciones de ganancia a corto plazo, para obtener una función de densidad de potencia del nivel tonal de salida ajustado localmente;
- -
- transformar la función de densidad de potencia del nivel tonal de salida compensado en frecuencia en una escala de percepción de la intensidad sonora para obtener una función de densidad de la intensidad sonora de salida;
- -
- compensar en frecuencia la función de densidad de potencia del nivel tonal de entrada, que da lugar a una segunda función de densidad de potencia del nivel tonal de entrada compensado en frecuencia basada en una función de factor de ajuste exponencial mediante software, con una potencia del orden de 0,4 y un desplazamiento del orden de 5\cdot10^{6}
- -
- transformar la segunda función de densidad de potencia del nivel tonal de entrada compensado en frecuencia en una escala de percepción de la intensidad sonora para obtener una función de densidad de la intensidad sonora de entrada;
- -
- promediar sobre las tramas de tiempo de la función de densidad de la intensidad sonora de entrada en tramas a fin de obtener un espectro de intensidad sonora de entrada promedio;
- -
- promediar sobre las tramas de tiempo de la función de densidad de la intensidad sonora de salida en tramas a fin de obtener un espectro de intensidad sonora de salida promedio;
- -
- normalizar el espectro de intensidad sonora de salida promedio con respecto al espectro de intensidad sonora de entrada promedio, obteniendo de este modo un espectro de intensidad sonora de salida promedio normalizado;
- -
- restar el espectro de intensidad sonora de entrada promedio del espectro de intensidad sonora de salida promedio normalizado, obteniendo de este modo un espectro de intensidad sonora promedio diferencial;
- -
- integrar según Lebesque el espectro de intensidad sonora promedio diferencial, a fin de establecer una medida de distorsión espectral lineal para el sistema de transmisión de audio;
ello permite establecer una medida única
indicativa de la distorsión en frecuencia lineal percibida.
\vskip1.000000\baselineskip
El procedimiento como tal obtiene una medida
única de la calidad con respecto a la distorsión en frecuencia
lineal, basada en la diferencia en el espectro de la intensidad
sonora. No obstante, esta medida aún debe ser mapeada a una medida
de la calidad de percepción, lo que se consigue en la siguiente
realización, según el primer aspecto de la presente invención, que
comprende además las etapas de
- -
- determinar una medida de aspereza sonora del espectro de intensidad sonora promedio diferencial basado en la diferencia absoluta de los valores de banda de frecuencia consecutivos;
- -
- combinar la medida de aspereza sonora y la medida de distorsión espectral lineal por multiplicación y mapear el resultado en forma de una escala MOS, obteniendo así una medida de la calidad de impacto de la respuesta en frecuencia.
\vskip1.000000\baselineskip
Otra realización según el primer aspecto de la
presente invención, en la que la etapa de procesamiento de la señal
de entrada en tramas de tiempo consiste además en compensar en
frecuencia una función de densidad de potencia del nivel tonal de
entrada con respecto a un espectro ideal, presenta la ventaja de que
compensa los errores de la técnica de grabación, que con frecuencia
conducen a densidades de potencia espectral desequilibradas, en la
mayor parte de los casos una acentuación excesiva de las frecuencias
más bajas (inferiores a 500 Hz). Esta etapa se aplica sobre las
densidades de potencia del nivel tonal de entrada según se obtienen
de la función de ventana de Hanning, de la función de
transformación rápida de Fourier (FFT) y distorsión en frecuencia de
la señal de entrada, según la referencia [1].
En otra realización, según el primer aspecto de
la presente invención, la primera función de compensación en
frecuencia se expresa en términos de valores de banda de frecuencia
Bark y se obtiene realizando un promedio, como mínimo, de dos
valores de banda de frecuencia Bark vecinos de las funciones de
densidad de potencia del nivel tonal de entrada y de salida.
En otra realización, según el primer aspecto de
la presente invención, la segunda función de compensación en
frecuencia también se expresa en términos de valores de banda de
frecuencia Bark y se obtiene realizando un promedio, como mínimo,
de dos valores de banda de frecuencia Bark vecinos de las funciones
de densidad de potencia del nivel tonal de entrada y de salida.
La obtención de promedios en el cálculo de la
función de compensación en frecuencia suaviza los máximos locales
de la función de compensación en frecuencia que son menos audibles
de lo que habría predicho un cálculo directo, sin la
suavización.
Otra realización, según el primer aspecto de la
presente invención, comprende además las etapas de:
- -
- detectar tramas de tiempo en las que las funciones de densidad de potencia del nivel tonal de entrada y de salida por trama son simultáneamente mayores que un valor de criterio de silencio;
- -
- disponer las tramas de la función de densidad de la intensidad sonora de entrada y las tramas de la función de densidad de la intensidad sonora de salida bajo el control de la detección de tramas de tiempo,
evitando la inestabilidad de los resultados
debido a valores del orden de 0, especialmente en las zonas en las
que pueda producirse una división por cero.
\vskip1.000000\baselineskip
Una realización adicional, según el primer
aspecto de la presente invención, en el que la etapa de
establecimiento de la medida de distorsión espectral lineal
comprende además
- -
- dividir el espectro de intensidad sonora promedio diferencial en un espectro de intensidad sonora promedio diferencial positivo y en un espectro de intensidad sonora promedio diferencial negativo;
- -
- integrar en el dominio de frecuencia los valores positivos del espectro de intensidad sonora promedio diferencial, estableciendo de este modo una medida de distorsión espectral lineal positiva;
- -
- integrar en el dominio de frecuencia los valores negativos del espectro de intensidad sonora promedio diferencial, estableciendo de este modo una medida de distorsión espectral lineal negativa;
- -
- multiplicar la medida de aspereza sonora y la medida de distorsión espectral lineal positiva y mapear el resultado en forma de una escala MOS (puntuación media de opinión), obteniendo así una medida de la calidad de la distorsión de la respuesta en frecuencia positiva;
- -
- combinar la medida de aspereza sonora y la medida de distorsión espectral lineal negativa mediante multiplicación y mapear el resultado en forma de una escala MOS (puntuación media de opinión), obteniendo así una medida de la calidad de la distorsión de la respuesta en frecuencia negativa,
- -
- ponderar la medida de la calidad de la distorsión de la respuesta en frecuencia positiva con un primer factor de ponderación mayor que 0,
- -
- ponderar la medida de la calidad de la distorsión de la respuesta en frecuencia negativa con un segundo factor de ponderación mayor que 0;
- -
- sumar la medida de la calidad de impacto de la respuesta en frecuencia negativa ponderada y la medida de la calidad de impacto de la respuesta en frecuencia positiva, obteniendo de este modo una medida de la calidad de impacto de la respuesta en frecuencia única,
permitiendo realizar un ajuste fino y optimizar
el procedimiento para las bandas de frecuencia que aparecen más
intensas en la señal de salida y las bandas de frecuencia menos
intensas en la señal de salida. Las bandas de frecuencia que se
incluyen en las partes positiva o negativa del espectro de
intensidad sonora promedio diferencial se pueden controlar en la
etapa de compensación en frecuencia de la función de densidad de
potencia del nivel tonal de entrada, ajustando los factores de
compensación de dicha etapa. Estos factores de compensación se
ajustan para conseguir una correlación óptima entre la salida de la
medida de la calidad de impacto de la respuesta en frecuencia y la
percepción subjetiva.
\vskip1.000000\baselineskip
Otra realización, según el primer aspecto de la
presente invención, comprende además las etapas de:
- -
- compensar la función de densidad de potencia del nivel tonal de salida por las variaciones de ganancia a corto plazo, para obtener una función de densidad de potencia del nivel tonal de salida ajustado localmente;
- -
- transformar la primera función de densidad de potencia del nivel tonal de entrada compensado en frecuencia en una escala de percepción de la intensidad sonora para obtener una función de densidad de la intensidad sonora de entrada;
- -
- transformar la función de densidad de potencia del nivel tonal de salida compensado en frecuencia en una escala de percepción de la intensidad sonora para obtener una función de densidad de la intensidad sonora de salida;
- -
- restar las funciones de densidad de la intensidad sonora de entrada y de salida para obtener una función de densidad de la intensidad sonora diferencial;
- -
- realizar un procesamiento asimétrico entre las bandas de frecuencia positiva y negativa de la función de densidad de la intensidad sonora diferencial, obteniendo de este modo una función de densidad de la intensidad sonora diferencial asimétrica;
- -
- realizar una integración de frecuencia de la función de densidad de la intensidad sonora diferencial asimétrica, y acentuar las partes silenciosas, obteniendo así una medida de la perturbación asimétrica;
- -
- realizar una integración de frecuencia de la función de densidad de la intensidad sonora diferencial, y acentuar las partes silenciosas, obteniendo así una medida de la perturbación simétrica;
- -
- realizar una integración temporal de la función de densidad de la intensidad sonora diferencial y de la función de densidad de la intensidad sonora diferencial asimétrica, obteniéndose así una medida de la perturbación simétrica y asimétrica y combinar seguidamente las medidas de la perturbación simétrica y asimétrica, a fin de obtener una estimación única de la calidad de percepción,
permitiendo determinar la calidad percibida de
un sistema de transmisión de audio, que puede obtener resultados
precisos con respecto a la distorsión en frecuencia lineal.
\vskip1.000000\baselineskip
El objetivo de la invención puede alcanzarse
además, en un segundo aspecto de la presente invención, mediante un
sistema de procesamiento, según la reivindicación 11.
El objetivo de la invención puede alcanzarse
además, en un tercer aspecto de la presente invención, mediante un
soporte legible por ordenador, según se define en la reivindicación
12.
La figura 1 muestra un diagrama general de un
procedimiento para la determinación de la calidad percibida de un
sistema de transmisión de audio, según la técnica anterior.
La figura 2 muestra un diagrama que representa
un procedimiento para la determinación de la calidad percibida de un
sistema de transmisión de audio, según la recomendación
ITU-T P.862, según la técnica anterior.
La figura 3 muestra un diagrama que representa
un procedimiento para la determinación de la calidad percibida de un
sistema de transmisión de audio, según una realización preferente de
la invención.
La figura 4 muestra una mejora según una primera
realización de la invención.
La figura 5 muestra una mejora adicional según
una segunda realización de la invención.
La figura 2 da a conocer un diagrama que
representa un procedimiento para la determinación de la calidad
percibida de un sistema de transmisión de audio, según la
recomendación ITU-T P.862, referencia bibliográfica
[6], que se incluye en la presente memoria a modo de referencia.
Este diagrama se explica brevemente, dado que
las etapas 2.1 ... 2.12 también se utilizan en el sistema y en el
procedimiento según la presente invención. La etapa 1 representa la
conversión de una señal de entrada X_{n} en una señal de salida
Y_{n} por acción de un sistema o dispositivo a prueba 1, en donde
las señales de entrada y de salida están representadas por tramas
de tiempo discretas 1 ... n, representando X_{n} una señal de
referencia y Y_{n} la respuesta distorsionada procedente de un
sistema a prueba 1 en X_{n} . Las tramas pueden tener una
duración de 32 ms, según las presentes realizaciones de PESQ. Para
la invención, la duración de la trama puede ser menor que 32 ms o
mucho más larga. También es posible contemplar duraciones que cubran
un fragmento completo de habla, del orden de minutos.
El dispositivo o sistema a prueba puede ser una
red de telecomunicaciones, un terminal de telecomunicaciones, por
ejemplo un teléfono, o cualquier dispositivo o sistema para el
procesamiento de audio. La señal de entrada puede ser un fragmento
de habla, pero la aplicación de las realizaciones de la invención no
se limitan al habla.
A fin de establecer una medida de la calidad
percibida para la señal de salida Y_{n} con respecto a la señal
de entrada X_{n}, es necesario realizar cierto procesamiento
previo. Según la técnica anterior, esto se realiza durante las
etapas
2.1 ... 2.6.
2.1 ... 2.6.
Las etapas 2.1 y 2.4 representan la asignación a
ventanas de tiempo de las tramas de la señal de entrada X_{n} y de
las tramas de la señal de salida Y_{n}, respectivamente, mediante
una función de ventana de Hanning.
Las etapas 2.2 y 2.5 representan la
transformación discreta de Fourier trama por trama de las señales de
entrada y de salida, respectivamente.
Las etapas 2.3 y 2.6 representan la distorsión
de la señal de entrada y de salida transformadas de Fourier en las
denominadas bandas Bark, obteniendo de este modo las funciones de
densidad de potencia del nivel tonal en bandas de frecuencia
discretas para la señal de entrada y para la señal de salida,
PPX(f)_{n} y PPY(f)_{n}
respectivamente.
La etapa 2.7 representa el cálculo de una
compensación en frecuencia lineal, que se utiliza para ponderar en
la etapa 2.8 la función de densidad de potencia del nivel tonal de
entrada PPX(f)_{n} para obtener una función de
densidad de potencia del nivel tonal de entrada compensado en
frecuencia PPX'(f)_{n}. La función de densidad de potencia
del nivel tonal de entrada PPX(f)_{n} se compensa en
frecuencia para el filtrado que tiene lugar en el sistema de
transmisión de audio a prueba 1. En P862, la magnitud de la
compensación determina la contribución de la distorsión en
frecuencia lineal en el valor PESQ definitivo.
La compensación en frecuencia, según se da a
conocer la técnica anterior, es decir P.862, utiliza una estimación
de la respuesta en frecuencia lineal del sistema a prueba, basada en
todas las tramas para las que la señal de referencia de entrada es
mayor que un valor de criterio de silencio (tramas de habla activa,
PPX(f)_{n}>10^{7}, tramas más intensas que
aproximadamente 70 dB SPL para P.862 cuando se utiliza con niveles
de reproducción correctamente fijados). La compensación en
respuesta de frecuencia en P.862 se lleva a cabo sobre la función de
densidad de potencia del nivel tonal de entrada
PPX(f)_{n} por trama.
Todas las funciones de densidad y
desplazamientos de esta descripción se ajustan según un estándar ITU
P.862 para las funciones de potencia.
En 2.7 se calcula una función de compensación de
la respuesta en frecuencia H(f) promediando
PPX(f)_{n} y
PPY(f)_{n}, las salidas de 2.3 y 2.6 respectivamente, a lo largo del índice de tiempo n (promedio de potencia plana), dando como resultado unas funciones de densidad de potencia del nivel tonal promedio APPX y APPY (utilizadas en 2.7), a partir de las cuales se calcula, mediante multiplicación, una primera función de compensación en frecuencia PPX'(f)_{n}
en la salida de 2.8 . El objetivo consiste en compensar completamente las distorsiones de respuestas de frecuencia
pequeñas e inaudibles, es decir, se compensan todas las desviaciones menores de un valor prefijado de decibelios.
PPY(f)_{n}, las salidas de 2.3 y 2.6 respectivamente, a lo largo del índice de tiempo n (promedio de potencia plana), dando como resultado unas funciones de densidad de potencia del nivel tonal promedio APPX y APPY (utilizadas en 2.7), a partir de las cuales se calcula, mediante multiplicación, una primera función de compensación en frecuencia PPX'(f)_{n}
en la salida de 2.8 . El objetivo consiste en compensar completamente las distorsiones de respuestas de frecuencia
pequeñas e inaudibles, es decir, se compensan todas las desviaciones menores de un valor prefijado de decibelios.
La etapa 2.9 representa el cálculo de una
función de ajuste exponencial local para compensar las variaciones
de ganancia a corto plazo de la función de densidad de potencia del
nivel tonal de salida, de modo que se almacena en 2.10 una función
de ajuste exponencial local S_{n-1}, que se
utilizará en la siguiente trama. La compensación se lleva a cabo
multiplicando en 2.11 la función de ajuste exponencial local S_{n}
por la función de densidad de potencia del nivel tonal de salida
PPY(f)_{n}, dando lugar a una función de densidad de
potencia del nivel tonal de salida con ajuste exponencial local
PPY'(f)_{n}.
Las funciones de densidad de potencia del nivel
tonal de entrada y de salida PPX'(f)_{n} y
PPY'(f)_{n} se transforman a una escala de intensidad
sonora en las etapas 2.12 y 2.13, según la escala de intensidad
sonora Sone utilizando el algoritmo de Zwicker, resultando las
funciones de densidad de la intensidad sonora de entrada y de
salida LX(f)_{n} y LY(f)_{n}
respectivamente. Por consiguiente, las funciones de densidad de la
intensidad sonora de entrada y de salida LX(f)_{n} y
LY(f)_{n} son representaciones de la intensidad
sonora de las señales de entrada y de salida en un dominio de
frecuencia de percepción. En la etapa 2.14, se restan las funciones
de densidad de la intensidad sonora de entrada y de salida
LX(f)_{n} y LY(f)_{n}, para obtener
una función de densidad de la intensidad sonora diferencial
D(f)_{n}, de la que se puede deducir una medida de
la calidad percibida.
Tras realizar un procesamiento asimétrico en
2.15 entre las bandas de frecuencia positiva y negativa de la
función de densidad de la intensidad sonora diferencial
D(f)_{n}, la integración de frecuencia en 2.16 y la
acentuación de las partes silenciosas en 2.17, la función de
densidad de la intensidad sonora diferencial
D(f)_{n} se transforma en una medida de la
perturbación asimétrica DA, que se puede utilizar como medida de la
calidad percibida. Lo mismo es aplicable en las etapas 2.18 y 2.19,
en las que la función de densidad de la intensidad sonora
diferencial D(f)_{n} se transforma en una medida de
la perturbación Dn, realizando una integración de frecuencia y
acentuando las partes silenciosas, respectivamente, pero sin
asimetría.
A continuación, tras la suma sobre las tramas de
tiempo en la etapa 2.20, la medida de la perturbación D y la medida
de la perturbación asimétrica DA se combinan en una única
calificación PESQ, que denota una estimación de la calidad de
percepción para el sistema de transmisión de audio 1.
Todas las etapas 2.1 ... 2.20 se describen con
más detalle en [6].
La figura 3 de conocer un procedimiento para la
medición de la calidad de transmisión de un sistema de transmisión
de audio según la presente invención, en el que se utilizan las
etapas conocidas 2.1 ... 2.11 para determinar una función de
densidad de potencia del nivel tonal de entrada compensado en
frecuencia PPX'(f)_{n} y en el se utiliza la etapa 2.13
para determinar una función de densidad de la intensidad sonora
LY(f)_{n}.
Según la presente invención, en la etapa 2.7 se
calcula una nueva primera función de compensación en frecuencia
H_{1}(f). H_{1}(f), es una función de factor de
ajuste exponencial mediante software con desplazamiento [6], que
utiliza las funciones de densidad de potencia del nivel tonal de
entrada y de salida promediadas en el tiempo APPX(f) y
APPY(f):
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
en la que q(f) se encuentra
comprendida en el intervalo 0,0-1,0 (puede ser
dependiente de la frecuencia), y en la que el DESPLAZAMIENTO se
encuentra comprendido en el intervalo
10^{4}-10^{6}.
\vskip1.000000\baselineskip
Cuanto menor sea q y mayor sea el
DESPLAZAMIENTO, menor será la magnitud de la compensación en
frecuencia conseguida. Es necesario ajustar los parámetros q y
DESPLAZAMIENTO de esta etapa 2.7 para obtener unos resultados
óptimos.
Preferentemente, q(f) es del orden de 0,5
y el DESPLAZAMIENTO es del orden de 4\cdot10^{5}.
Al igual que en P.862, en 2.8 se calcula una
primera función de densidad de potencia del nivel tonal de entrada
compensado en frecuencia PPX'(f)_{n} multiplicando la
función de densidad de potencia del nivel tonal de entrada
PPX(f)_{n} por la primera función de compensación en
frecuencia H_{1}(f).
En la etapa 3.10, se calcula una segunda función
de compensación en frecuencia H_{2}(f) de forma similar a
la etapa 2.7 durante el mismo conjunto de tramas de habla activa,
utilizando una función de factor de ajuste exponencial mediante
software con desplazamiento, pero ahora con un mayor
desplazamiento:
en la que q(f) se encuentra
comprendida en el intervalo 0,0-1,0 (puede ser
dependiente de la frecuencia), y en la que el DESPLAZAMIENTOGRANDE
se encuentra comprendido en el intervalo
10^{5}-10^{8}.
Preferentemente, q(f) es del orden de 0,4
y el DESPLAZAMIENTOGRANDE es del orden de 5\cdot10^{6}.
La segunda función de compensación en frecuencia
H_{2}(f) se utiliza para multiplicar, en la etapa 3.11, la
función de densidad de potencia del nivel tonal de entrada
PPX(f)_{n} para obtener una función de densidad de
potencia del nivel tonal compensado secundaria
PPX''(f)_{n}.
En una realización, según la presente invención,
las funciones de compensación en frecuencia primaria y secundaria
H_{1}(f) y H_{2}(f) no se calculan directamente a
partir de las funciones APPX(f) y APPY(f), sino a
partir de una versión suavizada de estas funciones. El alisado se
lleva a cabo realizando un promedio sobre los valores de banda de
frecuencia Bark (f), f=0, ... f_{MAX} según lo especificado en
P.862 [3], en donde f=0 y f_{MAX} representan el primero y el
último de los valores de banda de frecuencia. El cálculo del
promedio se realiza sobre las bandas de frecuencia 0, 1 y
f_{MAX}, f_{MAX}-1, respectivamente. En el caso
del segundo y penúltimo valores (1 y f_{MAX}-1)
el promedio se realiza sobre las bandas de frecuencia 0, 1, 2 y
f_{MAX}, f_{MAX}-1,
f_{MAX}-2, respectivamente. A continuación, este
promedio se repite hacia arriba hasta un índice inferior de 10 y
hacia abajo hasta un índice superior de f_{MAX}-4.
Entre los índices 10 y f_{MAX}-4, el cálculo del
promedio se realiza sobre cinco bandas de frecuencia, desde dos a la
izquierda hasta dos a la derecha del valor del índice.
En la etapa 3.14, similar a la etapa 2.12, la
función de densidad de potencia del nivel tonal compensado
secundaria PPX''(f)_{n} se transforma en una función de
densidad de la intensidad sonora de entrada LX'(f)_{n} que
contiene menos compensaciones de la distorsión de respuesta en
frecuencia lineal, y después se utiliza en el cálculo de la
intensidad sonora según la presente invención. Es necesario ajustar
los parámetros q(f) y DESPLAZAMIENTOGRANDE de estas etapas
3.10 y 3.11 para obtener unos resultados óptimos en una medida de la
calidad de la distorsión en frecuencia lineal.
Seguidamente, la nueva función de densidad de la
intensidad sonora de entrada LX'(f)_{n} y la función de
densidad de la intensidad sonora de salida LY(f)_{n}
de tipo P.862, se utilizan para calcular las funciones de densidad
de la intensidad sonora promediadas ALSX(f) y ALSY(f)
promediando en las etapas 3.4 y 3.5 las funciones de densidad de la
intensidad sonora espectral LX'(f)_{n} y
LY(f)_{n}.
El promedio en el tiempo se realiza según
Lebesque, 3 y
30 con p>1, preferentemente p = 2,5.
Opcionalmente, este promedio se realiza sólo
sobre las tramas de tiempo para las que tanto la potencia de
entrada y de salida por trama sea mayor que un valor de criterio de
silencio, preferentemente PPX(f)_{n} y
PPY(f)_{n}>10^{7}, determinado en la etapa 3.1
y efectuado en las etapas 3.2 y 3.3.
Estas funciones de densidad de la intensidad
sonora de entrada y de salida promediadas, que representan la
intensidad sonora como función de la frecuencia, se integran después
con respecto a la potencia en la etapa 3.6 sobre el eje de
frecuencias (Lp=1), dando como resultado un único número de
intensidad sonora NX para la referencia (idealizada) y un número de
intensidad sonora NY para la señal distorsionada ajustada, según
4 y 40
Estos números de intensidad sonora NX, NY únicos
se utilizan después para normalizar la función de densidad de la
intensidad sonora promediada ALSY(f) en la etapa 3.7, de tal
forma que el promedio de la función de densidad de la intensidad
sonora de salida promediada ALSY(f) en el dominio de
frecuencia sea el mismo tanto para la señal de entrada (idealizada)
como para la señal de salida ajustada, dando como resultado una
función de densidad de la intensidad sonora promediada normalizada
NALSY(f).
En la etapa 3.8, se define una función de
intensidad sonora promedio diferencial DALS(f) entre las
densidades de la intensidad sonora promediadas ALSX(f) y
NALSY(f). En la etapa 3.9, esta función de intensidad sonora
promedio diferencial se integra sobre el eje de la frecuencia
utilizando de nuevo Lebesque, pero no sobre las diferencias de las
bandas de frecuencia individuales, utilizando un p<1,0 (con p
preferentemente en el intervalo de 0,2 a 0,4) para la intensidad
sonora en cada banda de frecuencia Bark. El resultado es una medida
de la distorsión de la respuesta en frecuencia LSDM, según
5 , en la que f denota una banda de frecuencia en el
espectro de intensidad sonora promedio diferencial.
En la etapa 3.12, se puede calcular una medida
de aspereza sonora RM especial, tomando el valor absoluto de las
bandas de frecuencia de intensidad sonora consecutivas de la función
de la intensidad sonora diferencial DALS(f) y realizando el
sumatorio para todas las bandas de frecuencia consecutivas:
6 , (siendo f el número del índice de banda, con p
comprendida entre 0,5-2,0 siendo preferentemente p
del orden de 1,5).
El número de aspereza RM se puede combinar en la
etapa 3.13 con la medida de la distorsión de la respuesta en
frecuencia LSDM mediante una multiplicación, mapeándose el resultado
de esta operación a una tabla de puntuación media de opinión (Mean
Opinion Score), lo que tiene como resultado una única medida de la
calidad de impacto de la respuesta en frecuencia FRIQM.
La figura 4 muestra una realización, según la
invención, en la que, en la etapa 4.1, la función diferencial
DALS(f) se divide en una parte positiva (entrada > salida)
y una parte negativa, DALS+(f) y DALS-(f). En las etapas 4.2 y 4.3,
ambas partes, DALS(f)+ y DALS(f)-, respectivamente, se
integran entonces según Lebesque sobre el eje de la frecuencia
utilizando de nuevo la norma Lp, pero no sobre las diferencias de
las bandas de frecuencia individuales, utilizando un p<1,0 con
0,1<p< 0,5 para la intensidad sonora en cada banda de
frecuencia Bark. Esto tiene como resultado un número de distorsión
de la respuesta en frecuencia positivo y negativo LSDM+ y LSDM-
.
En las etapas 4.4 y 4.5, los dos números de
impacto en el dominio de frecuencia lineal FRIQM+ y FRIQM- se
calculan a partir de los números de distorsión de la respuesta en
frecuencia positivo y negativo LSDM+ y LSDM-, multiplicándolos por
el número de aspereza RM. Estos números de distorsión de la
respuesta en frecuencia se mapean entonces en la etapa 4.6 a una
MOS (puntuación media de opinión) como escala para cuantificar el
impacto de la distorsión de respuesta en frecuencia lineal, dando
como resultado dos números de impacto en el dominio de frecuencia
lineal FRIQM+ y FRIQM-, respectivamente. FRIQM+ y FRIQM- se ponderan
para obtener una única medida de la calidad de impacto de la
respuesta en frecuencia FRIQM: FRIQM = \alpha * FRIQM+ +
\beta* FRIQM-, en la que, preferentemente, \alpha +
\beta=1, y en la que el cociente entre \alpha y \beta es,
preferentemente, mayor que 10. En una implementación actual,
\beta=0, de forma que sólo se tienen en cuenta los valores
LSDM+.
Por supuesto, los valores LSDM+ y LSDM- también
se pueden combinar de una forma similar a las medidas de la calidad
de impacto de la respuesta en frecuencia FRIQM+ y FRIQM-, tras lo
cual se puede realizar un mapeo a una MOS, dando como resultado una
única medida de la calidad de impacto de la respuesta en frecuencia
FRIQM. Además, en esta realización también se puede realizar la
multiplicación por la medida de la aspereza sólo sobre el LSDM.
Según una realización preferente de la presente
invención, según se muestra en la figura 4, la función de densidad
de potencia del nivel tonal de entrada se compensa en frecuencia,
mediante Lebesque, sobre la base de un ajuste exponencial Lp con
0,3<p<0,6 para conseguir una densidad de potencia espectral
ideal Ideal(f) de una señal de habla. La función de densidad
de potencia del nivel tonal de entrada se calcula a partir de la
señal de habla de referencia de entrada, calculando la potencia
media en cada banda de frecuencia Bark sobre el fragmento de habla
completo para el que se ha de calcular la calidad de la señal
distorsionada. La función de densidad de potencia espectral ideal
Ideal(f) se define sobre la base del cálculo del promedio de
la densidad de potencia espectral promedio a largo plazo de muchas
voces masculinas y femeninas, que se graban con un micrófono de
respuesta en frecuencia plana. En cada banda Bark, según se utiliza
en PESQ, se calcula un número de densidad sobre la base de esta
función de densidad ideal.
Este ajuste exponencial parcial hacia una
función de densidad de potencia espectral ideal Ideal(f)
compensa los errores que se produzcan en la técnica de grabación.
Con frecuencia, las técnicas de grabación conducen a densidades de
potencia espectral desequilibradas, en la mayor parte de los casos
una acentuación excesiva de las frecuencias más bajas (inferiores a
500 Hz).
A partir de las versiones con alisamiento
espectral de entrada e ideal de la función de densidad de potencia
espectral ideal Ideal(f), en la etapa 5.1 se calcula una
función de densidad de potencia del nivel tonal de entrada
PPX(f)_{n} calculando el promedio sobre un número de
bandas de frecuencia consecutivas. A partir de estas versiones
alisadas, se pueden calcular factores de compensación S(f)
para cada banda Bark, definidas como el cociente de las potencias
"ideal/referencia". Posteriormente, estos factores S(f)
se utilizan para ajustar de nuevo, en la etapa 5.2 la función de
densidad de potencia del nivel tonal de entrada
PPX(f)_{n} con S(f)^{p}, con
0,3<p<0,8, para obtener una función de densidad de potencia
del nivel tonal de entrada (idealizada) PPXI(f)_{n}
que puede utilizarse para realizar evaluaciones adicionales, según
la presente invención, en lugar de la función de densidad de
potencia del nivel tonal de entrada PPX(f)_{n}.
Obsérvese que la invención puede combinarse con
un ajuste exponencial temporal local, utilizando un ajuste
exponencial iterativo de la compensación en frecuencia y realizando
un ajuste exponencial temporal local según [7].
La invención puede realizarse en forma de un
sistema informático que comprende un procesador, una memoria y una
entrada y una salida. La entrada puede ser un dispositivo de
lectura, tal como una entrada analógica capaz de muestrear una
señal de entrada de referencia y una señal de salida degradada
procedentes de un sistema de transmisión de audio a prueba. Las
señales mostradas se pueden almacenar en una memoria, por ejemplo en
un disco duro, y ser dispuestas en tramas, seleccionando filas de
muestras. A continuación, el procesador puede realizar las etapas
descritas anteriormente. Un resultado, por ejemplo la medida de la
calidad de impacto en frecuencia lineal, puede enviarse a una
pantalla, o un puerto de comunicaciones, o almacenarse en una
memoria para su uso posterior.
[1] A. W. Rix, M. P. Hollier, A.
P. Hekstra and J. G. Beerends, "PESQ, the new ITU
standard for objective measurement of perceived speech quality, Part
1- Time alignment", J. Audio Eng. Soc., vol. 50, pp.
755-764 (2002 Oct.).
[2] J. G. Beerends, A. P. Hekstra,
A. W. Rix and M. P. Hollier, "PESQ, the new ITU
standard for objective measurement of perceived speech quality, Part
II - De percepción model", J. Audio Eng. Soc., vol. 50,
pp. 765-778 (2002 Oct.) (equivalent to KPN
Research publication 00-32228).
[3] ITU-T Rec. P.862, "De
percepción Evaluation Of Speech Quality (PESQ), An Objective Method
for End-to-end Speech Quality
Assessment of Narrowband Telephone Networks and Speech Codecs",
International Telecommunication Union, Geneva, Switzerland
(2001 February.).
[4] A. P. Hekstra, J. G. Beerends,
"Output power decompensation", International patent
application; PCT EP02/
02342; European patent application 01200945.2, March 2001; Koninklijke PTT Nederland N.V.
02342; European patent application 01200945.2, March 2001; Koninklijke PTT Nederland N.V.
[5] J. G. Beerends, "Frequency
dependent frequency compensation", International patent
application; PCT EP02/
05556; European patent application 01203699.2, June 2001; Koninklijke PTT Nederland N.V.
05556; European patent application 01203699.2, June 2001; Koninklijke PTT Nederland N.V.
[6] J. G. Beerends, "Method and system
for measuring a system's transmission quality", Softscaling,
International patent application; PCT WO 03076889; European patent
application 02075973.4-2218, April K 2002,
Koninklijke PTT Nederland N.V.
[7] J. G. Beerends, "Method and system
for measuring a system's transmission quality"; European patent
application 02075973, July 2003, Koninklijke PTT Nederland
N.V.
[8] T. Goldstein, J. G. Beerends,
H. Klaus and C. Schmidmer, "Draft
ITU-T Recommendation P.AAM, An objective method for
end-to-end speech quality assessment
of narrow-band telephone networks including acoustic
terminal (s)", White contribution COM 12-64 to
ITU-T Study Group 12, September 2003.
Claims (12)
1. Método de análisis de la calidad percibida de
un sistema de transmisión de audio en el que se establece una
primera función de densidad de potencia del nivel tonal de entrada
compensado en frecuencia PPX'(f)_{n} de una señal de
entrada en tramas de tiempo X_{n}, en el que el sistema de
transmisión de audio (1) presenta una entrada y una salida, y cuya
salida da lugar a una señal de salida en tramas de tiempo Y_{n},
representando n una trama de tiempo discreto y f una banda de
frecuencia discreta, comprendiendo el método las siguientes
etapas:
- -
- procesar (2.1-2.3) la señal de entrada X_{n}, para obtener una función de densidad de potencia del nivel tonal de entrada PPX(f)_{n};
- -
- procesar (2.4-2.6) la señal de salida Y_{n}, para obtener una función de densidad de potencia del nivel tonal de salida PPX(f)_{n};
- -
- compensar en frecuencia (2.7, 2.8) la función de densidad de potencia del nivel tonal de entrada PPX(f)_{n}, con una primera función de compensación en frecuencia H_{1}(f), para obtener la primera función de densidad de potencia del nivel tonal de entrada compensado en frecuencia PPX'(f)_{n};
caracterizándose el método por
- -
- la etapa consistente en compensar en frecuencia (2.7, 2.8) la función de densidad de potencia del nivel tonal de entrada PPX(f)_{n} que consiste en ajustar exponencialmente la función de densidad de potencia del nivel tonal de entrada PPX(f)_{n} con una función de factor de ajuste exponencial mediante software con desplazamiento, según la fórmula
utilizando un exponente q(f)
comprendido entre 0,0 y 1,0, y un desplazamiento comprendido entre
10^{4} y
10^{6}.
\vskip1.000000\baselineskip
2. Método, según la reivindicación 1, que además
comprende las etapas de
- -
- compensar la función de densidad de potencia del nivel tonal de salida (PPY(f)_{n}) por las variaciones de ganancia a corto plazo (2.9 ... 2.11), para obtener una función de densidad de potencia del nivel tonal de salida ajustada localmente (PPY'(f)_{n});
- -
- transformar (2.13) la función de densidad de potencia del nivel tonal de salida compensado en frecuencia (PPY(f)_{n}) en una escala de percepción de la intensidad sonora para obtener una función de densidad de la intensidad sonora de salida (LY(f)_{n});
- -
- compensar en frecuencia (3.10, 3.11) la función de densidad de potencia del nivel tonal de entrada (PPX(f)_{n}), con una segunda función de compensación en frecuencia (H_{2}(f)), para obtener una segunda función de densidad de potencia del nivel tonal de entrada compensado en frecuencia (PPX''(f)_{n});
- -
- transformar (3.14) la segunda función de densidad de potencia del nivel tonal de entrada compensado en frecuencia (PPX''(f)_{n}) en una escala de percepción de la intensidad sonora para obtener una función de densidad de la intensidad sonora de entrada (LX'(f)_{n});
- -
- promediar (3.4) sobre las tramas de tiempo de la función de densidad de la intensidad sonora de entrada en tramas (LX'(f)_{n}) a fin de obtener un espectro de intensidad sonora de entrada promedio (ALSX(f));
- -
- promediar (3.5) sobre las tramas de tiempo de la función de densidad de la intensidad sonora de salida en tramas (LY'(f)_{n}) a fin de obtener un espectro de intensidad sonora de salida promedio (ALSY(f));
- -
- normalizar (3.6, 3.7) el espectro de intensidad sonora de salida promedio (ALSY(f)) con respecto al espectro de intensidad sonora de entrada promedio (ALSX(f)), obteniendo de este modo un espectro de intensidad sonora de salida promedio normalizado (NALSY(f));
- -
- restar (3.8) el espectro de intensidad sonora de entrada promedio (ALSX(f)) del espectro de intensidad sonora de salida promedio normalizado (NALSY(f)), obteniendo de este modo un espectro de intensidad sonora promedio diferencial (DALS(f));
\global\parskip0.930000\baselineskip
- -
- integrar según Lebesque (3.9) el espectro de intensidad sonora promedio diferencial (DALS(f)), a fin de establecer una medida de distorsión espectral lineal LSDM para el sistema de transmisión de audio (1).
\vskip1.000000\baselineskip
3. Método, según la reivindicación 2, que además
comprende la etapa de:
- -
- determinar (3.12) una medida de aspereza sonora RM del espectro de intensidad sonora promedio diferencial (DALS(f)) basado en la diferencia absoluta de los valores de banda de frecuencia consecutivos;
- -
- combinar (3.13) la medida de aspereza sonora RM y la medida de distorsión espectral lineal LSDM multiplicando y mapeando el resultado en forma de una escala MOS (Mean Opinion Score, puntuación media de opinión) (FRIQM).
\vskip1.000000\baselineskip
4. Método, según una de las reivindicaciones
anteriores, en el que la etapa consistente en compensar en
frecuencia (3.10, 3.11) la función de densidad de potencia del nivel
tonal de entrada (PPX(f)_{n}), que da lugar a una
segunda función de densidad de potencia del nivel tonal de entrada
compensado en frecuencia (PPX''(f)_{n}) se basa en una
función de factor de ajuste exponencial mediante software con
desplazamiento, con una potencia del orden de 0,4 y un
desplazamiento del orden de 5\cdot10^{6}.
5. Método, según una de las reivindicaciones
anteriores, en el que la primera función de compensación en
frecuencia (H_{1}(f)) se expresa en términos de valores de
banda de frecuencia Bark y se obtiene realizando un promedio, como
mínimo, de dos valores de banda de frecuencia Bark vecinos de las
funciones de densidad de potencia del nivel tonal de entrada y de
salida.
6. Método, según una de las reivindicaciones
anteriores, en el que la segunda función de compensación en
frecuencia (H_{2}(f)) se expresa en términos de valores de
banda de frecuencia Bark y se obtiene realizando un promedio, como
mínimo, de dos valores de banda de frecuencia Bark vecinos de las
funciones de densidad de potencia del nivel tonal de entrada y de
salida.
7. Método, según una de las reivindicaciones
anteriores, en el que la etapa de procesamiento (2) de la señal de
entrada en tramas de tiempo (X_{n}) comprende además la etapa
de
- -
- compensar en frecuencia (5.1, 5.2) la función de densidad de potencia del nivel tonal de entrada (PPX(f)_{n}) con respecto a un espectro ideal (Ideal(f)).
\vskip1.000000\baselineskip
8. Método, según una de las reivindicaciones
anteriores, que además comprende las etapas de
- -
- detectar tramas de tiempo (3.1) en las que las funciones de densidad de potencia del nivel tonal de entrada y de salida (PPX(f)_{n}), (PPY(f)_{n}) por trama son simultáneamente mayores que un valor de criterio de silencio;
- -
- disponer (3.2 y 3.3) las tramas de la función de densidad de la intensidad sonora de entrada (LX'(f)_{n}) y las tramas de la función de densidad de la intensidad sonora de salida (LY(f)_{n}) bajo el control de la detección de tramas de tiempo (3.1),
\vskip1.000000\baselineskip
9. Método, según una de las reivindicaciones
anteriores, en el que la etapa de establecimiento de la medida de
distorsión espectral lineal (LSDM) comprende además las etapas
consistentes en
- -
- dividir (4.1) el espectro de intensidad sonora promedio diferencial (DALS(f)) en un espectro de intensidad sonora promedio diferencial positivo (DALS+(f)) y en un espectro de intensidad sonora promedio diferencial negativo (DALS-(f));
- -
- integrar (4.2) en el dominio de frecuencia los valores positivos del espectro de intensidad sonora promedio diferencial (DALS+(f)), estableciendo de este modo una medida de distorsión espectral lineal positiva (LSDM+);
- -
- integrar (4.3) en el dominio de frecuencia los valores negativos del espectro de intensidad sonora promedio diferencial (DALS-(f)), estableciendo de este modo una medida de distorsión espectral lineal negativa (LSDM-);
- -
- multiplicar (4.4) la medida de aspereza sonora (RM) y la medida de distorsión espectral lineal positiva LSDM+ y mapear el resultado en forma de una escala MOS (puntuación media de opinión), obteniendo así una medida de la calidad de la distorsión de la respuesta en frecuencia positiva (FRIQM+).
- -
- combinar (4.5) la medida de aspereza sonora (RM) y la medida de distorsión espectral lineal negativa (LSDM-) y mapear el resultado en forma de una escala MOS (puntuación media de opinión), obteniendo así una medida de la calidad de la distorsión de la respuesta en frecuencia negativa (FRIQM-).
\global\parskip1.000000\baselineskip
- -
- ponderar (4.6) la medida de la calidad de la distorsión de la respuesta en frecuencia positiva (FRIQM+) con un primer factor de ponderación (\alpha) mayor que 0;
- -
- ponderar (4.6) la medida de la calidad de la distorsión de la respuesta en frecuencia negativa (FRIQM-) con un segundo factor de ponderación (B) mayor que 0;
- -
- sumar (4.6) la medida de la calidad de impacto de la respuesta en frecuencia negativa ponderada (FRIQM-) y la medida de la calidad de impacto de la respuesta en frecuencia positiva (FRIQM+), obteniendo de este modo una medida de la calidad de impacto de la respuesta en frecuencia única (FRIQM).
\vskip1.000000\baselineskip
10. Método, según la reivindicación 1, que
además comprende las etapas de:
- -
- compensar la función de densidad de potencia del nivel tonal de salida (PPY(f)_{n}) por las variaciones de ganancia a corto plazo (2.9-2.11), para obtener una función de densidad de potencia del nivel tonal de salida ajustada localmente (PPY'(f)_{n});
- -
- transformar (2.12) la primera función de densidad de potencia del nivel tonal de entrada compensado en frecuencia (PPX'(f)_{n}) en una escala de percepción de la intensidad sonora para obtener una función de densidad de la intensidad sonora de entrada (LX(f)_{n});
- -
- transformar (2.13) la función de densidad de potencia del nivel tonal de salida compensado en frecuencia (PPY(f)_{n}) en una escala de percepción de la intensidad sonora para obtener una función de densidad de la intensidad sonora de salida (LY(f)_{n});
- -
- restar (3.4) las funciones de densidad de la intensidad sonora de salida y de entrada (LY(f)_{n}), (LX(f)_{n}) para obtener una función de densidad de la intensidad sonora diferencial (D(f)_{n});
- -
- realizar un procesamiento asimétrico (2.15) entre las bandas de frecuencia positiva y negativa de la función de densidad de la intensidad sonora diferencial (D(f)_{n}), obteniendo de este modo una función de densidad de la intensidad sonora diferencial asimétrica DA(f)_{n});
- -
- realizar una integración de frecuencia (2.16) de la función de densidad de la intensidad sonora diferencial asimétrica (DA(f)_{n}), y acentuar las partes silenciosas (2.17), obteniendo así una medida de la perturbación asimétrica (DA_{n});
- -
- realizar una integración de frecuencia (2.18) de la función de densidad de la intensidad sonora diferencial (D(f)_{n}), y acentuar las partes silenciosas (2.19), obteniendo así una medida de la perturbación simétrica (D_{n});
- -
- realizar una integración temporal (2.20) de la función de densidad de la intensidad sonora diferencial y de la función de densidad de la intensidad sonora diferencial asimétrica (D_{n}, DA_{n}), obteniéndose así una medida de la perturbación simétrica y asimétrica (D, DA) y combinar seguidamente (2.20) las medidas de la perturbación simétrica y asimétrica (D, DA), a fin de obtener una estimación única de la calidad de percepción (PESQ).
\vskip1.000000\baselineskip
11. Sistema de procesamiento para el análisis de
la calidad percibida de un sistema de transmisión de audio, que se
aplica a un sistema de transmisión de audio que presenta una entrada
y la salida, y cuya salida da lugar a una señal de salida en tramas
de tiempo, que comprende
- -
- un procesador
- -
- medios para aplicar una señal de entrada en tramas y una señal de salida en tramas (Y_{n}),
- -
- medios para facilitar una medida de la calidad de impacto de la respuesta en frecuencia (LSDM, FRIQM, PESQ),
en el que el procesador está programado para
ejecutar cualquiera de las etapas del método, según al menos una de
las reivindicaciones 1- 10.
\vskip1.000000\baselineskip
12. Soporte legible por ordenador, que comprende
un código de software ejecutable por ordenador que, cuando se
ejecuta en un sistema informático, provoca que el sistema
informático ejecute cada una de las etapas del método, según al
menos una de las reivindicaciones 1-10.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04077601 | 2004-09-20 | ||
EP04077601 | 2004-09-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2313413T3 true ES2313413T3 (es) | 2009-03-01 |
Family
ID=35355107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05787331T Active ES2313413T3 (es) | 2004-09-20 | 2005-09-20 | Compensacion en frecuencia para el analisis de precepcion de habla. |
Country Status (12)
Country | Link |
---|---|
US (1) | US8014999B2 (es) |
EP (1) | EP1792304B1 (es) |
JP (1) | JP4879180B2 (es) |
CN (1) | CN101053016B (es) |
AT (1) | ATE405922T1 (es) |
AU (1) | AU2005285694B2 (es) |
CA (1) | CA2580763C (es) |
DE (1) | DE602005009221D1 (es) |
DK (1) | DK1792304T3 (es) |
ES (1) | ES2313413T3 (es) |
PT (1) | PT1792304E (es) |
WO (1) | WO2006033570A1 (es) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1975924A1 (en) * | 2007-03-29 | 2008-10-01 | Koninklijke KPN N.V. | Method and system for speech quality prediction of the impact of time localized distortions of an audio transmission system |
JP5192544B2 (ja) * | 2007-07-13 | 2013-05-08 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 聴覚情景分析とスペクトルの歪みを用いた音響処理 |
ES2403509T3 (es) * | 2007-09-11 | 2013-05-20 | Deutsche Telekom Ag | Método y sistema para la evaluación integral y diagnóstica de la calidad de la voz de escucha |
ATE470931T1 (de) * | 2007-10-11 | 2010-06-15 | Koninkl Kpn Nv | Verfahren und system zur messung der sprachverständlichkeit eines tonübertragungssystems |
JP5157852B2 (ja) * | 2008-11-28 | 2013-03-06 | 富士通株式会社 | 音声信号処理評価プログラム、音声信号処理評価装置 |
US8655651B2 (en) | 2009-07-24 | 2014-02-18 | Telefonaktiebolaget L M Ericsson (Publ) | Method, computer, computer program and computer program product for speech quality estimation |
KR101430321B1 (ko) * | 2009-08-14 | 2014-08-13 | 코닌클리즈케 케이피엔 엔.브이. | 오디오 시스템의 지각 품질을 결정하기 위한 방법 및 시스템 |
DK2465112T3 (en) | 2009-08-14 | 2015-01-12 | Koninkl Kpn Nv | PROCEDURE, COMPUTER PROGRAM PRODUCT, AND SYSTEM FOR DETERMINING AN EVALUATED QUALITY OF AN AUDIO SYSTEM |
JP5606764B2 (ja) * | 2010-03-31 | 2014-10-15 | クラリオン株式会社 | 音質評価装置およびそのためのプログラム |
CN102456348B (zh) * | 2010-10-25 | 2015-07-08 | 松下电器产业株式会社 | 声音补偿参数计算方法和设备、声音补偿系统 |
TWI687918B (zh) * | 2010-12-03 | 2020-03-11 | 美商杜比實驗室特許公司 | 音頻解碼裝置、音頻解碼方法及音頻編碼方法 |
EP2733700A1 (en) * | 2012-11-16 | 2014-05-21 | Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO | Method of and apparatus for evaluating intelligibility of a degraded speech signal |
EP2922058A1 (en) * | 2014-03-20 | 2015-09-23 | Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO | Method of and apparatus for evaluating quality of a degraded speech signal |
CN104243723B (zh) * | 2014-09-28 | 2017-03-29 | 辽宁省建设科学研究院 | 访客对讲系统音频信号非线性失真检测方法 |
JP6461064B2 (ja) * | 2016-09-28 | 2019-01-30 | 本田技研工業株式会社 | 音響特性校正方法 |
CN112083807B (zh) * | 2020-09-20 | 2021-10-29 | 吉林大学 | 一种基于音触转换的足部地形触觉再现方法及装置 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8701365D0 (en) * | 1987-01-22 | 1987-02-25 | Thomas L D | Signal level control |
US5321636A (en) * | 1989-03-03 | 1994-06-14 | U.S. Philips Corporation | Method and arrangement for determining signal pitch |
US5588089A (en) * | 1990-10-23 | 1996-12-24 | Koninklijke Ptt Nederland N.V. | Bark amplitude component coder for a sampled analog signal and decoder for the coded signal |
US5687281A (en) * | 1990-10-23 | 1997-11-11 | Koninklijke Ptt Nederland N.V. | Bark amplitude component coder for a sampled analog signal and decoder for the coded signal |
US5765127A (en) * | 1992-03-18 | 1998-06-09 | Sony Corp | High efficiency encoding method |
JP2953238B2 (ja) * | 1993-02-09 | 1999-09-27 | 日本電気株式会社 | 音質主観評価予測方式 |
US5632003A (en) * | 1993-07-16 | 1997-05-20 | Dolby Laboratories Licensing Corporation | Computationally efficient adaptive bit allocation for coding method and apparatus |
NL9500512A (nl) * | 1995-03-15 | 1996-10-01 | Nederland Ptt | Inrichting voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal, alsmede werkwijze voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal. |
WO1997027578A1 (en) * | 1996-01-26 | 1997-07-31 | Motorola Inc. | Very low bit rate time domain speech analyzer for voice messaging |
ATE205009T1 (de) * | 1996-05-21 | 2001-09-15 | Koninkl Kpn Nv | Vorrichtung und verfahren zur bestimmung der qualität eines ausgangssignals, das von einem signalverarbeitungsschaltkreis erzeugt werden soll |
WO1998026633A1 (en) * | 1996-12-13 | 1998-06-18 | Koninklijke Ptt Nederland N.V. | Device and method for signal quality determination |
DE19840548C2 (de) * | 1998-08-27 | 2001-02-15 | Deutsche Telekom Ag | Verfahren zur instrumentellen Sprachqualitätsbestimmung |
JP3756686B2 (ja) * | 1999-01-19 | 2006-03-15 | 日本放送協会 | 所望信号抽出の度合いを評価する評価値を求める方法および装置、ならびに信号抽出装置のパラメータ制御方法および装置 |
WO2001065543A1 (en) * | 2000-02-29 | 2001-09-07 | Telefonaktiebolaget Lm Ericsson (Publ) | Compensation for linear filtering using frequency weighting factors |
DK1206104T3 (da) * | 2000-11-09 | 2006-10-30 | Koninkl Kpn Nv | Måling af en samtalekvalitet af en telefonforbindelse i et telekommunikationsnetværk |
DE10134471C2 (de) * | 2001-02-28 | 2003-05-22 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals |
EP1241663A1 (en) * | 2001-03-13 | 2002-09-18 | Koninklijke KPN N.V. | Method and device for determining the quality of speech signal |
EP1298646B1 (en) * | 2001-10-01 | 2006-01-11 | Koninklijke KPN N.V. | Improved method for determining the quality of a speech signal |
US7146313B2 (en) * | 2001-12-14 | 2006-12-05 | Microsoft Corporation | Techniques for measurement of perceptual audio quality |
EP1485691B1 (en) * | 2002-03-08 | 2006-09-13 | Koninklijke KPN N.V. | Method and system for measuring a system's transmission quality |
US7457757B1 (en) * | 2002-05-30 | 2008-11-25 | Plantronics, Inc. | Intelligibility control for speech communications systems |
US7308403B2 (en) * | 2002-07-01 | 2007-12-11 | Lucent Technologies Inc. | Compensation for utterance dependent articulation for speech quality assessment |
EP1443496B1 (en) * | 2003-01-18 | 2006-07-19 | Psytechnics Limited | Non-intrusive speech signal quality assessment tool |
EP1465156A1 (en) * | 2003-03-31 | 2004-10-06 | Koninklijke KPN N.V. | Method and system for determining the quality of a speech signal |
US7526093B2 (en) * | 2003-08-04 | 2009-04-28 | Harman International Industries, Incorporated | System for configuring audio system |
-
2005
- 2005-09-20 US US11/663,138 patent/US8014999B2/en active Active
- 2005-09-20 DK DK05787331T patent/DK1792304T3/da active
- 2005-09-20 JP JP2007532270A patent/JP4879180B2/ja active Active
- 2005-09-20 CA CA2580763A patent/CA2580763C/en active Active
- 2005-09-20 PT PT05787331T patent/PT1792304E/pt unknown
- 2005-09-20 WO PCT/NL2005/000683 patent/WO2006033570A1/en active Application Filing
- 2005-09-20 AT AT05787331T patent/ATE405922T1/de active
- 2005-09-20 ES ES05787331T patent/ES2313413T3/es active Active
- 2005-09-20 DE DE602005009221T patent/DE602005009221D1/de active Active
- 2005-09-20 AU AU2005285694A patent/AU2005285694B2/en active Active
- 2005-09-20 EP EP05787331A patent/EP1792304B1/en active Active
- 2005-09-20 CN CN2005800377134A patent/CN101053016B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CA2580763C (en) | 2014-07-29 |
US8014999B2 (en) | 2011-09-06 |
AU2005285694B2 (en) | 2010-09-16 |
JP2008513834A (ja) | 2008-05-01 |
US20080040102A1 (en) | 2008-02-14 |
CN101053016B (zh) | 2011-05-18 |
JP4879180B2 (ja) | 2012-02-22 |
CA2580763A1 (en) | 2006-03-30 |
EP1792304B1 (en) | 2008-08-20 |
EP1792304A1 (en) | 2007-06-06 |
DE602005009221D1 (de) | 2008-10-02 |
PT1792304E (pt) | 2008-12-04 |
AU2005285694A1 (en) | 2006-03-30 |
CN101053016A (zh) | 2007-10-10 |
ATE405922T1 (de) | 2008-09-15 |
DK1792304T3 (da) | 2009-01-05 |
WO2006033570A1 (en) | 2006-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2313413T3 (es) | Compensacion en frecuencia para el analisis de precepcion de habla. | |
KR101148671B1 (ko) | 오디오 전송 시스템의 음성 명료도 측정 방법 및 시스템 | |
ES2531556T3 (es) | Método, producto de programa de ordenador y sistema para determinar una calidad percibida de un sistema de audio | |
US9472202B2 (en) | Method of and apparatus for evaluating intelligibility of a degraded speech signal | |
US9953663B2 (en) | Method of and apparatus for evaluating quality of a degraded speech signal | |
US20140316773A1 (en) | Method of and apparatus for evaluating intelligibility of a degraded speech signal | |
JP4263620B2 (ja) | システムの伝送品質を測定する方法及びシステム | |
ES2403509T3 (es) | Método y sistema para la evaluación integral y diagnóstica de la calidad de la voz de escucha | |
US20100106489A1 (en) | Method and System for Speech Quality Prediction of the Impact of Time Localized Distortions of an Audio Transmission System | |
ES2294143T3 (es) | Procedimiento mejorado para determinar la calidad de una señal de habla. | |
ES2556587T3 (es) | Método y aparato para evaluar la inteligibilidad de una señal de voz degradada | |
KR100275478B1 (ko) | 주관적 음질과 상관도가 높은 객관 음질 평가 방법 | |
JP2023535694A (ja) | 信号の知覚される品質に対する残響の知覚的影響を判定する方法、及びコンピュータプログラム製品 | |
Yang et al. | An improved STI method for evaluating Mandarin speech intelligibility | |
Olatubosun et al. | Intrusive Assessment Of Speech Quality Over Wireless Networks |