ES2267457T3

ES2267457T3 - Medicion de la calidad de la voz de un enlace telefonico en una red de telecomunicaciones.

Info

Publication number: ES2267457T3
Application number: ES00203936T
Authority: ES
Inventors: Symon Ronald Appel; John Gerard Beerends; Andries Pieter Hekstra
Original assignee: Koninklijke KPN NV
Current assignee: Koninklijke KPN NV
Priority date: 2000-11-09
Filing date: 2000-11-09
Publication date: 2007-03-16
Anticipated expiration: 2020-11-09
Also published as: DE60029453D1; EP1206104A1; AU2002223612A1; WO2002039707A2; ATE333751T1; DK1206104T3; EP1336288A2; EP1206104B1; JP2004514327A; WO2002039707A3; JP4098083B2; DE60029453T2; US7366663B2; US20040042617A1

Abstract

Procedimiento para medir la calidad de la voz de un enlace telefónico en una red de telecomunicaciones, comprendiendo el procedimiento una etapa principal de someter una señal de voz degradada (s''(t)), respecto a una señal de voz de referencia (s(t)), a una técnica de medición objetiva (32) con el fin de medir una calidad perceptiva de señales de voz y producir una señal de calidad (q) que represente un valor estimado respecto a la calidad de la voz, siendo la señal de voz de referencia una señal de la voz (s(t)) del hablante, e incluyendo la señal de voz degradada una señal de retorno (r(t)), siendo la señal de retorno una señal que se ha producido o que podría producirse en un canal de retorno del enlace telefónico durante la transmisión de la señal de voz del hablante en un canal de envío del enlace telefónico, caracterizado porque la etapa principal se realiza mediante una técnica de medición objetiva que incluye una etapa de modelado de los efectos de enmascaramiento basada en el ruidopresente en la señal de retorno.

Description

Medición de la calidad de la voz de un enlace telefónico en una red de telecomunicaciones.

A. Antecedentes de la invención

La invención pertenece al área de medición de la calidad de enlaces telefónicos de sistemas de telecomunicación. En particular, se refiere a la medición de la calidad de la voz de un enlace telefónico en una red de telecomunicaciones, es decir, la medición de la influencia de las señales de retorno - tales como las alteraciones causadas por el eco y las distorsiones de tono lateral - sobre la calidad perceptiva del enlace telefónico de un sistema de telecomunicaciones según la observación subjetiva de una persona que interviene en una conversación telefónica.

Dicho procedimiento, y un dispositivo correspondiente, se describen en la solicitud de patente internacional
WO0120804, publicada fuera de plazo (referencia [1]; para más detalles bibliográficos relativos a las referencias, véase el siguiente apartado D). Según el procedimiento y dispositivo descritos, que miden la influencia del eco sobre la calidad perceptiva por parte del hablante en un enlace telefónico de una red de telecomunicaciones, se alimenta una señal de voz del hablante y una señal combinada a un dispositivo de medición objetiva, tal como un sistema PSQM, con el fin de obtener una señal de salida representativa de un valor estimado de la calidad perceptiva de la voz. La señal combinada consiste en una combinación de señales de retorno que se originan en la red y que corresponden a la señal de voz del hablante, además de la señal de voz misma. La técnica descrita tiene el siguiente problema: si la señal de retorno contiene componentes de señal que no están directamente relacionados con la voz del hablante - tales como el ruido presente en el sistema telefónico, el ruido derivado del ruido de fondo del hablante en el otro extremo de la conexión telefónica, o el ruido derivado de señales de interferencia - tales componentes de señal presentan el denominado efecto de enmascaramiento sobre el eco, que se traduce en un incremento de la calidad de la voz percibida subjetivamente. No obstante, los sistemas de medición objetiva, tales como los basados en el modelo Perceptual Speech Quality Measurement (PSQM), recomendados por la Recomendación P.861 de ITU-T (véase la referencia [2]) suelen interpretar los componentes de ruido en términos de una disminución de la calidad. Una aplicación de una medición objetiva, tal como la del PSQM, en una medición objetiva de la calidad de las señales de voz recibidas a través de enlaces de radio, se describe, por ejemplo, en la referencia [7]. Se puede intentar resolver el problema en cuestión usando técnicas de supresión o atenuación de ruidos, generalmente conocidas en el ámbito del procesamiento de la voz (véanse, por ejemplo, las referencias [3] a [6]) o en el ámbito de los sistemas acústicos (véase la referencia [8]). Sin embargo, estas técnicas de atenuación o supresión conocidas se desarrollan para optimizar la calidad de escucha, y no son apropiadas para la medición y optimización de la calidad de la voz. La calidad de la voz difiere de la calidad de la escucha esencialmente en el efecto de enmascaramiento de los ruidos y de la propia voz. Generalmente, el ruido reduce la calidad de escucha, aunque incrementa la calidad de voz.

B. Resumen de la invención

El objeto principal de la presente invención es proporcionar un procedimiento perfeccionado de medición objetiva, con el correspondiente dispositivo para la medición de la calidad de la voz, de un enlace telefónico en una red de telecomunicaciones, es decir, para medir la influencia de las señales de retorno - tales como el eco y la distorsión del tono lateral, incluyendo la influencia del ruido - sobre la calidad perceptiva del enlace telefónico de un sistema de telecomunicaciones en el extremo del hablante del enlace telefónico que no presenta dicho problema.

Un dispositivo de medición de la calidad de la voz de un enlace telefónico de una red de telecomunicaciones, según el preámbulo de la reivindicación 1 y en la forma descrita en la referencia [1], se caracteriza, según la invención, en la reivindicación 1.

Un procedimiento de medición de la calidad de la voz de un enlace telefónico de una red de telecomunicaciones, según el preámbulo de la reivindicación 10 y en la forma descrita en la referencia [1], se caracteriza, según la invención, en la reivindicación 10.

La invención se basa en la apreciación de que los sistemas de medición objetiva, tales como el PSQM, cubiertos por la citada Recomendación P.861, han sido desarrollados para medir la calidad de audición de las señales de voz. Por consiguiente, y con el fin de proporcionar una medición objetiva similar destinada a medir la calidad de la voz de un enlace telefónico, se introduce la etapa de modelar los efectos de enmascaramiento del eco en el procedimiento y en el dispositivo de medición objetiva.

Según la Recomendación P.861, primeramente se realiza el trazado de una señal de voz - que es una señal de salida de un sistema de procesamiento o transporte de audio o de voz en la que se pretende evaluar la calidad de la señal - y de una señal de referencia representativa de las señales de un modelo de percepción psicofísico del sistema auditivo humano. De hecho, estas señales representativas son funciones comprimidas de la densidad de la sonoridad de la voz y de las señales de referencia. Seguidamente, se llevan a cabo dos operaciones que contemplan el procesamiento de la asimetría y la medición de un intervalo de silencio para modelar dos efectos cognitivos sobre una señal que difiere de las dos señales representativas con objeto de producir una señal de calidad que sea una medida de la percepción auditiva de la señal de voz a evaluar. No obstante, es un hecho conocido que el ruido de la señal de eco, especialmente el ruido de fondo que se origina en el extremo del suscriptor B del enlace telefónico, puede tener un efecto de enmascaramiento sobre la señal de eco conducente a una mejora de la calidad de la voz percibida subjetivamente. A continuación se observó que, en las operaciones realizadas sobre la diferencia del algoritmo de la Recomendación P.861, el ruido de la señal de eco se interpretaba como una distorsión introducida conducente al deterioro de la calidad de la voz medida objetivamente, por lo que las citadas operaciones debían ser modificadas y/o suplementadas por una etapa de modelado de los efectos del enmascaramiento del eco del ruido.

Por lo tanto, unas realizaciones preferentes del procedimiento y del dispositivo de la presente invención se caracterizan según la reivindicación 2 y la reivindicación 11, respectivamente.

Otras realizaciones preferentes del procedimiento y del dispositivo de la invención se resumen en las diversas subreivindicaciones.

C. Referencias

[1] WO0120804 (del solicitante; fecha de presentación: 08/09/2000; fecha de publicación: 22/03/2001);

[2] Recomendación P.861 de ITU-T, "Objective Quality Measurement of Telephone Band (330-3400 Hz)", Speech Codecs (agosto 1996);

[3] R. Le Bouquin, "Enhancement of Noisy Speech Signals: Applications to Mobile Radio Communications", Speech Communication, vol. 18, págs. 3-19 (1996);

[4] J.H. Chen y A. Gersho, "Adaptive Postfiltering for Quality Enhancement of Coded Speech", IEEE Trans. on Speech and Audio Processing, vol. 3, págs. 59-71 (enero 1995);

[5] D.E. Tsoukalas, J. Mourjopoulos y G. Kokkinakis, "Perceptual Filters for Audio Signal Enhancement", J. Audio Eng. Soc., vol. 45, págs. 22-36 (enero/febrero 1997);

[6] F. Xie y D. van Compernolle, "Speech Enhancement by Spectral Magnitude Estimation - a Unifying Approach", Speech Communication, vol. 19, págs 89-104 (1996);

[7] WO 98/59509;

[8] US-A-4.677.676.

D. Breve descripción del dibujo

La invención se explica más extensamente a través de la descripción de unas realizaciones de ejemplo que hacen referencia a un dibujo que incluye las siguientes figuras:

La figura 1 muestra esquemáticamente un ejemplo de un enlace telefónico normal de una red de telecomunicaciones;

la figura 2 muestra esquemáticamente una instalación anteriormente descrita destinada a medir la calidad de voz de un enlace telefónico usando una técnica conocida de medición objetiva para medir la calidad perceptiva de las señales de voz;

la figura 3 muestra esquemáticamente un dispositivo para la medición objetiva de la calidad de la voz de un enlace telefónico, según la invención, usado en la instalación de la figura 2;

la figura 4 muestra un diagrama de flujo de la operación detallada de una parte del dispositivo mostrado en la figura 3;

la figura 5 muestra esquemáticamente una modificación de otra parte del dispositivo mostrado en la figura 3.

E. Descripción de las realizaciones de ejemplo

El retardo y el eco juegan un papel cada vez mayor en la calidad de los servicios de telefonía debido a que las modernas técnicas de las redes inalámbricas y/o las redes basadas en paquetes, tales como GSM, UMTS, DECT, IP y ATM, introducen inherentemente un retardo mayor que el de las técnicas de red de conmutación de circuito clásicas, tales como SDH y PDH. El retardo y el eco, junto con el tono lateral, determinan la forma en que el hablante percibe su propia voz en un enlace telefónico. La calidad con la que el hablante percibe su propia voz se define como la calidad de la voz. Debe diferenciarse de la calidad de escucha, que se refiere a la forma en que la persona que escucha percibe otras voces (y música). La calidad de voz y de escucha, además de la calidad de interacción, determinan la calidad de la voz de un enlace telefónico. La calidad de interacción se define como la facilidad para lograr una interacción con la otra parte de una llamada telefónica, y está dominada por el retardo del sistema y por la forma de resolver las situaciones de voz superpuesta. La presente invención se refiere a la medición objetiva de la calidad de la voz en un enlace telefónico, y más particularmente a la forma de resolver la influencia del ruido en dicho enlace.

La figura 1 muestra esquemáticamente un ejemplo de un enlace telefónico normal establecido entre el suscriptor A y el suscriptor B de una red de telecomunicaciones 10. Los aparatos telefónicos 11 y 12, del suscriptor A y del suscriptor B, respectivamente, están conectados a través de conexiones de dos hilos 13 y 14 e interfaces de cuatro hilos, es decir, las uniones híbridas 15 y 16, a la red 10. En la red, el enlace telefónico establecido tiene un canal de envío que incluye (a) una parte de dos hilos (las conexiones de dos hilos 13 y 14) y una parte de envío de cuatro hilos 17, a través de la cual se envían las señales de voz del suscriptor A, y (b) un canal de retorno que incluye una parte de dos hilos (las conexiones de dos hilos 14 y 13) y una parte receptora de cuatro hilos 18, a través de la cual se reciben las señales de voz del suscriptor B. Una señal de voz s que impacta contra el micrófono M del aparato telefónico 11 del suscriptor A es conducida, a través del canal de envío (13, 17, 14) del enlace telefónico, al auricular R del aparato telefónico 12, donde se hace audible para el suscriptor B en forma de una señal de voz s'' afectada por la red. Cada señal de voz s(t) del canal de envío suele provocar una señal de retorno r(t), la cual, particularmente debido a la presencia de dichas uniones híbridas, incluye una señal de eco de tipo eléctrico sobre el canal de retorno (18, 13) del enlace telefónico, la cual es enviada al auricular R del aparato telefónico 11, que consecuentemente podría perturbar al suscriptor A. Además, el acoplamiento acústico y/o mecánico entre la señal del auricular o del altavoz y el micrófono del aparato telefónico del suscriptor B puede provocar una señal de eco de tipo acústico que regresa al aparato telefónico del suscriptor A, lo cual contribuye a la presencia de la señal de retorno. En un enlace telefónico digital de extremo a extremo (como el de un sistema GSM o el de un sistema de voz sobre IP), dicha señal de eco acústico es el único tipo de señal de eco que contribuye a la señal de retorno.

En resumen, una señal de retorno r(t) puede incluir, en diversas etapas y dentro del canal de retorno de un enlace telefónico, los siguientes efectos causados por una señal de voz s(t) del canal de envío del enlace telefónico:

- una señal r1, que representa un eco acústico;

- una señal r2, que representa un eco eléctrico, posiblemente en combinación con el eco acústico;

- una señal r3, que representa la señal r2 al ser afectada (es decir, retardada o distorsionada) por la red 10;

- una señal r4, que representa la señal r3 en combinación con una señal de tono lateral; y

- una señal r5, que es una señal acústica derivada de la señal r4 y que también incluye el tono lateral generado localmente.

La figura 2 muestra esquemáticamente una instalación destinada a medir la calidad de voz de un enlace telefónico usando una técnica conocida de medición objetiva para medir la calidad perceptiva de las señales de voz, según se describe en la referencia [1]. La instalación comprende una red o sistema de telecomunicaciones 20, sometida a prueba, que en lo sucesivo y para fines de brevedad se denomina red 20, y un sistema 22 para el análisis perceptivo de las señales de voz ofrecidas, que en lo sucesivo y para fines de brevedad se denomina sistema PSQM 22. Cualquier señal de voz s(t) del hablante es empleada, por un lado, como señal de entrada de la red 20, y, por otro, como primera señal de entrada (o referencia) del sistema PSQM 22. Una señal de retorno r(t) obtenida de la red 20, correspondiente a la señal de voz s(t) incorporada del hablante, se combina, en un circuito de combinación 24, con la señal de voz s(t) del hablante para proporcionar una señal de voz combinada s'(t) que seguidamente es usada como una segunda señal (o señal degradada) incorporada del sistema PSQM. En caso necesario, la señal s(t) será situada en su nivel correcto antes de combinarla con la señal de retorno r(t) en el circuito de combinación. Una señal de salida q del sistema PSQM 22 representa una estimación de la calidad de la voz, es decir, de la calidad perceptiva del enlace telefónico a través de la red 20, según experimenta el usuario del teléfono durante la conversación en su propio aparato telefónico. Aquí se pueden emplear las señales almacenadas en las bases de datos. Estas señales han sido obtenidas o pueden ser obtenidas mediante simulación o a través de un aparato telefónico (por ejemplo, con la señal r4 del dominio eléctrico o la señal r5 del dominio acústico) del suscriptor A, en el caso de un enlace establecido durante el silencio de voz del suscriptor B. La conexión de dos hilos, entre el punto de acceso del suscriptor telefónico y el interfaz de cuatro hilos con la red, no contribuye, o casi no contribuye, al componente de eco de la señal de retorno r(t) (desde luego, sí contribuye al componente de eco de una señal de retorno producida en el canal de retorno del suscriptor B del enlace telefónico). No obstante, cualquier contribución a la señal tiene un retardo reducido, y, de hecho, forma parte del tono lateral.

Las señales s(t) y r(t) también pueden derivarse de una parte de cuatro hilos 17 del canal de envío y de la parte de cuatro hilos 18 del canal de retorno próximo a la interfaz de cuatro hilos 15, respectivamente. Esto ofrece, tal como se describe en la referencia [11], la oportunidad de realizar una medición constante de la calidad de la voz en los enlaces telefónicos establecidos, empleando tráfico vivo de manera no intrusiva.

Desde luego, el sistema o red sometido a prueba también puede ser un sistema de simulación de una red de telecomunicaciones.

Sin embargo, la técnica descrita plantea el siguiente problema. Debido a que el sistema o la red sometida a prueba suele no ser ideal, cualquier señal de retorno r(t) contendrá también unos componentes de señal que no están directamente relacionados con la voz del hablante, tales como ruidos presentes en el sistema telefónico, ruidos derivados del ruido de fondo de la persona que escucha al otro lado de la conexión telefónica, o ruidos derivados de señales de interferencia. En tal caso, estos componentes de señal pueden presentar lo que se denomina un efecto de enmascaramiento sobre el eco, el cual incrementa la calidad de la voz. No obstante, los sistemas de medición objetiva desarrollados hasta este momento para evaluar la calidad de escucha de las señales de voz, tales como el PSQM, interpretan estos componentes de ruido como una disminución de la calidad. A continuación se describe un procedimiento y dispositivo que esencialmente suponen la modificación de un algoritmo de tipo PSQM, según recomienda la Recomendación P.861 de ITU-T, para evitar el problema y hacer que el algoritmo existente sirva para medir objetivamente la calidad de la voz con una mayor correlación con la calidad de voz medida subjetivamente que si se midiera sin la modificación, al ser usado en una instalación como la de la figura 2.

La figura 3 muestra esquemáticamente un dispositivo para la medición objetiva de la calidad perceptiva de una señal audible. El dispositivo comprende un procesador de señales 31 y una disposición de combinaciones 32. El procesador de señales tiene unas entradas de señal 33 y 34, además de unas salidas de señal 35 y 36 acopladas a unas correspondientes entradas de señal de la disposición de combinaciones 32. Una salida de señal 37 de la disposición de combinaciones 32 es, al mismo tiempo, la salida de señal del dispositivo de medición. El procesador de señales incluye unos medios de modelado perceptivo 38 y 39 que están acoplados a las entradas de señal 33 y 34, respectivamente, para procesar las señales de entrada s(t) y s'(t) y generar unas señales de representación R(t,f) y R'(t,f) que forman las representaciones de tiempo/ frecuencia de las señales de entrada s(t) y s'(t), respectivamente, de acuerdo con el modelo de percepción del sistema auditivo humano. Las señales de representación son funciones del tiempo y de la frecuencia (escala Hz o escala Bark). El procesamiento de las señales se lleva a cabo mediante encuadrado - es decir, las señales de voz se dividen en unos cuadros que son aproximadamente iguales a la ventana del oído humano (entre 10 y 100 ms), calculándose la intensidad sonora sobre la base del modelo de percepción. Por motivos de simplicidad, este procesamiento de encuadrado no se indica en las figuras.

Las señales de representación R(t,f) y R'(t,f) pasan a la disposición de combinaciones 32 a través de las salidas de señal 35 y 36. En la disposición de combinaciones del algoritmo conocido, del tipo PSQM, se determina primeramente una señal de diferencia de las señales de representación, seguida de diversas etapas de procesamiento realizadas sobre dicha señal de diferencia. Las últimas de las diversas etapas de procesamiento incluyen unas etapas de integración sobre la frecuencia y el tiempo, produciéndose una señal de calidad q disponible en la salida de señal 37.

En el caso de determinar una calidad de escucha, la señal de entrada s'(t) es una señal de salida de un sistema de procesamiento o transporte de señales de audio o de voz que se emplea para evaluar la operación de procesamiento o transporte de señales, en tanto que la señal de entrada s(t), que es la correspondiente señal de entrada a evaluar, se emplea como señal de referencia. No obstante, para determinar la calidad de una conversación en la que, según se describe con referencia a la figura 2, la señal de entrada s'(t) es una combinación de la señal s(t) y la señal de retorno r(t), es necesario modificar la disposición de combinaciones conocida.

Según el algoritmo recomendado del tipo PSQM (véase la referencia [2], y particularmente la figura 3, ref. P.861), las diversas etapas de procesamiento llevadas a cabo dentro de la disposición de combinaciones incluyen etapas de procesamiento de asimetrías y de evaluación de intervalos de silencio destinadas a modelar algunos de los efectos de percepción. Se sabe que los ruidos de la señal de eco, y especialmente los ruidos de fondo que se originan en el extremo del suscriptor B del enlace telefónico, tienen un efecto de enmascaramiento sobre la señal de eco, lo cual proporciona una mejor calidad de la voz percibida subjetivamente. No obstante, se observó luego que la presencia de las etapas de modelado de los efectos cognitivos del algoritmo, en las que los ruidos dentro de la señal de eco se interpretan como una distorsión introducida, conducía a un deterioro de la calidad de la voz medida objetivamente, por lo que era imposible mantener la citada calidad.

En lugar de ello, y con objeto de medir correctamente la calidad de la voz, se introduce una etapa de modelado de los efectos de enmascaramiento que pudieran tener los ruidos presentes en la señal de retorno sobre las perturbaciones de eco percibidas. Dicha etapa de modelado podría basarse en una posible separación de los componentes de eco y los componentes de ruido presentes en la señal de retorno r(t). No obstante, se puede lograr un modelado fiable de una forma diferente y más sencilla. Esta etapa de modelado implica una etapa específica de modelado para la supresión de ruidos realizada sobre la señal de diferencia empleando un valor estimado para el ruido. Por lo tanto, la disposición de combinaciones 32 comprendería:

- en una primera parte 32a, un medio de sustracción 40 para sustraer perceptivamente las dos señales de representación R(t,f) y R'(t,f) recibidas desde el procesador de señales 31 y que generan una señal de diferencia D(t,f),

- en una segunda parte 32b, un medio de estimación de ruidos 41 para generar un valor de ruido estimado Ne aplicable al ruido presente en la señal de entrada s'(t), y un medio de supresión de ruidos 42 para derivar, de la señal de diferencia D(t,f) y del valor de ruido estimado Ne, una señal de diferencia modificada D'(t,f), y

- en una tercera parte 32c, un medio de integración 43 para integrar sucesivamente la señal de diferencia modificada D'(t,f) a la frecuencia y al tiempo y para generar la señal de calidad q.

El valor de ruido estimado Ne puede ser un valor predeterminado, tal como un valor derivado del tipo de enlace telefónico, aunque preferentemente se podría obtener de una de las señales de representación R'(t,f) que se ilustran en la figura 3 mediante línea discontinua, entre la salida de señal 36 y la entrada de señal 44 del medio de estimación de ruidos 41. Las señales de representación R(t,f) y R'(t,f) son, como de costumbre, funciones de densidad de la sonoridad de las señales de voz de referencia y degradada s(t) y s'(t), respectivamente. La señal de salida del medio de sustracción D(t,f) 40 representa la diferencia de señal entre las densidades de sonoridad de la señal degradada (es decir, distorsionada por la presencia de señales de eco, de tono lateral y de ruidos en la señal de retorno) y la señal de referencia (es decir, la señal original de la voz del hablante), preferentemente reducida mediante una pequeña corrección de la percepción, o sea, una pequeña corrección de densidad para lo que se denomina ruido interno.

La señal de diferencia D(t,f) resultante, que es, de hecho, una función de la densidad de la sonoridad, se somete a una estimación del ruido de enmascaramiento de fondo. El concepto clave de lo anterior es que, debido a que los interlocutores en una llamada telefónica siempre tienen intervalos de silencio en su conversación, en el curso de dichos intervalos (y naturalmente después del tiempo de retardo del eco), la mínima sonoridad de la señal degradada en el tiempo proviene casi totalmente del ruido de fondo. Debido a que el procesamiento de la señal de la voz se realiza en cuadros, este mínimo se puede situar en un nivel igual a la densidad mínima de la sonoridad Ne presente en los cuadros de la señal de representación R'(t,f). A continuación, este mínimo Ne se puede usar para definir un valor de umbral T(Ne) que fija en cero el contenido de todos los cuadros de la señal de diferencia D(t,f) que tienen una sonoridad inferior al citado umbral, dejando inalterado el contenido de los restantes cuadros. Los cuadros puestos a cero y los cuadros inalterados constituyen, conjuntamente, una señal de la cual se deriva la señal de diferencia modificada D'(t,f), o sea, la señal de salida del medio de supresión de ruidos 42 (véase a continuación). En consecuencia, el ruido convencional de enmascaramiento del ruido de fondo Hoth usado en la etapa principal del algoritmo tipo PSQM de derivación de las señales de representación deberá omitirse del algoritmo.

La figura 4 muestra esquemáticamente y de forma más detallada, por medio de un diagrama de flujo, la etapa de modelado de la señal de diferencia D(t,f) según la realiza el medio de supresión de ruidos 42 usando el valor de ruido estimado Ne producido por el medio de estimación de ruidos 41. Nuevamente, se insiste en que el procesamiento de la señal, aunque no se indica en las figuras por motivos de simplificación, es mediante encuadrado. El diagrama de flujo incluye las siguientes casillas:

- la casilla 45 indica una etapa de integración de la señal de representación R'(t,f) en la forma llevada a cabo por el procesador de señales 31 a través de la salida 36, sobre la frecuencia, para producir una señal de sonoridad degradada R'(t);

- la casilla 46 indica una etapa de determinación del valor de ruido Ne estimado correspondiente al ruido presente en la señal de sonoridad degradada R'(t), siendo Ne igual al valor mínimo de la sonoridad de la señal de sonoridad degradada R'(t);

- las casillas 47, 48 y 49 indican una etapa de sometimiento de la señal de diferencia D(t,f) a un criterio C, según el cual de la señal de diferencia se deriva una señal de diferencia de umbral D_{c}(t,f); la casilla 48 indica que D_{c}(t,f) = D(t,f), en el caso de los cuadros cuya señal de sonoridad degradada R'(t) es suficiente para cumplir con el criterio C; y la casilla 49 indica que D_{c}(t,f) = 0, en el caso de los cuadros cuya sonoridad en la señal de sonoridad degradada R'(t) no es suficiente para cumplir con el criterio C;

- la casilla 50 indica una etapa de determinación, a partir de la señal de diferencia de umbral D_{c}(t,f), de la señal de diferencia modificada D'(t,f) calculando la relación de distorsión de sonoridad a sonoridad de señal (DSR) de la señal de diferencia de umbral D_{c}(t,f) y de la señal de sonoridad degradada R'(t), es decir, D'(t,f) = DSR(t,f).

Experimentalmente, un criterio C adecuado parece ser aquel en el que la sonoridad de los cuadros de la señal de sonoridad degradada R'(t) es o no es mayor o igual al valor de umbral T(Ne), siendo dicho valor de umbral seleccionado como un factor constante correspondiente a C_{f} veces el valor estimado Ne, es decir, T(Ne) = C_{f}.Ne. Un valor apropiado para el factor constante es, aparentemente, C_{f} = 1,6.

Al calcular la DSR de la señal de diferencia, se realiza un corte mediante la introducción de un umbral sobre la sonoridad de la señal - es decir, la sonoridad de la señal bajo dicho umbral se fija en el valor de dicho umbral. Se observa que un valor de umbral de 4 sonidos es óptimo.

Por último, la señal de diferencia modificada D'(t,f) se integra sobre la frecuencia a través del medio de integración 43 usando, primeramente, una norma Lp (es decir, la conocida función de promediado p de Lebesque, o norma p de Lebesque) en la que p = 0,8, y, sobre el tiempo, una norma Lp en la que p = 6 para producir el valor de salida q correspondiente a la calidad de la voz.

Los valores de salida de calidad de un procedimiento y dispositivo de medición objetiva así modificados para evaluar la calidad de la voz, obtenidos experimentalmente para siete bases de datos de señales de voz de prueba, demostraron tener unas altas correlaciones (por encima de 0,93) con las puntuaciones de opinión media (MOS) de la calidad de voz percibida subjetivamente.

Para medir la calidad de la voz es necesario que la señal de representación R'(t,f) sea una representación de la combinación de señales de la señal de voz del hablante y de la señal de retorno. Para lograr este objetivo, no es necesario que la señal degradada s'(t) constituya una combinación de señales de estas dos señales, según indican la figura 2 (combinador de señales 24) y la figura 3 (s'(t)=s(t)\varoplusr(t)). Además, se puede usar la señal de retorno (r(t)) como señal degradada (s'(t)) para obtener una señal intermedia en una etapa intermedia del procesamiento de la señal de referencia, en la forma que lo hace el medio de modelado perceptivo 38, que seguidamente se combina con una correspondiente señal intermedia (Ps'(f)) obtenida en una correspondiente etapa intermedia del procesamiento de la señal degradada, en la forma que lo hace el medio de modelado perceptivo 39. Preferentemente, la señal intermedia es una representación de potencia Fast Fourier Transform (Ps(f)) de la señal de voz de referencia (s(t)). Esta modificación se ilustra esquemáticamente, y de forma detallada, en la figura 5. Los medios de modelado perceptivo 38 y 39 realizan, en una primera etapa del procesamiento normal (véase la referencia [2]) - según se indica en las casillas 51 y 52, respectivamente - una etapa de determinación de ventana Hanning (HW), seguida de una etapa de determinación de una representación de potencia Fast Fourier Transform (FFT) para producir las señales intermedias Ps(f) y Pr(f), que son representaciones de potencia FFT de la señal de voz s(t) del hablante y de la señal degradada s'(t), que ahora equivaldría a la señal de retorno r(t), respectivamente. En una segunda etapa de procesamiento, indicada en los recuadros 53 y 54, se realiza una etapa de alabeo de la frecuencia (FW) a nivel de tono, seguida de las etapas de emborronado de la frecuencia (FS) y alabeo de la intensidad (IW) para producir las señales de representación R(t,f) y R'(t,f), respectivamente. Entre la primera y la segunda etapa, y según se indica en las casillas 52 y 54, se realiza una adición de señal intermedia de las señales intermedias Ps(f) y Pr(f), indicada por el adicionador de señales 55, siendo la suma de la señal intermedia que se añade la entrada de la segunda etapa de procesamiento (casilla 54). Antes de poder aplicar la adición de la señal intermedia, la señal intermedia P(s(f)) deberá situarse en su nivel correcto, en la forma usual.

En consecuencia, al usar una adición de señal intermedia (Ps(f)\varoplusPr(f)) dentro del medio de modelado de percepción en lugar de la adición externa (s'(t)=s(t)\varoplusr(t), el circuito de combinaciones 24 se convierte en superfluo. Si un dispositivo como el descrito con referencia a la figura 3 - que incluye la modificación descrita con referencia a la figura 5 - se emplea directamente en un enlace telefónico en la forma descrita en la referencia [1], los accesos de entrada 33 y 34 del dispositivo pueden acoplarse directamente a las partes de cuatro hilos 17 y 18 del canal de envío y de retorno, respectivamente, de un enlace telefónico.

Claims

1. Procedimiento para medir la calidad de la voz de un enlace telefónico en una red de telecomunicaciones, comprendiendo el procedimiento una etapa principal de someter una señal de voz degradada (s'(t)), respecto a una señal de voz de referencia (s(t)), a una técnica de medición objetiva (32) con el fin de medir una calidad perceptiva de señales de voz y producir una señal de calidad (q) que represente un valor estimado respecto a la calidad de la voz, siendo la señal de voz de referencia una señal de la voz (s(t)) del hablante, e incluyendo la señal de voz degradada una señal de retorno (r(t)), siendo la señal de retorno una señal que se ha producido o que podría producirse en un canal de retorno del enlace telefónico durante la transmisión de la señal de voz del hablante en un canal de envío del enlace telefónico, caracterizado porque la etapa principal se realiza mediante una técnica de medición objetiva que incluye una etapa de modelado de los efectos de enmascaramiento basada en el ruido presente en la señal de
retorno.

2. Procedimiento según la reivindicación 1, caracterizado porque la etapa principal comprende:

una primera etapa de procesamiento para procesar la señal de voz degradada (s'(t)) y generar una primera señal de representación (R'(t,f)),

una segunda etapa de procesamiento para procesar la señal de voz (s(t)) del hablante y generar una segunda señal de representación (R(t,f)), y

una etapa de combinación para combinar la primera y segunda señales de representación con el fin de producir dicha señal de salida (q),

siendo la primera señal de representación (R'(t,f)) la señal de representación de una combinación de señales de la señal de voz del hablante y de la señal de retorno, e incluyendo la etapa de combinación dicha etapa de modelado de los efectos de enmascaramiento basada en el ruido presente en la señal de retorno.

3. Procedimiento según la reivindicación 2, caracterizado porque la etapa de combinación incluye:

una etapa de sustracción (32a) de la primera señal de representación de la segunda señal de representación con el fin de producir una señal de diferencia D(t,f),

realizándose dicha etapa de modelado (32b) de los efectos de enmascaramiento del ruido en la señal de diferencia con el fin de producir una señal de diferencia modificada, y

una etapa de integración (32c) de la señal de diferencia modificada respecto a la frecuencia y al tiempo con el fin de producir la señal de calidad,

incluyendo la etapa de modelado:

: una primera subetapa (41) de producción de un valor estimado (Ne) de la sonoridad del ruido presente en la señal de retorno, y

: una segunda subetapa de supresión de ruidos (42; 46) realizada en la señal de diferencia empleando dicho valor estimado (Ne) generado para producir la señal de diferencia modificada (D'(t,f)).

4. Procedimiento según la reivindicación 3, caracterizado porque la segunda subetapa de supresión de ruidos incluye las subetapas adicionales de:

derivar (46) del valor estimado (Ne) un criterio de sonoridad (C),

fijar (47, 48, 49) unas distorsiones del dominio de sonoridad de la señal de diferencia -insuficientes para el criterio- en cero dentro del dominio de sonoridad de una señal de diferencia (D_{c}(t,f)) ajustada al umbral, y

derivar (50) la señal de diferencia modificada (D'(t,f)) calculando la relación sonoridad de distorsión a sonoridad de señal (DSR:(t,f)) de la señal de diferencia (D_{c}(t,f)) ajustada al umbral respecto a una señal degradada por sonoridad (R'(t)) derivada de la primera señal de representación (R'(t,f)).

5. Procedimiento según cualquiera de las reivindicaciones 2-4, caracterizado porque el valor estimado de la sonoridad del ruido se deriva de la primera señal de representación (R'(t,f)).

6. Procedimiento según cualquiera de las reivindicaciones 2-5, caracterizado porque la señal degradada (s'(t)) es una combinación de señales entre la señal de voz del hablante (s(t)) y la señal de retorno (r(t)).

7. Procedimiento según cualquiera de las reivindicaciones 2-5, caracterizado porque la señal de retorno (r(t)) se usa como señal degradada (s'(t)), y porque una señal intermedia (Ps(f)) obtenida durante una fase intermedia de la segunda etapa de procesamiento de la señal de referencia se combina con una correspondiente señal intermedia (Ps'(f)) obtenida durante una correspondiente etapa intermedia de la primera etapa de procesamiento de la señal degradada.

8. Procedimiento según la reivindicación 7, caracterizado porque la señal intermedia es una representación de potencia Fast Fourier Transform (Ps(f)) de la señal de voz de referencia (s(t)).

9. Procedimiento según cualquiera de las reivindicaciones 1-8, caracterizado porque la señal de voz del hablante y la señal de retorno se retiran de un enlace telefónico establecido.

10. Dispositivo para medir la calidad de la voz de un enlace telefónico en una red de telecomunicaciones (10), comprendiendo el dispositivo un medio de medición (22; 31, 32) para someter una señal de voz degradada (s'(t)), respecto a una señal de voz de referencia (s(t)), a una técnica de medición objetiva con el fin de medir una calidad perceptiva de señales de voz y producir una señal de calidad (q) que represente un valor estimado respecto a la calidad de la voz, siendo la señal de voz de referencia una señal de la voz (s(t)) del hablante, e incluyendo la señal de voz degradada una señal de retorno (r(t)), siendo la señal de retorno una señal que se ha producido o que podría producirse en un canal de retorno del enlace telefónico durante la transmisión de la señal de voz del hablante en un canal de envío del enlace telefónico, caracterizado porque el medio de medición incluye un medio (32b) para el modelado de los efectos de enmascaramiento basado en el ruido presente en la señal de retorno.

11. Dispositivo según la reivindicación 10, caracterizado porque dicho dispositivo comprende:

un primer medio de procesamiento (39) para procesar la señal de voz degradada (s'(t)) y generar una primera señal de representación (R'(t,f)),

un segundo medio de procesamiento (38) para procesar la señal de voz (s(t)) del hablante y generar una segunda señal de representación (R(t,f)), y

un medio de combinación (32) para combinar la primera y segunda señales de representación para producir dicha señal de salida (q), incluyendo el medio de combinación dicho medio (32b) para modelar los efectos de enmascaramiento.

12. Dispositivo según la reivindicación 11, caracterizado porque el medio de combinación incluye:

un medio de sustracción (40) para sustraer la primera señal de representación de la segunda señal de representación con el fin de producir una señal de diferencia (D(t,f)),

dicho medio de modelado (41, 42) para modelar los efectos de enmascaramiento realizados en la señal de diferencia con el fin de producir una señal de diferencia modificada, y

un medio de integración (43) para integrar la señal de diferencia modificada respecto a la frecuencia y al tiempo con el fin de producir la señal de calidad,

incluyendo el medio de modelado:

: un medio (41) de producción de un valor estimado (Ne) de la sonoridad del ruido presente en la señal de retorno, y

: un medio (42) para realizar una supresión de ruidos sobre la señal de diferencia empleando dicho valor estimado (Ne) generado para producir la señal de diferencia modificada (D'(t,f)),

siendo la primera señal de representación (R'(t,f)) una señal de representación de una combinación de señales entre la señal de voz del hablante y la señal de retorno.

13. Dispositivo según la reivindicación 11, caracterizado porque el dispositivo incluye un combinador de señales (24) para combinar la señal de voz (s(t)) del hablante con la señal de retorno (r(t)) con el fin de formar la señal degradada (s'(t)).

14. Dispositivo según la reivindicación 11, caracterizado porque el dispositivo incluye un medio intermedio de combinación de señales (55) para combinar una señal intermedia (Ps(f)), obtenida en una etapa intermedia del segundo medio de procesamiento (38), con una correspondiente señal intermedia (Ps'(f)), obtenida en una correspondiente etapa intermedia del primer medio de procesamiento (39), siendo la señal degradada (s'(t)) la señal de retorno (r(t)).

15. Dispositivo según la reivindicación 14, caracterizado porque el medio intermedio de combinación de señales (55) se incluye en el primer medio de procesamiento (39) después del medio (FTT) de realización de la función Fast Fourier Transform.