ES2243713T3 - Procedimiento y dispositivo para determinar la calidad de una señal de voz. - Google Patents

Procedimiento y dispositivo para determinar la calidad de una señal de voz.

Info

Publication number
ES2243713T3
ES2243713T3 ES02722174T ES02722174T ES2243713T3 ES 2243713 T3 ES2243713 T3 ES 2243713T3 ES 02722174 T ES02722174 T ES 02722174T ES 02722174 T ES02722174 T ES 02722174T ES 2243713 T3 ES2243713 T3 ES 2243713T3
Authority
ES
Spain
Prior art keywords
scaling
signal
delta
power
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES02722174T
Other languages
English (en)
Inventor
John Gerard Beerends
Andries Pieter Hekstra
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke KPN NV
Original Assignee
Koninklijke KPN NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke KPN NV filed Critical Koninklijke KPN NV
Application granted granted Critical
Publication of ES2243713T3 publication Critical patent/ES2243713T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Telephonic Communication Services (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)
  • Monitoring And Testing Of Exchanges (AREA)

Abstract

Procedimiento destinado a determinar, según una técnica de medida objetiva de la voz, la calidad de una señal de salida (Y (t)) de un sistema de tratamiento de una señal vocal respecto a una señal de referencia (X (t)), cuyo procedimiento comprende una etapa principal de tratamiento de la señal de salida y de la señal de referencia y de generación de una señal de calidad (Q), en el cual la etapa principal del tratamiento comprende: una primera etapa de escalamiento (S (Y + Ä); S (Y + Äi), con i = 1, 2) para el escalamiento de un nivel de potencia de al menos una de las señales de salida y de referencia mediante la aplicación de un primer factor de escalamiento que es una función de un valor recíproco de un primer parámetro relativo a la potencia de dicha señal y una segunda etapa de escalamiento efectuada aplicando un segundo factor de escalamiento (Sá3 (Y + Ä); Sái (Y + Äi), con i = 1, 2; Vá3 (Y + Ä3t); Vá3 (Y + Ä3)), que es una función de un valor recíproco de un segundo parámetro relativo a la potencia de dicha señal, utilizando al menos un parámetro de ajuste (á, Ä; ái, Äi con i = 1, 2; á3, Ä3).

Description

Procedimiento y dispositivo para determinar la calidad de una señal de voz.
A. Antecedentes de la invención
La presente invención se refiere a la medición de la calidad de señales acústicas, tales como señales de audio, voz y conversación. Más en particular, se refiere a un procedimiento y a un dispositivo para determinar, según una técnica de medición objetiva, la calidad de voz de una señal de salida según se recibe desde un sistema de tratamiento de señales de conversación, con respecto a una señal de referencia. Procedimientos y dispositivos de dicho tipo son conocidos, por ejemplo, a partir de las referencias [1 - 5] (para más detalles bibliográficos sobre las referencias, véase a continuación el apartado C. Referencias). Procedimientos y dispositivos, que siguen la recomendación P.861 de ITU - T o su recomendación sucesora P.862 (véase referencias [6] y [7]) son también de dicho tipo. Según la técnica conocida actual, una señal de salida procedente de un sistema de tratamiento y / o transporte de señales de conversación, tales como sistemas de telecomunicaciones inalámbricos, sistemas de transmisión de protocolo Voice over Internet y codificadores - decodificadores de voz, que suelen ser una señal degradada y cuya calidad de señal ha de determinarse y una señal de referencia, son señales en correlación o de representación según un modelo de percepción psicofísica de la audición humana. Como una señal de referencia, se puede utilizar, como en las referencias citadas, una señal de entrada del sistema aplicada con la señal de salida obtenida. Posteriormente, una señal diferencial se determina a partir de dichas señales de representación que, según el modelo de percepción usado, es representativa de una perturbación sostenida en el sistema presente en la señal de salida. La señal diferencial o de perturbación constituye una expresión para la medida en que, según el modelo de representación, la señal de salida se desvía con respecto a la señal de referencia. A continuación, la señal de perturbación se trata según un modelo cognoscitivo, en el que se han creado modelos de algunas propiedades de las personas sometidas a prueba, con el fin de obtener una señal de calidad independiente del tiempo, que es una medida de la calidad de la percepción auditiva de la señal de salida.
La técnica conocida, y más en particular los procedimientos y dispositivos que siguen la recomendación P.862, tienen, sin embargo, el inconveniente de que distorsiones severas tales como las causadas por partes silenciosas o muy débiles en la señal degradada, y que contienen voz en la señal de referencia pueden dar lugar a una señal de calidad, que posee una correlación deficiente con mediciones de la calidad subjetivamente determinadas, tal como notas medias de opinión (MOS) de las personas sometidas a la prueba. Dichas distorsiones pueden producirse como consecuencia del recorte de tiempo, es decir, sustitución de partes cortas en la señal de voz o audio mediante silencio, por ejemplo, en caso de paquetes perdidos en sistemas de paquetes conmutados. En tales casos, la calidad prevista es notablemente más alta que la calidad percibida de forma subjetiva.
B. Sumario de la invención
Un objeto de la presente invención, según se define por las reivindicaciones independientes adjuntas, es proporcionar un procedimiento mejorado y el correspondiente dispositivo para determinar la calidad de una señal de conversación, que no posea dicho inconveniente.
La presente invención ha estado basada, entre otras cosas, en la observación siguiente. La ganancia de un sistema bajo prueba no se suele conocer a priori. Por lo tanto, en una fase de inicialización o pretratamiento de la etapa principal de tratamiento de la señal de salida (degradada) y la señal de referencia se realiza una etapa de escalamiento, al menos en la señal de salida aplicando un factor de escalamiento para un escalamiento general o global de la potencia de la señal de salida a un nivel de potencia específico. El nivel de potencia específico puede estar relacionado con el nivel de potencia de la señal de referencia en técnicas tales como las que siguen la recomendación P.861 o con un nivel fijo predeterminado en técnicas que siguen la recomendación P.862. El factor de escalamiento es una función del valor recíproco de la raíz cuadrada de la potencia media de la señal de salida. En casos en que la señal degradada incluye partes silenciosas o muy débiles, este valor recíproco se incrementa a grandes números. Es precisamente este comportamiento del valor recíproco de dicho parámetro relacionado con la potencia lo que puede utilizarse para adaptar el cálculo de la distorsión de tal manera que sea posible una predicción mucho mejor de la calidad subjetiva de los sistemas bajo prueba.
Otro objeto de la presente invención es proporcionar un procedimiento y un dispositivo de la clase anterior, que comprenden una mejor operación de escalamiento controlable y medios para dicha mejor operación de escalamiento controlable, respectivamente.
Este y otros objetos se consiguen introduciendo, en un procedimiento y dispositivo de la clase anterior, una segunda etapa de escalamiento adicional realizada aplicando un segundo factor de escalamiento, con el empleo de al menos un parámetro de ajuste, pero preferiblemente dos parámetros de ajuste. En la realización preferida, el segundo factor de escalamiento es una función de un valor recíproco de un parámetro relacionado con la potencia elevado a un exponente con un valor que corresponde a un primer parámetro de ajuste, en cuya función el parámetro relacionado con la potencia se incrementa en un valor correspondiente a un segundo parámetro de ajuste. La segunda etapa de escalamiento se puede realizar en varias etapas del procedimiento y dispositivo.
El uso de un factor de escalamiento, que es una función de un valor recíproco de un parámetro relacionado con la potencia de una clase, tal como la conocida raíz cuadrada de la potencia media de la señal de salida, tiene todavía otro inconveniente, puesto que existen otros casos que darán lugar a predicciones no fiables de la calidad de la conversación. Uno de dichos casos es el siguiente. Dos señales de conversación degradadas, que son las señales de salida de dos diferentes sistemas de tratamiento de señales de conversación bajo prueba y que tienen la misma señal de referencia de entrada, pueden presentar el mismo valor para la potencia media. Por ejemplo, una de las señales tiene una potencia relativamente grande durante solamente un corto periodo de tiempo de la duración total de la señal de conversación y una potencia cero o muy baja en cualquier otro momento, mientras que la otra señal tiene una potencia relativamente baja durante el periodo de la señal de conversación total. Dichas señales degradadas pueden tener principalmente la misma predicción de la calidad de conversación mientras que pueden diferenciarse considerablemente en la calidad de la conversación experimentada de forma subjetiva.
Otro objeto de la presente invención es proporcionar un procedimiento y un dispositivo de la clase anterior, en el que se introduce un factor de escalamiento, que dará lugar a predicciones fiables de la calidad de la conversación también en casos de diferentes señales degradadas que tienen principalmente valores medios de la potencia iguales según fue mencionado.
Este y otros objetos se consiguen introduciendo en las primeras y/o segundas operaciones de escalamiento del procedimiento y dispositivo de la técnica anterior el uso de dos nuevos factores de escalamiento basados en parámetros relacionados con la potencia, que difieren de la potencia de la señal media. Un primer nuevo factor de escalamiento es una función de un nuevo parámetro relacionado con la potencia, denominado actividad de potencia de señal (SPA), que se define como la duración total en cuyo periodo la potencia de una señal interesada está por encima o es igual a un valor de umbral predefinido. El primer nuevo factor de escalamiento se define para escalar la señal de salida en la primera operación de escalamiento y es una función de valor recíproco de la actividad SPA de la señal de salida. En una realización preferible, el primer nuevo factor de escalamiento es una función de la relación de la actividad SPA de la señal de referencia y la SPA de la señal de salida. Este primer nuevo factor de escalamiento se puede utilizar en lugar o en combinación (por ejemplo, en multiplicación) con el factor de escalamiento conocido basado en la potencia media de la señal. El segundo nuevo factor de escalamiento se deriva de lo que puede denominarse un factor de escalamiento local, es decir, la relación de las potencias instantáneas de las señales de referencia y de salida, en donde los parámetros de ajuste se introducen en el nivel local. Una versión local del segundo nuevo factor de escalamiento se puede aplicar en la segunda operación de escalamiento de modo que se transmitan directamente a la, todavía dependiente del tiempo, señal diferencial durante y en una etapa de combinación del procedimiento y dispositivo, respectivamente. Una versión global del segundo nuevo factor de escalamiento se consigue promediando al principio el factor de escalamiento local durante el periodo de tiempo total de duración de la señal de conversación y aplicándolo luego en la segunda operación de escalamiento como transportada durante y en la etapa de combinación de la señal. En lugar o en combinación con una operación de escalamiento que aplica el factor de escalamiento derivado del factor de escalamiento (conocido y/o primer nuevo) aplicado en la primera operación de escalamiento.
El primer nuevo factor de escalamiento es más ventajoso en casos de señales de conversación degradadas con partes de potencia muy baja o cero de duración relativamente larga, mientras que el segundo nuevo factor de escalamiento es más ventajoso para las señales que tengan partes similares de duración relativamente corta.
C. Referencias
[1] Beerends J.G. Stemerdink J.A. "Una medida perceptual de la calidad de la conversación basada en una representación psicoacústica del sonido", J. Audio Eng. Soc. Vol. 42, nº 3, dic. 1994, páginas 115 - 123;
[2] WO - A - 96 / 28950;
[3] WO - A - 96 / 28952;
[4] WO - A - 96 / 28953;
[5] WO - A - 97 / 44779;
[6] ITU - T. Recomendación P.861 "Medición objetiva de codificadores - decodificadores de voz de la banda telefónica (330 - 3400 Hz)", 06/96;
[7] ITU - T Recomendación P.862 (02/2001), Serie P: Calidad de la transmisión telefónica, instalaciones telefónicas, redes de líneas locales; procedimientos para evaluación objetiva y subjetiva de la calidad - evaluación perceptual de la calidad de conversación (PESQ), un procedimiento objetivo para la evaluación de la calidad de conversación 'extremo a extremo' de redes telefónicas de banda estrecha y codificadores - decodificadores de voz.
D. Breve descripción de los dibujos
A continuación, la invención se describirá con más detalle por medio de la descripción de realizaciones preferidas, haciéndose referencia a los dibujos adjuntos que comprenden las Figuras siguientes:
La Figura 1 ilustra, de forma esquemática, una configuración del sistema conocida que incluye un dispositivo para determinar la calidad de una señal de conversación;
La Figura 2 ilustra, en un diagrama de bloques, un detalle de un dispositivo conocido para determinar la calidad de una señal de conversación;
La Figura 3 ilustra, en un diagrama de bloques, un detalle similar al ilustrado en la Figura 2 para otro dispositivo conocido;
La Figura 4 ilustra, en un diagrama de bloques, un detalle similar al ilustrado en la Figura 2 o Figura 3, según la invención;
La Figura 5 ilustra, en un diagrama de bloques, un dispositivo para determinar la calidad de una señal de conversación según la invención, incluyendo una variante del detalle que se ilustra en la Figura 4;
La Figura 6 ilustra, en una parte del diagrama de bloques de la Figura 5, una variante de un detalle del dispositivo ilustrado en la Figura 5;
La Figura 7 ilustra, de una forma similar a la Figura 6, otra variante de la invención.
E. Descripción de realizaciones preferidas
La Figura 1 ilustra, de forma esquemática, una configuración conocida de una aplicación de una técnica de medición objetiva, que está basada en un modelo de percepción auditiva humana y su de cognición, tal como la que sigue cualquiera de las recomendaciones P.861 y P.862 de ITU - T, para estimar la calidad perceptual de los codificadores - decodificadores o enlaces de voz. Comprende un sistema o red de telecomunicaciones bajo prueba 10, en lo sucesivo referido como sistema 10 para mayor claridad y un dispositivo de medición de la calidad 11 para el análisis perceptual de las señales de conversación ofrecidas. Una señal de conversación X_{0}(t) se utiliza, por una parte, como una señal de entrada de la red 10 y, por otra parte, como una primera señal de entrada X(t) del dispositivo 11. Una señal de salida Y(t) de la red 10 que, de hecho, es la señal de conversación X_{0}(t) afectada por la red 10, se emplea como una segunda señal de entrada del dispositivo 11. Una señal de salida Q del dispositivo 11 representa una estimación de la calidad perceptual del enlace de voz a través de la red 10. Puesto que el extremo de entrada y el extremo de salida de un enlace de voz, en particular en el caso de que se transmita a través de una red de telecomunicaciones, son remotos, para las señales de entrada del dispositivo de medición de la calidad se utilizan, en la mayoría de los casos, señales de conversación X(t) almacenadas en bases de datos. En este caso, como es habitual, la señal de conversación se entiende que significa cada sonido básicamente perceptible para la audición humana, tales como conversación y tonos. El sistema bajo prueba puede ser, por supuesto, también un sistema de simulación que simule, por ejemplo, una red de telecomunicaciones. El dispositivo 11 realiza una etapa de tratamiento principal que comprende, de forma sucesiva, en una sección de pretratamiento 11.1, una etapa de tratamiento previo realizada por medios de pretratamiento 12, en una sección de tratamiento 11.2, una etapa de tratamiento adicional realizada por los medios, primero y segundo, de tratamiento de la señal 13 y 14 y, en una sección de combinación de señales 11.3, una etapa de tratamiento de la señal combinado realizada por medios diferenciadores de señales 15 y medios de modelización 16. En la etapa de pretratamiento, las señales X(t) e Y(t) son preparadas para la etapa de tratamiento adicional en los medios 13 y 14, incluyendo el pretratamiento las operaciones de escalamiento del nivel de potencia y de alineación en el tiempo. La etapa de tratamiento adicional implica la correlación de la señal de salida Y(t) (degradada) y la señal de referencia X(t) en las señales de representación R(Y) y R(X) según un modelo de percepción psicofísica del sistema auditivo humano. Durante la etapa de tratamiento de la señal combinada, una señal diferencial o de perturbación D se determina por los medios de diferenciación 15 de dichas señales de representación, que luego son tratadas por medios de modelización 16 según un modelo cognoscitivo, en el que algunas propiedades de las personas sometidas a prueba han sido modelizadas, pera poder obtener la señal de calidad Q.
Recientemente, ha sido experimentado que la técnica conocida, y más en particular la que sigue la recomendación P.862, presenta un grave inconveniente por cuanto que fuertes distorsiones son causadas por partes silenciosas o muy débiles en la señal degradada y que no están presentes en la señal de referencia, pueden dar lugar a señales de calidad Q, que predicen la calidad notablemente más alta que la calidad percibida de forma subjetiva y por lo tanto, poseen correlaciones deficientes con mediciones de la calidad determinadas de forma subjetiva, tales como notas medias de opinión (MOS) de personas sometidas a prueba. Dichas distorsiones pueden producirse como consecuencia de recortes de tiempo, es decir, sustitución de partes cortas en la señal de audio o de voz por silencio, por ejemplo, en el caso de paquetes perdidos en sistemas de paquetes conmutados.
Puesto que la ganancia de un sistema bajo prueba no se suele conocer a priori, durante la fase de iniciacilización o de pretratamiento se realiza una etapa de escalamiento, al menos en la señal de salida (degradada) aplicando un factor de escalamiento para el escalamiento de la potencia de la señal de salida con respecto a un nivel de potencia específico. El nivel de potencia específico puede estar relacionado con el nivel de potencia de la señal de referencia en técnicas tales como las que siguen la recomendación P.861. En la Figura 2 se ilustra, de forma esquemática, los medios de escalamiento 20 para dicha etapa de escalamiento. Los medios de escalamiento 20 tienen las señales X(t) e Y(t) como señales de entrada y las señales X_{s}(t) e Y_{s}(t) como señales de salida. El escalamiento es tal que la señal X(t) = X_{s}(t) es invariable y la señal Y(t) es escalada a Y_{s}(t) = S_{1} Y(t) en la unidad de escalamiento 21, aplicando un factor de escalamiento:
{1} S_{1}=S(X,Y)=\sqrt{P_{media}(X)/P_{media}(Y)}
En esta fórmula P_{media} (X) y P_{media}(Y) significan la potencia promediada en el tiempo de las señales X(t) e Y(t), respectivamente.
El nivel de potencia específico se puede relacionar también con un nivel fijo predefinido en técnicas que pueden seguir la recomendación P.862. En la Figura 3 se ilustra, de forma esquemática, los medios de escalamiento 30 para dicha etapa de escalamiento. Los medios de escalamiento 30 tienen las señales X(t) e Y(t) como señales de entrada y las señales X_{s}(t) e Y_{s}(t) como señales de salida. El escalamiento es tal que la señal X(t) es escalada a X_{s}(t) en la unidad de escalamiento 31 y la señal Y(t) es escalada a Y_{s}(t) = S_{3} Y(t) en la unidad de escalamiento 32, aplicando, respectivamente, los factores de escalamiento siguientes:
{2} S_{2}=S(P_{f}Y)=\sqrt{P_{fija}/P_{media}(X)}
y
{3} S_{3}=S(P_{f}Y)=\sqrt{P_{fija}/P_{media}(Y)}
En donde P_{fija} (es decir, P_{f}) es un nivel de potencia predefenido, el así denominado nivel objetivo constante y P_{media}(X) y P_{media}(Y) tienen el mismo significado dado con anterioridad.
En ambos casos, se utilizan factores de escalamiento, que son una función del valor recíproco de un parámetro relacionado con la potencia, es decir, la raíz cuadrada de la potencia de la señal de salida para S_{1} y S_{3} o de la potencia de la señal de referencia, para S_{2}. En aquellos casos en que la señal degradada y / o la señal de referencia incluyen grandes partes silenciosas o muy débiles, dichos parámetros relacionados con la potencia pueden disminuir a valores muy pequeños o incluso a cero y en consecuencia, sus valores recíprocos pueden aumentar a números muy grandes. Este hecho proporciona un punto de partida para hacer que las operaciones de escalamiento, y preferiblemente también los factores de escalamiento allí utilizados, ajustables y en consecuencia, mejor controlables.
Para poder conseguir dicha mejor controlabilidad al principio, se introduce una segunda etapa de escalamiento adicional aplicando un segundo factor de escalamiento. Este segundo factor de escalamiento puede elegirse para ser igual (pero no necesariamente, véase a continuación) al primer factor de escalamiento, tal como se utiliza para el escalamiento de la señal de salida en la primera etapa de escalamiento, pero elevada a un exponente \alpha. El exponente \alpha es un primer parámetro de ajuste que tiene valores preferentemente entre 0 y 1. Es posible realizar la segunda etapa de escalamiento en varias fases en el dispositivo de medición de la calidad (véase más adelante). En segundo lugar, un segundo parámetro de ajuste \Delta, que tiene un valor \geq 0, se puede añadir a cada valor de la potencia de la señal promediada en el tiempo tal como se utiliza en el factor o factores de escalamiento, respectivamente en el primero y segundo de los dos casos descritos de la técnica anterior. El segundo parámetro de ajuste \Delta tiene un valor ajustable predefinido para aumentar el denominado de cada factor de escalamiento a un mayor valor, especialmente en los casos mencionados de partes silenciosas o muy débiles. Los factores de escalamiento así modificados (para \Delta \neq 0) o no (para \Delta = 0) se utilizan en la primera etapa de escalamiento de la fase de inicialización de una manera similar a la anteriormente descrita con referencia a las Figuras 2 y 3 así como en la segunda etapa de escalamiento. En lo sucesivo, se describen tres formas diferentes con referencia a las Figuras 4 y 5, para las cuales el segundo factor de escalamiento se deriva del primer factor de escalamiento, seguido por una descripción con referencia a las Figuras 6 y 7 de algunas maneras en las que éste no es el caso.
La Figura 4 ilustra, de forma esquemática, una disposición de escalamiento 40 para realizar la primera etapa de escalamiento aplicando factores de escalamiento modificados y la segunda etapa de escalamiento. La disposición de escalamiento 40 tiene las señales X(t) e Y(t) como señales de entrada y las señales X'_{s}(t) e Y'_{s}(t) como señales de salida. La primera etapa de escalamiento es tal que la señal X(t) es escalada a X_{s}(t) = S'_{2} X(t) en la unidad de escalamiento 41 y la señal Y(t) es escala a Y_{s}(t) = S'_{3} Y(t) en la unidad de escalamiento 42, aplicando, respectivamente, factores de escalamiento modificados:
{1'}S'_{1}=S(Y+\Delta)=\sqrt{P_{media}(X)+\Delta/P_{media}(Y)+\Delta)}
con la Figura 2, en donde X_{s}(t) = X(t) (p.e., S(X + \Delta) = 1 en la Figura 4) y
{2'}S'_{2}=S(X+\Delta)=\sqrt{P_{fija}/P_{media}(X)+\Delta)}
y
{3'}S_{3}=S(Y+\Delta)=\sqrt{P_{fija}/P_{media}(Y)+\Delta)}
para casos que tengan una etapa de escalamiento de conformidad con la Figura 3
La segunda etapa de escalamiento es tal que la señal X_{s}(t) es escala a X'_{s}(t) = S_{4}.X_{s}(t) en la unidad de escalamiento 43 y la señal Y_{s}(t) es escala a Y'_{s}(t) = S_{4} Y_{s}(t) en la unidad de escalamiento 44, aplicando el factor de escalamiento:
{4} S_{4} = S^{\alpha}(Y + \Delta)
El factor de escalamiento S_{4} se puede generar por la unidad de escalamiento 42 y pasarse a las unidades de escalamiento 43 y 44 de la segunda etapa de escalamiento en la forma ilustrada. De otro modo, el factor de escalamiento S_{4} se puede obtener por las unidades de escalamiento 43 y 44 en la segunda etapa de escalamiento aplicando el factor de escalamiento S_{3} tal como se recibe desde la unidad de escalamiento 42 en la primera etapa de escalamiento.
Se apreciará que la primera y la segunda etapas de escalamiento, realizadas dentro de la disposición de escalamiento 40, pueden combinarse para una etapa de escalamiento única realizada en las señales X(t) e Y(t) por unidades de escalamiento, que son combinaciones, respectivamente, de las unidades de escalamiento 41 y 43, y las unidades de escalamiento 42 y 44, aplicando factores de escalamiento que son los productos de los factores de escalamiento utilizados en las unidades de escalamiento separadas. Dicha etapa de escalamiento combinada, en la que los parámetros son elegidos como -1 < \alpha \leq 0 y \Delta \geq 0, serán equivalentes a un caso en el que solamente esté presente la primera etapa de escalamiento, que aplica un factor de escalamiento en el que el valor recíproco del parámetro relacionado con la potencia es elevado a un exponente que corresponde a un parámetro de ajuste \alpha' con 0 < (\alpha' = 1 + \alpha)\leq1 y el parámetro relacionado con la potencia se incrementa con un valor de ajuste correspondiente al parámetro \Delta.
Los valores de los parámetros \alpha y \Delta se ajustan de tal manera que, para las señales de prueba X(t) e Y(t), las calidades medidas de forma objetiva tienen altas correlaciones con las calidades percibidas de forma subjetiva (MOS). De este modo, ejemplos de señales degradadas con sustitución de la voz por silencios en hasta un 100% parecieron proporcionar correlaciones por encima de 0,8, mientras que la calidad de los mismos ejemplos, tal como se miden en la forma conocida, presentaban valores inferiores a 0,5. Además, apareció una indiferencia para casos para los que fue validada la recomendación P.862.
Los valores para los parámetros \alpha y \Delta se pueden almacenar en el medio pre-procesador del dispositivo de medición. Sin embargo, puede conseguirse también el ajuste del parámetro \Delta añadiendo una cantidad de ruido a la señal de salida degradada en la entrada del dispositivo 11, de tal manera que la cantidad de ruido tenga una potencia media igual al valor necesario para el parámetro de ajuste \Delta en un caso concreto.
En lugar de realizarlo en la fase de pretratamiento, la segunda etapa de escalamiento se puede realizar en una fase posterior durante el tratamiento de las señales de salida y de referencia. Sin embargo, la localización de la segunda etapa de escalamiento no necesita estar limitada a la etapa en la que las señales se tratan por separado. La segunda etapa de escalamiento puede realizar también en la fase de combinación de señales; sin embargo, con diferentes valores para los parámetros \alpha y \Delta. Tal como se ilustra en la Figura 5, que muestra, de forma esquemática, un dispositivo de medición 50, que es similar al dispositivo de medición 11 de la Figura 1 y que, de forma sucesiva, comprende una sección de pretratamiento 50.1, una sección de tratamiento 50.2 y una sección de combinación de señales 50.3. La sección de pretratamiento 50.1 incluye las unidades de escalamiento 41 y 42 de la primera etapa de escalamiento, produciendo la unidad 42 el factor de escalamiento S_{4} (véase fórmula {4}) indicado en la figura por S^{\alpha}(Y + \Delta _{i}) en donde i = 1,2 para un primer y segundo caso, respectivamente.
En el primer caso (i = 1), se realiza la segunda etapa de escalamiento, en la sección de combinación de señales 50.3, mediante la unidad de escalamiento 51 y aplicando el factor de escalamiento S_{4} = S^{\alpha1}(Y + \Delta _{1}) escalando así la señal diferencial D a una señal diferencial escalada D' = S^{\alpha1}(Y + \Delta_{1}) \cdot Q
Como alternativa, en el segundo caso (i = 2), se realiza la segunda etapa de escalamiento, de nuevo en la sección de combinación de señales 50.3, mediante la unidad de escalamiento 52 y aplicando el factor de escalamiento S_{4} = S^{\alpha2}(Y + \Delta _{2}) escalando así la señal de calidad Q a una señal de calidad escala Q' = S^{\alpha1}(Y + \Delta_{1}) \cdot Q
Para los parámetros \alpha_{i} y \Delta_{i}, se aplica lo mismo que fue mencionado anteriormente en relación con los parámetros \alpha y \Delta. En cambio, como alternativa, la etapa de escalamiento del segundo caso (i = 2) se puede realizar también como una tercera etapa de escalamiento adicional a la segunda etapa de escalamiento del primer caso (i = 1); sin embargo, con diferentes parámetros de ajuste adecuados.
Otras mejoras se consiguen introduciendo, en la primera y/o segunda operaciones de escalamiento, dos nuevos factores de escalamiento basados en parámetros relacionados con la potencia, que difieren de la potencia de la señal media.
Una primera nueva clase de factor de escalamiento se puede definir y aplicar en la primera etapa de escalamiento, y también en la segunda etapa de escalamiento, que está basado en un diferente parámetro relacionado con la potencia de la señal X(t) y/o la señal Y(t). En lugar de utilizar una potencia promediada en el tiempo P_{media} de las señales X(t) e Y(t) como en las formas {1},-,{3} y {1'},-,{3'}, se puede emplear un diferente parámetro relacionado con la potencia para definir un factor de escalamiento para escalar la potencia de la señal de salida (degradada) a un nivel de potencia concreto. Este diferente parámetro relacionado con la potencia se denomina actividad de la potencia de la señal (SPA). La actividad de potencia de la señal de una señal de conversación Z (t) se indica como SPA(Z), lo que significa el tiempo total durante el cual la potencia de la señal Z(t) es al menos igual a un nivel de potencia de umbral predefinido P_{thr}
Una expresión matemática de la actividad SPA de una señal Z(t) de duración total T viene dada por:
{5}SPA(Z)=\int\limits^{t}_{o}f(t)dt
en donde F(t) es una función escalada como sigue:
100
en esta expresión, P (Z(t)) indica la potencia momentánea de la señal Z(t) en el tiempo t_{i} y P_{tr} indica un valor de umbral predefinido para la potencia de la señal.
La expresión {5} para la SPA es adecuada para casos de un tratamiento continuo de la señal. Una expresión que es adecuada en casos de un tratamiento de señal discreto, utilizando tramas de tiempo, viene dada por:
{5'}SPA (Z)=\sum\limits^{n}_{i=1}f(t_{i})
En donde F (t_{i}) es una función escalada como sigue:
101
Y en el que t_{i} = (i / N) para i = 1, -, N y t_{0} = 0 y N es el número total de tramas de tiempo en las que la señal Z(t) está dividida para ser tratada. Llamando una trama activa a una trama de tiempo para la que F (t_{i} ) = 1 entonces la fórmula {5'} cuenta el número total de tramas activas en la señal Z(t).
Utilizando el parámetro relacionado con la potencia SPA así definido, se definen nuevos factores de escalamiento de una manera similar a los factores de escalamiento de las fórmulas {1} - {3}, {1'} - {3'} y {4}, bien sea para sustituirlos, bien sea para utilizarse en multiplicación con ellos. Estos nuevos factores de escalamiento son como sigue:
{6.1}T_{1}=T(X,Y)=SPA(X)/SPA(Y)
{6.2}T_{2}=T(SPAF,X)=SPA_{FIJO}/SPA(X)
{6.3}T_{3}=T(SPAF,Y)=SPA_{FIJO}/SPA(Y)
{6.1'}T'_{1}=T(Y+\Delta)=\{SPA(X)+\Delta\}/\{SPA(Y)+\Delta\}
{6.2'}T'_{2}=T(X+\Delta)=SPA_{FIJO}/\{SPA(X)+\Delta\}
{6.3'}T'_{3}=T(Y+\Delta)=SPA_{FIJO}/\{SPA(Y)+\Delta\}
Y
{6.4}T_{4} = T^{\alpha}(Y + \Delta)
En estas fórmulas, SPA_{fija}, (es decir, SPA_{f}) es un nivel de actividad de potencia de señal predefinido, que puede elegirse de una manera similar a la del nivel de potencia predefinido P_{fijo} antes citado.
Puesto que los factores de escalamiento así definidos son también una función de un valor recíproco de un parámetro relacionado con la potencia, por ejemplo, el parámetro SPA, que, bajo determinadas circunstancias, puede tener también valores que sean muy pequeños o incluso cero, los parámetros \alpha y \Delta, tal como se utilizan en los factores de escalamiento de las fórmulas {6.1'} - {6.3'} y {6.4} son ventajosos porque proporcionan una mejor posibilidad de control de las operaciones de escalamiento. Se ajustan de una forma similar, pero en general diferente, de los parámetros tal como se utilizan en los factores de escalamiento según las fórmulas {1'} - {3'} y {4}. Por ejemplo, en el último caso, \Delta tiene la dimensión de potencia y debe tener un valor no despreciable con respecto a P_{media} (X) (en {1'}) o con respecto a P_{fija} (en {2'} o {3'}) mientras que en el caso anterior, \Delta es un número sin dimensiones, que se puede poner simplemente igual a 1.
En lo sucesivo, un factor de escalamiento basado en la SPA de una señal de conversación se denomina un factor de escalamiento de tipo T, mientras que un factor de escalamiento basado en la P_{media} de una señal de conversación se denomina un factor de escalamiento de tipo S.
Un factor de escalamiento de tipo T se puede utilizar en lugar de un factor de escalamiento tipo S correspondiente en cada una de las operaciones de escalamiento descritas con referencia a las Figuras 1 a 5 inclusive.
El uso de un factor de escalamiento de tipo T proporciona una solución para el problema de predicciones no fiables de la calidad de la conversación en casos en los que dos señales de conversación degradadas diferentes, que son las señales de salida de dos diferentes sistemas de tratamiento de señales de conversación bajo prueba, y que proceden de la misma señal de referencia de entrada, tienen el mismo valor para la potencia media. Si, por ejemplo, una de las señales tiene una potencia relativamente grande durante solamente un periodo de tiempo corto de la duración de la señal de conversación total y una potencia cero o muy baja en cualquier otro momento, mientras que la otra señal tiene una potencia relativamente baja durante la duración de la conversación total, entonces dichas señales degradadas pueden dar lugar a principalmente la misma predicción de la calidad de la conversación, mientras que pueden diferir considerablemente en la calidad de la conversación experimentada de forma subjetiva. Utilizando un factor de escalamiento de tipo T en tales caso en lugar de un factor de escalamiento de tipo S, dará lugar a predicciones diferentes y en consecuencia más fiables. Sin embargo, puesto que también es posible que dichas dos diferentes señales de conversación degradadas, en lugar de tener el mismo valor para la potencia media, tengan el mismo valor para la actividad de potencia de la señal y en consecuencia, pueden resultar también en predicciones no fiables, será conveniente utilizar un factor de escalamiento que sea una combinación de un factor de escalamiento de tipo S y de tipo T.
Varias combinaciones son posibles, tales como una combinación lineal o una combinación de productos de diferentes o iguales potencias de un factor de escalamiento tipo S y tipo T.
Una combinación preferida es la multiplicación simple de uno de los factores de escalamiento tipo S con su correspondiente factor de escalamiento tipo T, en cuanto a definir un factor de escalamiento tipo U correspondiente como sigue:
U_{1} = S_{1}\cdot T_{1}, U_{2} = S_{2} \cdot T_{2}, U_{3}= S_{3}\cdot T_{3}
U'_{1} = S'_{1}\cdot T'_{1}, U'_{2} = S'_{2} \cdot T'_{2}, U'_{3}= S'_{3}\cdot T'_{3}
y
U_{4} = S_{4}\cdot T_{4}
Cada uno de los factores de escalamiento de tipo U así definidos ha de utilizarse en lugar de un factor de escalamiento tipo S correspondiente, en cada una de las operaciones de escalamiento descritas con referencia a las Figuras 1 a 5 inclusive.
Un segundo nuevo factor de escalamiento es una función de un valor recíproco de un parámetro relacionado con la potencia también diferente, por ejemplo, la potencia instantánea de una señal de conversación. Más en particular, se deriva de lo que puede denominarse un factor de escalamiento local, es decir, la relación de las potencias instantáneas de las señales de referencia y de salida. El segundo nuevo factor de escalamiento se consigue promediando este factor de escalamiento local a través de la duración total de la señal de conversación, en la que los parámetros de ajuste \alpha y \Delta son introducidos ya en el nivel local. Un factor de escalamiento así conseguido, en lo sucesivo denominado factor de escalamiento tipo V, en lugar o en combinación con una de las operaciones de escalamiento realizadas por las unidades de escalamiento 51 y 52 con una operación de escalamiento sustancialmente invariable realizada por la unidad de escalamiento 42 en la sección de pretratamiento 50.1. Existen varias posibilidades para realizar una operación de escalamiento basada en el factor de escalamiento tipo V, dependiendo de si se aplica una versión local o una versión global de dicho factor. Algunas de las posibilidades se describen a continuación con referencia a las Figuras 6 y 7.
Una versión local V_{l} del factor de escalamiento tipo V, en la que se introdujeron ya los dos parámetros de ajuste, viene dada por la siguiente expresión matemática.
{7.1}VL=V^{\alpha 3} (Y+\Delta_{3}, t) = \left(\frac{P(X(t)) + \Delta_{3}}{P(Y(t)) + \Delta_{3}}\right)^{\alpha 3}
En donde P(X(t)) y P(Y(t)) son expresiones para las potencias instantáneas de la señal de referencia y degradada, respectivamente. Los parámetros \alpha_{3} y \Delta _{3} tienen un significado similar al anteriormente descrito, pero tendrán valores diferentes en general. Esta versión local V_{L} se aplica a la señal diferencial D dependiente del tiempo en una unidad de escalamiento 61 entre el medio diferenciador 15 y el medio modelizador 16 en la sección de combinación 50.3, posiblemente en combinación con la operación de escalamiento tal como se realiza por la unidad de escalamiento 51. De este modo, para el promediado indicado se utiliza el promediado que es implícito en el medio modelizador 16.
Una versión global V_{g} del factor de escalamiento tipo V se deriva promediando la versión local V_{L} a través de la duración total de la señal de conversación. Dicha promediación se puede realizar de una forma directa como sigue:
{7.2}V_{G}=V^{\alpha3}(Y+\Delta_{3})=\frac{1}{T}\int\limits^{T}_{o}V^{\alpha3}(Y+\Delta_{3},t)dt
La versión global del factor de escalamiento tipo V se puede aplicar por una unidad de escalamiento 62 a la señal de calidad Q tal como se proporciona a la salida por el medio modelizador 16, dando como resultado una señal de calidad escalada Q', posiblemente en combinación con, es decir, seguida (como se indica en la Figura 7) o precedida por, la operación de escalamiento tal como se realiza por la unidad de escalamiento 52, dando como resultado una señal de calidad Q'' más escalada.
De otro modo, la versión global del factor de escalamiento tipo V se puede aplicar con la unidad de escalamiento 61 en lugar de la versión local del factor de escalamiento tipo V, a la señal diferencial D como a la salida por el medio diferenciador 15, posiblemente en combinación con, es decir, seguida (según se ilustra en la Figura 7) o precedida por, la operación de escalamiento según se realiza por la unidad de escalamiento 51.
Las expresiones {7.1} y {7.2} para los factores de escalamiento tipo V son de nuevo dadas para un tratamiento continuo de la señal. Las correspondientes expresiones adecuadas para casos de tratamiento de señal discreto se puede obtener simplemente sustituyendo las diversas funciones de señales dependientes del tiempo por sus valores discretos por trama de tiempo y las operaciones integrales mediante operaciones de suma a través de varias tramas de tiempo.
Los diversos valores adecuados para los parámetros \alpha_{3} y \Delta _{3} se determinan de una forma similar tal como se indicó anteriormente utilizando conjuntos específicos de señales de prueba X(t) e Y(t) para un sistema específico bajo prueba, de tal manera que las calidades medidas de forma objetiva tienen altas correlaciones con las calidades recibidas de forma subjetiva, obtenidas a partir de puntuaciones de opiniones medias. Cuál de las versiones de los factores de escalamiento de tipo V y dónde se aplican en la sección de combinación del dispositivo, en combinación con cuál de los demás tipos de factores de escalamiento debe determinarse por separado para cada sistema específico bajo prueba con los correspondientes conjuntos de señales de prueba. En cualquier caso, el factor de escalamiento de tipo U es más conveniente en casos de señales de conversación degradadas, con partes de potencia cero o muy baja de duración relativamente larga, mientras que el factor de escalamiento de tipo V es más conveniente para las señales que tengan partes similares de duración relativamente corta.

Claims (30)

1. Procedimiento destinado a determinar, según una técnica de medida objetiva de la voz, la calidad de una señal de salida (Y (t)) de un sistema de tratamiento de una señal vocal respecto a una señal de referencia (X (t)), cuyo procedimiento comprende una etapa principal de tratamiento de la señal de salida y de la señal de referencia y de generación de una señal de calidad (Q),
en el cual la etapa principal del tratamiento comprende:
una primera etapa de escalamiento (S (Y + \Delta); S (Y + \Delta_{i}), con i = 1,2) para el escalamiento de un nivel de potencia de al menos una de las señales de salida y de referencia mediante la aplicación de un primer factor de escalamiento que es una función de un valor recíproco de un primer parámetro relativo a la potencia de dicha señal y una segunda etapa de escalamiento efectuada aplicando un segundo factor de escalamiento (S^{\alpha3}(Y + \Delta); S^{\alpha i} (Y + \Delta_{i}), con i = 1,2; V^{\alpha3}(Y + \Delta_{3}t); V^{\alpha3}(Y + \Delta_{3})), que es una función de un valor recíproco de un segundo parámetro relativo a la potencia de dicha señal, utilizando al menos un parámetro de ajuste (\alpha, \Delta; \alpha_{i}, \Delta_{i} con i = 1,2; \alpha_{3}, \Delta_{3}).
2. Procedimiento según la reivindicación 1, en el que el valor recíproco del segundo parámetro relativo a la potencia está elevado a un exponente con un valor que corresponde a un primer parámetro de ajuste (\alpha; \alpha_{i} con i = 1,2; \alpha_{3}), estando el segundo parámetro relativo a la potencia aumentado en un valor correspondiente a un segundo parámetro de ajuste (\Delta; \Delta_{i} con i = 1,2; \Delta_{3}).
3. Procedimiento según la reivindicación 1 o 2, en el que el primer factor de escalamiento (S (Y + \Delta); S (Y + \Delta_{i}), con i = 1,2) es una función del primer parámetro relativo a la potencia aumentado en un valor correspondiente a un tercer parámetro de ajuste (\Delta; \Delta_{i}, con i = 1,2).
4. Procedimiento según una cualquiera de las reivindicaciones 1 a 3, en el que la segunda etapa de ajuste se efectúa sobre las señales de salida de referencia (Y_{s}(t), X_{s}(t)) según está escalada en la primera etapa de escalamiento.
5. Procedimiento según la reivindicación 4, en el que las etapas, primera y segunda, de escalamiento están combinadas en una etapa de escalamiento única mediante la aplicación del producto de los primero y segundo factores de escalamiento.
6. Procedimiento según una cualquiera de las reivindicaciones 1 a 3, en el que la segunda etapa de escalamiento se efectúa sobre al menos una de las dos señales, siendo las dos señales una señal diferencial (D) tal como fue determinada en una fase de combinación de señal (50,3) de la etapa principal del tratamiento y la señal de calidad (Q) tal como fue generada por la etapa principal de tratamiento.
7. Procedimiento según una cualquiera de las reivindicaciones 3 a 6, en el que el segundo factor de escalamiento (S^{\alpha}(Y + \Delta); S^{\alpha i} (Y + \Delta_{i}), con i = 1,2) se deriva del primer facto de escalamiento (S (Y + \Delta); S (Y + \Delta_{i}) con i = 1,2) siendo los parámetros primero y segundo, relativos a la potencia los mismos y los segundo y terceros parámetros de ajuste siendo también los mismos.
8. Procedimiento según una cualquiera de las reivindicaciones 3 a 7, en el que el primer parámetro relativo a la potencia incluye la potencia media de la señal de salida aumentada en un valor de ajuste correspondiente al tercer parámetro de ajuste (\Delta; \Delta_{i}, con i = 1,2).
9. Procedimiento según la reivindicación 8, en el que el aumento por dicho valor de ajuste ajuste se obtiene mediante la adición a la señal de salida (Y (t)) de una señal de ruido que tiene una potencia media correspondiente al tercer parámetro de ajuste (\Delta; \Delta_{i}, con i = 1,2).
10. Procedimiento según una cualquiera de las reivindicaciones 1 a 7, en el que el primer parámetro relativo a la potencia incluye una duración temporal total, durante la cual la potencia de la señal de salida es superior o igual a un valor de umbral.
11. Procedimiento según la reivindicación 10, en el que la duración temporal total de dicho primer parámetro relativo a la potencia está aumentada en un valor correspondiente al tercer parámetro de ajuste (\Delta; \Delta_{i}, con i = 1,2).
12. Procedimiento según la reivindicación 10, en el que en el curso de la etapa principal de tratamiento las señales de referencia y de salida son tratadas con la ayuda de tramas de tiempo y la duración temporal total de dicho primer parámetro relativo a la potencia se expresa por el número total de tramas de tiempo durante las cuales la potencia de las señales de referencia y de salida es al menos igual al valor de umbral.
13. Procedimiento según la reivindicación 12, en el que dicho número total de tramas de tiempo es aumentado en un valor correspondiente al tercer parámetro de ajuste (\Delta; \Delta_{i}, con i = 1,2).
14. Procedimiento según una cualquiera de las reivindicaciones 2 a 13, en el que el primer parámetro de ajuste tiene un valor comprendido entre 0 y 1 (\alpha; \alpha_{i} con i = 1,2; \alpha_{3}).
15. Procedimiento según una cualquiera de las reivindicaciones 3 a 14, en el que, dentro de la primera etapa de escalamiento, la señal de referencia (X (t)) está escalada aplicando un tercer factor de escalamiento (S (Y + \Delta); S (Y + \Delta_{i}), con i = 1,2) que se deriva de la señal de referencia utilizando el segundo parámetro de ajuste (\Delta; \Delta_{i}, con i = 1,2), derivado de la misma manera que el primer factor de escalamiento.
16. Procedimiento según una cualquiera de las reivindicaciones 2 a 12, en el que, dentro de la primera etapa de escalamiento, la señal de salida (Y (t)) está escalada, siendo el primer factor de escalamiento (S (Y + \Delta); S (Y + \Delta_{i}), con i = 1,2) una multiplicación de un cuarto factor de escalamiento y de un quinto factor de escalamiento, siendo el cuarto factor de escalamiento una función del valor recíproco de la potencia media de la señal de salida aumentada en un primer valor de ajuste que corresponde al segundo parámetro de ajuste (\Delta; \Delta_{i}) y siendo el quinto factor de escalamiento una función del valor recíproco de la duración temporal total durante la cual la potencia de la señal de salida es superior o igual al valor umbral aumentado en un segundo valor de ajuste que corresponde al segundo parámetro de ajuste (\Delta; \Delta_{i}).
17. Procedimiento según la reivindicación 6, en el que el segundo parámetro relativo a la potencia del segundo factor de escalamiento (V^{\alpha3}(Y + \Delta_{3}t); V^{\alpha3}(Y + \Delta_{3})) incluye un valor instantáneo de la potencia de la señal de salida aumentado en un valor de ajuste que corresponde al segundo parámetro de ajuste (\Delta_{3}).
18. Procedimiento según la reivindicación 5, en el que una versión local (V^{\alpha3}(Y + \Delta_{3}t)) del segundo factor de escalamiento se aplica a la señal diferencial (D).
19. Procedimiento según la reivindicación 17, en el que una versión global (V^{\alpha3}(Y + \Delta_{3})) del segundo factor de escalamiento es aplicada a por lo menos una de las dos señales (D; Q).
20. Procedimiento según una cualquiera de las reivindicaciones 17 a 19, en el que la segunda etapa de escalamiento está combinada con una tercera etapa de escalamiento aplicando un tercer factor de escalamiento (S^{\alpha}(Y + \Delta); S^{\alpha i} (Y + \Delta_{i}), con i = 1,2) derivado del primer factor de escalamiento (S (Y + \Delta); S (Y + \Delta_{i}), con i = 1,2).
21. Dispositivo destinado a determinar, según una técnica de medida objetiva de la voz, la calidad de una señal de salida (Y (t)) de un sistema de tratamiento de una señal vocal (10) con respecto a una señal de referencia (X (t)) cuyo dispositivo comprende:
un medio de pretratamiento (12) destinado al tratamiento previo de las señales de salida y de referencia
un medio de tratamiento (13, 14) destinado a tratar las señales previamente tratadas por el medio de pretratamiento y a generar señales de representación (R (y), (R (X)) que representan las señales de salida y de referencia según un modelo de percepción y
un medio de combinación de señal (15, 16) destinado a combinar las señales de representación y a generar una señal de calidad (Q),
incluyendo el medio de pretratamiento un primer medio de escalamiento (21, 31, 32, 41, 42) para el escalamiento de un nivel de potencia de al menos una de las señales de salida y de referencia (Y (t), X (t)) aplicando un primer factor de escalamiento (S (X,Y); (S (P_{F}, Y); S (Y + \Delta)), que es una función de un valor recíproco de un primer parámetro relativo a la potencia de por lo menos una señales;
en el que el dispositivo comprende, además, primeros medios de escalamiento (43, 44, 51, 52, 61, 62) para una operación de escalamiento efectuada aplicando un segundo factor de escalamiento (S^{\alpha} (Y + \Delta); S^{\alpha i} (Y + \Delta _{i}), con i = 1,2); V^{\alpha3}(Y + \Delta_{3}t); V^{\alpha3}(Y + \Delta_{3})), siendo el segundo factor de escalamiento una función de un valor recíproco de un segundo parámetro relativo a la potencia de al menos una señal, utilizando por lo menos un parámetro de ajuste (\alpha; \Delta; \alpha_{i}, \Delta_{i} con i = 1,2; \alpha_{3}, \Delta_{3}).
22. Dispositivo según la reivindicación 21, en el que los segundos medios de escalamiento fueron dispuestos para el escalamiento mediante aplicación del segundo factor de escalamiento en tanto como función del valor recíproco del segundo parámetro relativo a la potencia correspondiente a un primer parámetro de ajuste (\alpha; \alpha_{i} con i = 1,2; \alpha_{3}), siendo el segundo parámetro relativo a la potencia aumentado en un valor correspondiente al segundo parámetro de ajuste (\Delta; \Delta_{i} con i = 1,2; \Delta_{3}).
23. Dispositivo según la reivindicación 21 o 22, en el que los primeros medios de escalamiento incluyen una unidad de escalamiento (42) para el escalamiento de la señal de salida mediante la aplicación del primer factor de escalamiento, siendo el primer factor de escalamiento (S (Y + \Delta); S (Y + \Delta_{i}), con i = 1,2) una función del primer parámetro relativo a la potencia aumentada en un valor correspondiente al tercer parámetro de ajuste (\Delta; \Delta_{i} con i = 1,2).
24. Dispositivo según una cualquiera de las reivindicaciones 21 a 23, en el que los segundos medios de escalamiento han sido incluidos en los medios de pretratamiento para escalamiento de las señales de salida y de referencia (Ys t), Xs (t)) tal como se escalan en la primera etapa de escalamiento, aplicando el segundo factor de escalamiento.
25. Dispositivo según una cualquiera de las reivindicaciones 21 a 23, en el que los medios de combinación de señal incluyen:
un medio de diferenciación (15) destinado a determinar, a partir de las señales de representación, una señal diferencial (D),
un medio de modelización (16) destinado al tratamiento de la señal diferencial y a la generación de la señal de calidad y
el segundo medio de escalamiento destinado al escalamiento de una o de dos señales mediante la aplicación del segundo factor de escalamiento, siendo las dos señales la señal diferencial (D) tal como se determina por el medio de diferenciación (15) y la señal de calidad (Q) tal como se genera por el medio de modelización (16).
26. Dispositivo según una cualquiera de las reivindicaciones 21 a 25, en el cual el segundo medio de escalamiento incluye por lo menos una unidad de escalamiento (43, 44; 51, 52) acoplada al primer medio de escalamiento (42) para la recepción del primer factor de escalamiento y la aplicación del segundo factor de escalamiento tal como se deriva a partir del primer factor de escalamiento.
27. Dispositivo según la reivindicación 25, en el que el segundo medio de escalamiento incluye una unidad de escalamiento (61, 62) destinado al escalamiento de una a dos señales mediante la aplicación del segundo factor de escalamiento, incluyendo el segundo parámetro relativo a la potencia del segundo factor de escalamiento (V^{\alpha3}(Y + \Delta_{3}t); V^{\alpha3}(Y + \Delta_{3})) un valor instantáneo de la potencia de la señal de salida aumentada en un valor de ajuste correspondiente al segundo parámetro de ajuste \Delta_{3}.
28. Dispositivo según la reivindicación 27, en el que los segundos medios de escalamiento han sido combinados con el tercer medio de escalamiento, que incluye por lo menos una unidad de escalamiento (51, 52) acoplada al primer medio de escalamiento (52) para la recepción del primer factor de escalamiento y para el escalamiento de una o dos de dichas señales (D; Q) mediante aplicación de un tercer factor de escalamiento (S^{\alpha i}(Y + \Delta_{i}, donde i = 1,2), en combinación con el segundo factor de escalamiento, siendo el tercer factor de escalamiento derivado a partir del primer factor de escalamiento (S (Y +\Delta_{i}, donde i = 1,2).
29. Dispositivo según una cualquiera de las reivindicaciones 21 a 28, en el que el primer parámetro relativo a la potencia del primer factor de escalamiento incluye una potencia media de la señal de salida.
30. Dispositivo según una cualquiera de las reivindicaciones 21 a 29, en el que el primer parámetro relativo a la potencia incluye una duración temporal total durante la cual la potencia de la señal de salida es superior o igual a un valor de umbral.
ES02722174T 2001-03-13 2002-03-01 Procedimiento y dispositivo para determinar la calidad de una señal de voz. Expired - Lifetime ES2243713T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01200945A EP1241663A1 (en) 2001-03-13 2001-03-13 Method and device for determining the quality of speech signal
EP01200945 2001-03-13

Publications (1)

Publication Number Publication Date
ES2243713T3 true ES2243713T3 (es) 2005-12-01

Family

ID=8180008

Family Applications (1)

Application Number Title Priority Date Filing Date
ES02722174T Expired - Lifetime ES2243713T3 (es) 2001-03-13 2002-03-01 Procedimiento y dispositivo para determinar la calidad de una señal de voz.

Country Status (10)

Country Link
US (1) US7624008B2 (es)
EP (2) EP1241663A1 (es)
JP (1) JP3927497B2 (es)
CN (1) CN1327407C (es)
AT (1) ATE300779T1 (es)
AU (1) AU2002253093A1 (es)
CA (1) CA2440685C (es)
DE (1) DE60205232T2 (es)
ES (1) ES2243713T3 (es)
WO (1) WO2002073601A1 (es)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
CN100347988C (zh) * 2003-10-24 2007-11-07 武汉大学 一种宽频带语音质量客观评价方法
US7525952B1 (en) * 2004-01-07 2009-04-28 Cisco Technology, Inc. Method and apparatus for determining the source of user-perceived voice quality degradation in a network telephony environment
US20050216260A1 (en) * 2004-03-26 2005-09-29 Intel Corporation Method and apparatus for evaluating speech quality
CN101053016B (zh) * 2004-09-20 2011-05-18 荷兰应用科学研究会(Tno) 构建第一频率补偿输入间距功率密度函数的方法和系统
US8005675B2 (en) * 2005-03-17 2011-08-23 Nice Systems, Ltd. Apparatus and method for audio analysis
TWI279774B (en) * 2005-04-14 2007-04-21 Ind Tech Res Inst Adaptive pulse allocation mechanism for multi-pulse CELP coder
US7856355B2 (en) * 2005-07-05 2010-12-21 Alcatel-Lucent Usa Inc. Speech quality assessment method and system
DE602007007090D1 (de) * 2007-10-11 2010-07-22 Koninkl Kpn Nv Verfahren und System zur Messung der Sprachverständlichkeit eines Tonübertragungssystems
US8027651B2 (en) * 2008-12-05 2011-09-27 Motorola Solutions, Inc. Method and apparatus for removing DC offset in a direct conversion receiver
EP2457233A4 (en) * 2009-07-24 2016-11-16 Ericsson Telefon Ab L M PROCESS, COMPUTER PROGRAM AND COMPUTER PROGRAM PRODUCT FOR LANGUAGE QUALITY ASSESSMENT
CN101609686B (zh) * 2009-07-28 2011-09-14 南京大学 基于语音增强算法主观评估的客观评估方法
US8818798B2 (en) * 2009-08-14 2014-08-26 Koninklijke Kpn N.V. Method and system for determining a perceived quality of an audio system
CN102549657B (zh) * 2009-08-14 2015-05-20 皇家Kpn公司 用于确定音频系统的感知质量的方法和系统
EP2372700A1 (en) 2010-03-11 2011-10-05 Oticon A/S A speech intelligibility predictor and applications thereof
US20130080172A1 (en) * 2011-09-22 2013-03-28 General Motors Llc Objective evaluation of synthesized speech attributes
US9208798B2 (en) 2012-04-09 2015-12-08 Board Of Regents, The University Of Texas System Dynamic control of voice codec data rate
EP2733700A1 (en) * 2012-11-16 2014-05-21 Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating intelligibility of a degraded speech signal
US9396738B2 (en) 2013-05-31 2016-07-19 Sonus Networks, Inc. Methods and apparatus for signal quality analysis
WO2015036348A1 (en) * 2013-09-12 2015-03-19 Dolby International Ab Time- alignment of qmf based processing data
EP2922058A1 (en) * 2014-03-20 2015-09-23 Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating quality of a degraded speech signal
US9653096B1 (en) * 2016-04-19 2017-05-16 FirstAgenda A/S Computer-implemented method performed by an electronic data processing apparatus to implement a quality suggestion engine and data processing apparatus for the same

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5345535A (en) * 1990-04-04 1994-09-06 Doddington George R Speech analysis method and apparatus
US6232965B1 (en) * 1994-11-30 2001-05-15 California Institute Of Technology Method and apparatus for synthesizing realistic animations of a human speaking using a computer
NL9500512A (nl) * 1995-03-15 1996-10-01 Nederland Ptt Inrichting voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal, alsmede werkwijze voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal.
DE69626115T2 (de) * 1995-07-27 2003-11-20 British Telecomm Signalqualitätsbewertung
DE19647399C1 (de) * 1996-11-15 1998-07-02 Fraunhofer Ges Forschung Gehörangepaßte Qualitätsbeurteilung von Audiotestsignalen
DE69608316T2 (de) * 1996-12-13 2000-11-30 Koninkl Kpn Nv Vorrichtung und verfahren zur signalqualitätsbestimmung
JP3515903B2 (ja) * 1998-06-16 2004-04-05 松下電器産業株式会社 オーディオ符号化のための動的ビット割り当て方法及び装置
DE19840548C2 (de) * 1998-08-27 2001-02-15 Deutsche Telekom Ag Verfahren zur instrumentellen Sprachqualitätsbestimmung
US6246345B1 (en) * 1999-04-16 2001-06-12 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
US6661832B1 (en) * 1999-05-11 2003-12-09 Qualcomm Incorporated System and method for providing an accurate estimation of received signal interference for use in wireless communications systems
EP1226578A4 (en) * 1999-12-31 2005-09-21 Octiv Inc TECHNIQUES TO IMPROVE THE CLARITY AND UNDERSTANDING OF AUDIO-REDUCED AUDIO SIGNALS IN A DIGITAL NETWORK
NL1014075C2 (nl) * 2000-01-13 2001-07-16 Koninkl Kpn Nv Methode en inrichting voor het bepalen van de kwaliteit van een signaal.
CN1432176A (zh) * 2000-04-24 2003-07-23 高通股份有限公司 用于预测量化有声语音的方法和设备
ES2267457T3 (es) * 2000-11-09 2007-03-16 Koninklijke Kpn N.V. Medicion de la calidad de la voz de un enlace telefonico en una red de telecomunicaciones.
EP1244312A1 (en) * 2001-03-23 2002-09-25 BRITISH TELECOMMUNICATIONS public limited company Multimodal quality assessment
US20020193999A1 (en) * 2001-06-14 2002-12-19 Michael Keane Measuring speech quality over a communications network
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7027982B2 (en) * 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US7146313B2 (en) * 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
EP1465156A1 (en) * 2003-03-31 2004-10-06 Koninklijke KPN N.V. Method and system for determining the quality of a speech signal

Also Published As

Publication number Publication date
CN1327407C (zh) 2007-07-18
US7624008B2 (en) 2009-11-24
WO2002073601A1 (en) 2002-09-19
CA2440685C (en) 2009-12-08
AU2002253093A1 (en) 2002-09-24
DE60205232T2 (de) 2006-04-20
JP2004524753A (ja) 2004-08-12
CA2440685A1 (en) 2002-09-19
US20040078197A1 (en) 2004-04-22
WO2002073601A8 (en) 2005-05-12
DE60205232D1 (de) 2005-09-01
JP3927497B2 (ja) 2007-06-06
EP1374229B1 (en) 2005-07-27
WO2002073601B1 (en) 2002-11-28
EP1241663A1 (en) 2002-09-18
EP1374229A1 (en) 2004-01-02
ATE300779T1 (de) 2005-08-15
CN1496558A (zh) 2004-05-12

Similar Documents

Publication Publication Date Title
ES2243713T3 (es) Procedimiento y dispositivo para determinar la calidad de una señal de voz.
JP3996848B2 (ja) 音声通信中に快適ノイズを発生するための方法およびシステム
RU2146394C1 (ru) Способ и устройство вокодирования переменной скорости при пониженной скорости кодирования
JP4005128B2 (ja) 信号品質の評価
KR20080080893A (ko) 음성신호의 대역폭 확장 제어 방법 및 장치
KR101408625B1 (ko) Dtx 행오버 주기의 길이를 조정하는 방법 및 음성 인코더
US20080267425A1 (en) Method of Measuring Annoyance Caused by Noise in an Audio Signal
US20150199954A1 (en) Method, apparatus and storage medium for sound masking
ES2294143T3 (es) Procedimiento mejorado para determinar la calidad de una señal de habla.
EP1250830B1 (en) Method and device for determining the quality of a signal
KR0155315B1 (ko) Lsp를 이용한 celp보코더의 피치 검색방법
KR101893684B1 (ko) 딥 러닝 기반 보코더 통과 음성 명료도 평가 방법 및 장치
US9572103B2 (en) System and method for addressing discontinuous transmission in a network device
JP5124768B2 (ja) 放送装置
ES2556587T3 (es) Método y aparato para evaluar la inteligibilidad de una señal de voz degradada
JP2005077970A (ja) 音声品質客観評価装置および音声品質客観評価方法
Anskaitis et al. The tool for quality estimation of short voice segments
Tahilramani et al. A hybrid scheme of information hiding incorporating steganography as well as watermarking in the speech signal using Quantization index modulation (QIM)
JP4116955B2 (ja) 音声品質客観評価装置および音声品質客観評価方法
US20070061136A1 (en) Optimized windows and methods therefore for gradient-descent based window optimization for linear prediction analysis in the ITU-T G.723.1 speech coding standard
JP4080153B2 (ja) 音声品質評価方法及び評価装置
Kondo Estimation of forced-selection word intelligibility by comparing objective distances between candidates
Murrin Objective measurement of voice activity detectors.
Kanade et al. Analysis of Masking Energy for PEAQ Model using Lifting Technique
Jelassi et al. A case study of perceived listening quality of temporally interrupted VoIP service