ES2243713T3 - Procedimiento y dispositivo para determinar la calidad de una señal de voz. - Google Patents
Procedimiento y dispositivo para determinar la calidad de una señal de voz.Info
- Publication number
- ES2243713T3 ES2243713T3 ES02722174T ES02722174T ES2243713T3 ES 2243713 T3 ES2243713 T3 ES 2243713T3 ES 02722174 T ES02722174 T ES 02722174T ES 02722174 T ES02722174 T ES 02722174T ES 2243713 T3 ES2243713 T3 ES 2243713T3
- Authority
- ES
- Spain
- Prior art keywords
- scaling
- signal
- delta
- power
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 43
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000000691 measurement method Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 21
- 230000000694 effects Effects 0.000 claims description 9
- 230000008447 perception Effects 0.000 claims description 6
- 230000004069 differentiation Effects 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 claims 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims 1
- 238000012360 testing method Methods 0.000 abstract description 15
- 238000007781 pre-processing Methods 0.000 abstract 1
- 230000014509 gene expression Effects 0.000 description 9
- 238000012935 Averaging Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 3
- 230000036962 time dependent Effects 0.000 description 3
- 102100034213 ATPase family protein 2 homolog Human genes 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000009194 climbing Effects 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 108010091193 spermatogenesis associated factor Proteins 0.000 description 2
- 108010014172 Factor V Proteins 0.000 description 1
- 206010021703 Indifference Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000009131 signaling function Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Mobile Radio Communication Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Analogue/Digital Conversion (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Telephonic Communication Services (AREA)
- Monitoring And Testing Of Transmission In General (AREA)
- Monitoring And Testing Of Exchanges (AREA)
Abstract
Procedimiento destinado a determinar, según una técnica de medida objetiva de la voz, la calidad de una señal de salida (Y (t)) de un sistema de tratamiento de una señal vocal respecto a una señal de referencia (X (t)), cuyo procedimiento comprende una etapa principal de tratamiento de la señal de salida y de la señal de referencia y de generación de una señal de calidad (Q), en el cual la etapa principal del tratamiento comprende: una primera etapa de escalamiento (S (Y + Ä); S (Y + Äi), con i = 1, 2) para el escalamiento de un nivel de potencia de al menos una de las señales de salida y de referencia mediante la aplicación de un primer factor de escalamiento que es una función de un valor recíproco de un primer parámetro relativo a la potencia de dicha señal y una segunda etapa de escalamiento efectuada aplicando un segundo factor de escalamiento (Sá3 (Y + Ä); Sái (Y + Äi), con i = 1, 2; Vá3 (Y + Ä3t); Vá3 (Y + Ä3)), que es una función de un valor recíproco de un segundo parámetro relativo a la potencia de dicha señal, utilizando al menos un parámetro de ajuste (á, Ä; ái, Äi con i = 1, 2; á3, Ä3).
Description
Procedimiento y dispositivo para determinar la
calidad de una señal de voz.
La presente invención se refiere a la medición de
la calidad de señales acústicas, tales como señales de audio, voz y
conversación. Más en particular, se refiere a un procedimiento y a
un dispositivo para determinar, según una técnica de medición
objetiva, la calidad de voz de una señal de salida según se recibe
desde un sistema de tratamiento de señales de conversación, con
respecto a una señal de referencia. Procedimientos y dispositivos de
dicho tipo son conocidos, por ejemplo, a partir de las referencias
[1 - 5] (para más detalles bibliográficos sobre las referencias,
véase a continuación el apartado C. Referencias). Procedimientos y
dispositivos, que siguen la recomendación P.861 de ITU - T o su
recomendación sucesora P.862 (véase referencias [6] y [7]) son
también de dicho tipo. Según la técnica conocida actual, una señal
de salida procedente de un sistema de tratamiento y / o transporte
de señales de conversación, tales como sistemas de
telecomunicaciones inalámbricos, sistemas de transmisión de
protocolo Voice over Internet y codificadores - decodificadores de
voz, que suelen ser una señal degradada y cuya calidad de señal ha
de determinarse y una señal de referencia, son señales en
correlación o de representación según un modelo de percepción
psicofísica de la audición humana. Como una señal de referencia, se
puede utilizar, como en las referencias citadas, una señal de
entrada del sistema aplicada con la señal de salida obtenida.
Posteriormente, una señal diferencial se determina a partir de
dichas señales de representación que, según el modelo de percepción
usado, es representativa de una perturbación sostenida en el sistema
presente en la señal de salida. La señal diferencial o de
perturbación constituye una expresión para la medida en que, según
el modelo de representación, la señal de salida se desvía con
respecto a la señal de referencia. A continuación, la señal de
perturbación se trata según un modelo cognoscitivo, en el que se han
creado modelos de algunas propiedades de las personas sometidas a
prueba, con el fin de obtener una señal de calidad independiente del
tiempo, que es una medida de la calidad de la percepción auditiva de
la señal de salida.
La técnica conocida, y más en particular los
procedimientos y dispositivos que siguen la recomendación P.862,
tienen, sin embargo, el inconveniente de que distorsiones severas
tales como las causadas por partes silenciosas o muy débiles en la
señal degradada, y que contienen voz en la señal de referencia
pueden dar lugar a una señal de calidad, que posee una correlación
deficiente con mediciones de la calidad subjetivamente determinadas,
tal como notas medias de opinión (MOS) de las personas sometidas a
la prueba. Dichas distorsiones pueden producirse como consecuencia
del recorte de tiempo, es decir, sustitución de partes cortas en la
señal de voz o audio mediante silencio, por ejemplo, en caso de
paquetes perdidos en sistemas de paquetes conmutados. En tales
casos, la calidad prevista es notablemente más alta que la calidad
percibida de forma subjetiva.
Un objeto de la presente invención, según se
define por las reivindicaciones independientes adjuntas, es
proporcionar un procedimiento mejorado y el correspondiente
dispositivo para determinar la calidad de una señal de conversación,
que no posea dicho inconveniente.
La presente invención ha estado basada, entre
otras cosas, en la observación siguiente. La ganancia de un sistema
bajo prueba no se suele conocer a priori. Por lo tanto, en una fase
de inicialización o pretratamiento de la etapa principal de
tratamiento de la señal de salida (degradada) y la señal de
referencia se realiza una etapa de escalamiento, al menos en la
señal de salida aplicando un factor de escalamiento para un
escalamiento general o global de la potencia de la señal de salida a
un nivel de potencia específico. El nivel de potencia específico
puede estar relacionado con el nivel de potencia de la señal de
referencia en técnicas tales como las que siguen la recomendación
P.861 o con un nivel fijo predeterminado en técnicas que siguen la
recomendación P.862. El factor de escalamiento es una función del
valor recíproco de la raíz cuadrada de la potencia media de la señal
de salida. En casos en que la señal degradada incluye partes
silenciosas o muy débiles, este valor recíproco se incrementa a
grandes números. Es precisamente este comportamiento del valor
recíproco de dicho parámetro relacionado con la potencia lo que
puede utilizarse para adaptar el cálculo de la distorsión de tal
manera que sea posible una predicción mucho mejor de la calidad
subjetiva de los sistemas bajo prueba.
Otro objeto de la presente invención es
proporcionar un procedimiento y un dispositivo de la clase anterior,
que comprenden una mejor operación de escalamiento controlable y
medios para dicha mejor operación de escalamiento controlable,
respectivamente.
Este y otros objetos se consiguen introduciendo,
en un procedimiento y dispositivo de la clase anterior, una segunda
etapa de escalamiento adicional realizada aplicando un segundo
factor de escalamiento, con el empleo de al menos un parámetro de
ajuste, pero preferiblemente dos parámetros de ajuste. En la
realización preferida, el segundo factor de escalamiento es una
función de un valor recíproco de un parámetro relacionado con la
potencia elevado a un exponente con un valor que corresponde a un
primer parámetro de ajuste, en cuya función el parámetro relacionado
con la potencia se incrementa en un valor correspondiente a un
segundo parámetro de ajuste. La segunda etapa de escalamiento se
puede realizar en varias etapas del procedimiento y dispositivo.
El uso de un factor de escalamiento, que es una
función de un valor recíproco de un parámetro relacionado con la
potencia de una clase, tal como la conocida raíz cuadrada de la
potencia media de la señal de salida, tiene todavía otro
inconveniente, puesto que existen otros casos que darán lugar a
predicciones no fiables de la calidad de la conversación. Uno de
dichos casos es el siguiente. Dos señales de conversación
degradadas, que son las señales de salida de dos diferentes sistemas
de tratamiento de señales de conversación bajo prueba y que tienen
la misma señal de referencia de entrada, pueden presentar el mismo
valor para la potencia media. Por ejemplo, una de las señales tiene
una potencia relativamente grande durante solamente un corto periodo
de tiempo de la duración total de la señal de conversación y una
potencia cero o muy baja en cualquier otro momento, mientras que la
otra señal tiene una potencia relativamente baja durante el periodo
de la señal de conversación total. Dichas señales degradadas pueden
tener principalmente la misma predicción de la calidad de
conversación mientras que pueden diferenciarse considerablemente en
la calidad de la conversación experimentada de forma subjetiva.
Otro objeto de la presente invención es
proporcionar un procedimiento y un dispositivo de la clase anterior,
en el que se introduce un factor de escalamiento, que dará lugar a
predicciones fiables de la calidad de la conversación también en
casos de diferentes señales degradadas que tienen principalmente
valores medios de la potencia iguales según fue mencionado.
Este y otros objetos se consiguen introduciendo
en las primeras y/o segundas operaciones de escalamiento del
procedimiento y dispositivo de la técnica anterior el uso de dos
nuevos factores de escalamiento basados en parámetros relacionados
con la potencia, que difieren de la potencia de la señal media. Un
primer nuevo factor de escalamiento es una función de un nuevo
parámetro relacionado con la potencia, denominado actividad de
potencia de señal (SPA), que se define como la duración total en
cuyo periodo la potencia de una señal interesada está por encima o
es igual a un valor de umbral predefinido. El primer nuevo factor de
escalamiento se define para escalar la señal de salida en la primera
operación de escalamiento y es una función de valor recíproco de la
actividad SPA de la señal de salida. En una realización preferible,
el primer nuevo factor de escalamiento es una función de la relación
de la actividad SPA de la señal de referencia y la SPA de la señal
de salida. Este primer nuevo factor de escalamiento se puede
utilizar en lugar o en combinación (por ejemplo, en multiplicación)
con el factor de escalamiento conocido basado en la potencia media
de la señal. El segundo nuevo factor de escalamiento se deriva de lo
que puede denominarse un factor de escalamiento local, es decir, la
relación de las potencias instantáneas de las señales de referencia
y de salida, en donde los parámetros de ajuste se introducen en el
nivel local. Una versión local del segundo nuevo factor de
escalamiento se puede aplicar en la segunda operación de
escalamiento de modo que se transmitan directamente a la, todavía
dependiente del tiempo, señal diferencial durante y en una etapa de
combinación del procedimiento y dispositivo, respectivamente. Una
versión global del segundo nuevo factor de escalamiento se consigue
promediando al principio el factor de escalamiento local durante el
periodo de tiempo total de duración de la señal de conversación y
aplicándolo luego en la segunda operación de escalamiento como
transportada durante y en la etapa de combinación de la señal. En
lugar o en combinación con una operación de escalamiento que aplica
el factor de escalamiento derivado del factor de escalamiento
(conocido y/o primer nuevo) aplicado en la primera operación de
escalamiento.
El primer nuevo factor de escalamiento es más
ventajoso en casos de señales de conversación degradadas con partes
de potencia muy baja o cero de duración relativamente larga,
mientras que el segundo nuevo factor de escalamiento es más
ventajoso para las señales que tengan partes similares de duración
relativamente corta.
[1] Beerends J.G. Stemerdink J.A. "Una medida
perceptual de la calidad de la conversación basada en una
representación psicoacústica del sonido", J. Audio Eng. Soc. Vol.
42, nº 3, dic. 1994, páginas 115 - 123;
[2] WO - A - 96 / 28950;
[3] WO - A - 96 / 28952;
[4] WO - A - 96 / 28953;
[5] WO - A - 97 / 44779;
[6] ITU - T. Recomendación P.861 "Medición
objetiva de codificadores - decodificadores de voz de la banda
telefónica (330 - 3400 Hz)", 06/96;
[7] ITU - T Recomendación P.862 (02/2001), Serie
P: Calidad de la transmisión telefónica, instalaciones telefónicas,
redes de líneas locales; procedimientos para evaluación objetiva y
subjetiva de la calidad - evaluación perceptual de la calidad de
conversación (PESQ), un procedimiento objetivo para la evaluación de
la calidad de conversación 'extremo a extremo' de redes telefónicas
de banda estrecha y codificadores - decodificadores de voz.
A continuación, la invención se describirá con
más detalle por medio de la descripción de realizaciones preferidas,
haciéndose referencia a los dibujos adjuntos que comprenden las
Figuras siguientes:
La Figura 1 ilustra, de forma esquemática, una
configuración del sistema conocida que incluye un dispositivo para
determinar la calidad de una señal de conversación;
La Figura 2 ilustra, en un diagrama de bloques,
un detalle de un dispositivo conocido para determinar la calidad de
una señal de conversación;
La Figura 3 ilustra, en un diagrama de bloques,
un detalle similar al ilustrado en la Figura 2 para otro dispositivo
conocido;
La Figura 4 ilustra, en un diagrama de bloques,
un detalle similar al ilustrado en la Figura 2 o Figura 3, según la
invención;
La Figura 5 ilustra, en un diagrama de bloques,
un dispositivo para determinar la calidad de una señal de
conversación según la invención, incluyendo una variante del detalle
que se ilustra en la Figura 4;
La Figura 6 ilustra, en una parte del diagrama de
bloques de la Figura 5, una variante de un detalle del dispositivo
ilustrado en la Figura 5;
La Figura 7 ilustra, de una forma similar a la
Figura 6, otra variante de la invención.
La Figura 1 ilustra, de forma esquemática, una
configuración conocida de una aplicación de una técnica de medición
objetiva, que está basada en un modelo de percepción auditiva humana
y su de cognición, tal como la que sigue cualquiera de las
recomendaciones P.861 y P.862 de ITU - T, para estimar la calidad
perceptual de los codificadores - decodificadores o enlaces de voz.
Comprende un sistema o red de telecomunicaciones bajo prueba 10, en
lo sucesivo referido como sistema 10 para mayor claridad y un
dispositivo de medición de la calidad 11 para el análisis perceptual
de las señales de conversación ofrecidas. Una señal de conversación
X_{0}(t) se utiliza, por una parte, como una señal de
entrada de la red 10 y, por otra parte, como una primera señal de
entrada X(t) del dispositivo 11. Una señal de salida
Y(t) de la red 10 que, de hecho, es la señal de conversación
X_{0}(t) afectada por la red 10, se emplea como una segunda
señal de entrada del dispositivo 11. Una señal de salida Q del
dispositivo 11 representa una estimación de la calidad perceptual
del enlace de voz a través de la red 10. Puesto que el extremo de
entrada y el extremo de salida de un enlace de voz, en particular en
el caso de que se transmita a través de una red de
telecomunicaciones, son remotos, para las señales de entrada del
dispositivo de medición de la calidad se utilizan, en la mayoría de
los casos, señales de conversación X(t) almacenadas en bases
de datos. En este caso, como es habitual, la señal de conversación
se entiende que significa cada sonido básicamente perceptible para
la audición humana, tales como conversación y tonos. El sistema bajo
prueba puede ser, por supuesto, también un sistema de simulación que
simule, por ejemplo, una red de telecomunicaciones. El dispositivo
11 realiza una etapa de tratamiento principal que comprende, de
forma sucesiva, en una sección de pretratamiento 11.1, una etapa de
tratamiento previo realizada por medios de pretratamiento 12, en una
sección de tratamiento 11.2, una etapa de tratamiento adicional
realizada por los medios, primero y segundo, de tratamiento de la
señal 13 y 14 y, en una sección de combinación de señales 11.3, una
etapa de tratamiento de la señal combinado realizada por medios
diferenciadores de señales 15 y medios de modelización 16. En la
etapa de pretratamiento, las señales X(t) e Y(t) son
preparadas para la etapa de tratamiento adicional en los medios 13 y
14, incluyendo el pretratamiento las operaciones de escalamiento del
nivel de potencia y de alineación en el tiempo. La etapa de
tratamiento adicional implica la correlación de la señal de salida
Y(t) (degradada) y la señal de referencia X(t) en las
señales de representación R(Y) y R(X) según un modelo
de percepción psicofísica del sistema auditivo humano. Durante la
etapa de tratamiento de la señal combinada, una señal diferencial o
de perturbación D se determina por los medios de diferenciación 15
de dichas señales de representación, que luego son tratadas por
medios de modelización 16 según un modelo cognoscitivo, en el que
algunas propiedades de las personas sometidas a prueba han sido
modelizadas, pera poder obtener la señal de calidad Q.
Recientemente, ha sido experimentado que la
técnica conocida, y más en particular la que sigue la recomendación
P.862, presenta un grave inconveniente por cuanto que fuertes
distorsiones son causadas por partes silenciosas o muy débiles en la
señal degradada y que no están presentes en la señal de referencia,
pueden dar lugar a señales de calidad Q, que predicen la calidad
notablemente más alta que la calidad percibida de forma subjetiva y
por lo tanto, poseen correlaciones deficientes con mediciones de la
calidad determinadas de forma subjetiva, tales como notas medias de
opinión (MOS) de personas sometidas a prueba. Dichas distorsiones
pueden producirse como consecuencia de recortes de tiempo, es decir,
sustitución de partes cortas en la señal de audio o de voz por
silencio, por ejemplo, en el caso de paquetes perdidos en sistemas
de paquetes conmutados.
Puesto que la ganancia de un sistema bajo prueba
no se suele conocer a priori, durante la fase de iniciacilización o
de pretratamiento se realiza una etapa de escalamiento, al menos en
la señal de salida (degradada) aplicando un factor de escalamiento
para el escalamiento de la potencia de la señal de salida con
respecto a un nivel de potencia específico. El nivel de potencia
específico puede estar relacionado con el nivel de potencia de la
señal de referencia en técnicas tales como las que siguen la
recomendación P.861. En la Figura 2 se ilustra, de forma
esquemática, los medios de escalamiento 20 para dicha etapa de
escalamiento. Los medios de escalamiento 20 tienen las señales
X(t) e Y(t) como señales de entrada y las señales
X_{s}(t) e Y_{s}(t) como señales de salida. El
escalamiento es tal que la señal X(t) = X_{s}(t) es
invariable y la señal Y(t) es escalada a Y_{s}(t) =
S_{1} Y(t) en la unidad de escalamiento 21, aplicando un
factor de escalamiento:
{1}
S_{1}=S(X,Y)=\sqrt{P_{media}(X)/P_{media}(Y)}
En esta fórmula P_{media} (X) y
P_{media}(Y) significan la potencia promediada en el tiempo
de las señales X(t) e Y(t), respectivamente.
El nivel de potencia específico se puede
relacionar también con un nivel fijo predefinido en técnicas que
pueden seguir la recomendación P.862. En la Figura 3 se ilustra, de
forma esquemática, los medios de escalamiento 30 para dicha etapa de
escalamiento. Los medios de escalamiento 30 tienen las señales
X(t) e Y(t) como señales de entrada y las señales
X_{s}(t) e Y_{s}(t) como señales de salida. El
escalamiento es tal que la señal X(t) es escalada a
X_{s}(t) en la unidad de escalamiento 31 y la señal
Y(t) es escalada a Y_{s}(t) = S_{3} Y(t) en
la unidad de escalamiento 32, aplicando, respectivamente, los
factores de escalamiento siguientes:
{2}
S_{2}=S(P_{f}Y)=\sqrt{P_{fija}/P_{media}(X)}
y
{3}
S_{3}=S(P_{f}Y)=\sqrt{P_{fija}/P_{media}(Y)}
En donde P_{fija} (es decir, P_{f}) es un
nivel de potencia predefenido, el así denominado nivel objetivo
constante y P_{media}(X) y P_{media}(Y) tienen el
mismo significado dado con anterioridad.
En ambos casos, se utilizan factores de
escalamiento, que son una función del valor recíproco de un
parámetro relacionado con la potencia, es decir, la raíz cuadrada de
la potencia de la señal de salida para S_{1} y S_{3} o de la
potencia de la señal de referencia, para S_{2}. En aquellos casos
en que la señal degradada y / o la señal de referencia incluyen
grandes partes silenciosas o muy débiles, dichos parámetros
relacionados con la potencia pueden disminuir a valores muy pequeños
o incluso a cero y en consecuencia, sus valores recíprocos pueden
aumentar a números muy grandes. Este hecho proporciona un punto de
partida para hacer que las operaciones de escalamiento, y
preferiblemente también los factores de escalamiento allí
utilizados, ajustables y en consecuencia, mejor controlables.
Para poder conseguir dicha mejor controlabilidad
al principio, se introduce una segunda etapa de escalamiento
adicional aplicando un segundo factor de escalamiento. Este segundo
factor de escalamiento puede elegirse para ser igual (pero no
necesariamente, véase a continuación) al primer factor de
escalamiento, tal como se utiliza para el escalamiento de la señal
de salida en la primera etapa de escalamiento, pero elevada a un
exponente \alpha. El exponente \alpha es un primer parámetro de
ajuste que tiene valores preferentemente entre 0 y 1. Es posible
realizar la segunda etapa de escalamiento en varias fases en el
dispositivo de medición de la calidad (véase más adelante). En
segundo lugar, un segundo parámetro de ajuste \Delta, que tiene
un valor \geq 0, se puede añadir a cada valor de la potencia de la
señal promediada en el tiempo tal como se utiliza en el factor o
factores de escalamiento, respectivamente en el primero y segundo de
los dos casos descritos de la técnica anterior. El segundo parámetro
de ajuste \Delta tiene un valor ajustable predefinido para
aumentar el denominado de cada factor de escalamiento a un mayor
valor, especialmente en los casos mencionados de partes silenciosas
o muy débiles. Los factores de escalamiento así modificados (para
\Delta \neq 0) o no (para \Delta = 0) se utilizan en la
primera etapa de escalamiento de la fase de inicialización de una
manera similar a la anteriormente descrita con referencia a las
Figuras 2 y 3 así como en la segunda etapa de escalamiento. En lo
sucesivo, se describen tres formas diferentes con referencia a las
Figuras 4 y 5, para las cuales el segundo factor de escalamiento se
deriva del primer factor de escalamiento, seguido por una
descripción con referencia a las Figuras 6 y 7 de algunas maneras en
las que éste no es el caso.
La Figura 4 ilustra, de forma esquemática, una
disposición de escalamiento 40 para realizar la primera etapa de
escalamiento aplicando factores de escalamiento modificados y la
segunda etapa de escalamiento. La disposición de escalamiento 40
tiene las señales X(t) e Y(t) como señales de entrada
y las señales X'_{s}(t) e Y'_{s}(t) como señales
de salida. La primera etapa de escalamiento es tal que la señal
X(t) es escalada a X_{s}(t) = S'_{2} X(t)
en la unidad de escalamiento 41 y la señal Y(t) es escala a
Y_{s}(t) = S'_{3} Y(t) en la unidad de
escalamiento 42, aplicando, respectivamente, factores de
escalamiento modificados:
{1'}S'_{1}=S(Y+\Delta)=\sqrt{P_{media}(X)+\Delta/P_{media}(Y)+\Delta)}
con la Figura 2, en donde
X_{s}(t) = X(t) (p.e., S(X + \Delta) = 1 en
la Figura 4)
y
{2'}S'_{2}=S(X+\Delta)=\sqrt{P_{fija}/P_{media}(X)+\Delta)}
y
{3'}S_{3}=S(Y+\Delta)=\sqrt{P_{fija}/P_{media}(Y)+\Delta)}
para casos que tengan una etapa de
escalamiento de conformidad con la Figura
3
La segunda etapa de escalamiento es tal que la
señal X_{s}(t) es escala a X'_{s}(t) =
S_{4}.X_{s}(t) en la unidad de escalamiento 43 y la señal
Y_{s}(t) es escala a Y'_{s}(t) = S_{4}
Y_{s}(t) en la unidad de escalamiento 44, aplicando el
factor de escalamiento:
{4} S_{4} =
S^{\alpha}(Y +
\Delta)
El factor de escalamiento S_{4} se puede
generar por la unidad de escalamiento 42 y pasarse a las unidades de
escalamiento 43 y 44 de la segunda etapa de escalamiento en la
forma ilustrada. De otro modo, el factor de escalamiento S_{4} se
puede obtener por las unidades de escalamiento 43 y 44 en la segunda
etapa de escalamiento aplicando el factor de escalamiento S_{3}
tal como se recibe desde la unidad de escalamiento 42 en la primera
etapa de escalamiento.
Se apreciará que la primera y la segunda etapas
de escalamiento, realizadas dentro de la disposición de escalamiento
40, pueden combinarse para una etapa de escalamiento única realizada
en las señales X(t) e Y(t) por unidades de
escalamiento, que son combinaciones, respectivamente, de las
unidades de escalamiento 41 y 43, y las unidades de escalamiento 42
y 44, aplicando factores de escalamiento que son los productos de
los factores de escalamiento utilizados en las unidades de
escalamiento separadas. Dicha etapa de escalamiento combinada, en la
que los parámetros son elegidos como -1 < \alpha \leq 0 y
\Delta \geq 0, serán equivalentes a un caso en el que solamente
esté presente la primera etapa de escalamiento, que aplica un factor
de escalamiento en el que el valor recíproco del parámetro
relacionado con la potencia es elevado a un exponente que
corresponde a un parámetro de ajuste \alpha' con 0 <
(\alpha' = 1 + \alpha)\leq1 y el parámetro relacionado
con la potencia se incrementa con un valor de ajuste correspondiente
al parámetro \Delta.
Los valores de los parámetros \alpha y \Delta
se ajustan de tal manera que, para las señales de prueba X(t)
e Y(t), las calidades medidas de forma objetiva tienen altas
correlaciones con las calidades percibidas de forma subjetiva (MOS).
De este modo, ejemplos de señales degradadas con sustitución de la
voz por silencios en hasta un 100% parecieron proporcionar
correlaciones por encima de 0,8, mientras que la calidad de los
mismos ejemplos, tal como se miden en la forma conocida, presentaban
valores inferiores a 0,5. Además, apareció una indiferencia para
casos para los que fue validada la recomendación P.862.
Los valores para los parámetros \alpha y
\Delta se pueden almacenar en el medio
pre-procesador del dispositivo de medición. Sin
embargo, puede conseguirse también el ajuste del parámetro \Delta
añadiendo una cantidad de ruido a la señal de salida degradada en la
entrada del dispositivo 11, de tal manera que la cantidad de ruido
tenga una potencia media igual al valor necesario para el parámetro
de ajuste \Delta en un caso concreto.
En lugar de realizarlo en la fase de
pretratamiento, la segunda etapa de escalamiento se puede realizar
en una fase posterior durante el tratamiento de las señales de
salida y de referencia. Sin embargo, la localización de la segunda
etapa de escalamiento no necesita estar limitada a la etapa en la
que las señales se tratan por separado. La segunda etapa de
escalamiento puede realizar también en la fase de combinación de
señales; sin embargo, con diferentes valores para los parámetros
\alpha y \Delta. Tal como se ilustra en la Figura 5, que
muestra, de forma esquemática, un dispositivo de medición 50, que es
similar al dispositivo de medición 11 de la Figura 1 y que, de forma
sucesiva, comprende una sección de pretratamiento 50.1, una sección
de tratamiento 50.2 y una sección de combinación de señales 50.3. La
sección de pretratamiento 50.1 incluye las unidades de escalamiento
41 y 42 de la primera etapa de escalamiento, produciendo la unidad
42 el factor de escalamiento S_{4} (véase fórmula {4}) indicado
en la figura por S^{\alpha}(Y + \Delta _{i}) en donde
i = 1,2 para un primer y segundo caso, respectivamente.
En el primer caso (i = 1), se realiza la segunda
etapa de escalamiento, en la sección de combinación de señales 50.3,
mediante la unidad de escalamiento 51 y aplicando el factor de
escalamiento S_{4} = S^{\alpha1}(Y + \Delta _{1})
escalando así la señal diferencial D a una señal diferencial
escalada D' = S^{\alpha1}(Y + \Delta_{1}) \cdot Q
Como alternativa, en el segundo caso (i = 2), se
realiza la segunda etapa de escalamiento, de nuevo en la sección de
combinación de señales 50.3, mediante la unidad de escalamiento 52 y
aplicando el factor de escalamiento S_{4} =
S^{\alpha2}(Y + \Delta _{2}) escalando así la señal de
calidad Q a una señal de calidad escala Q' =
S^{\alpha1}(Y + \Delta_{1}) \cdot Q
Para los parámetros \alpha_{i} y
\Delta_{i}, se aplica lo mismo que fue mencionado anteriormente
en relación con los parámetros \alpha y \Delta. En cambio, como
alternativa, la etapa de escalamiento del segundo caso (i = 2) se
puede realizar también como una tercera etapa de escalamiento
adicional a la segunda etapa de escalamiento del primer caso (i =
1); sin embargo, con diferentes parámetros de ajuste adecuados.
Otras mejoras se consiguen introduciendo, en la
primera y/o segunda operaciones de escalamiento, dos nuevos factores
de escalamiento basados en parámetros relacionados con la potencia,
que difieren de la potencia de la señal media.
Una primera nueva clase de factor de escalamiento
se puede definir y aplicar en la primera etapa de escalamiento, y
también en la segunda etapa de escalamiento, que está basado en un
diferente parámetro relacionado con la potencia de la señal
X(t) y/o la señal Y(t). En lugar de utilizar una
potencia promediada en el tiempo P_{media} de las señales
X(t) e Y(t) como en las formas {1},-,{3} y
{1'},-,{3'}, se puede emplear un diferente parámetro relacionado con
la potencia para definir un factor de escalamiento para escalar la
potencia de la señal de salida (degradada) a un nivel de potencia
concreto. Este diferente parámetro relacionado con la potencia se
denomina actividad de la potencia de la señal (SPA). La actividad de
potencia de la señal de una señal de conversación Z (t) se indica
como SPA(Z), lo que significa el tiempo total durante el cual
la potencia de la señal Z(t) es al menos igual a un nivel de
potencia de umbral predefinido P_{thr}
Una expresión matemática de la actividad SPA de
una señal Z(t) de duración total T viene dada por:
{5}SPA(Z)=\int\limits^{t}_{o}f(t)dt
en donde F(t) es una función
escalada como
sigue:
en esta expresión, P (Z(t))
indica la potencia momentánea de la señal Z(t) en el tiempo
t_{i} y P_{tr} indica un valor de umbral predefinido para la
potencia de la
señal.
La expresión {5} para la SPA es adecuada para
casos de un tratamiento continuo de la señal. Una expresión que es
adecuada en casos de un tratamiento de señal discreto, utilizando
tramas de tiempo, viene dada por:
{5'}SPA
(Z)=\sum\limits^{n}_{i=1}f(t_{i})
En donde F (t_{i}) es una función escalada como
sigue:
Y en el que t_{i} = (i / N) para i = 1, -, N y
t_{0} = 0 y N es el número total de tramas de tiempo en las que la
señal Z(t) está dividida para ser tratada. Llamando una trama
activa a una trama de tiempo para la que F (t_{i} ) = 1 entonces
la fórmula {5'} cuenta el número total de tramas activas en la señal
Z(t).
Utilizando el parámetro relacionado con la
potencia SPA así definido, se definen nuevos factores de
escalamiento de una manera similar a los factores de escalamiento de
las fórmulas {1} - {3}, {1'} - {3'} y {4}, bien sea para
sustituirlos, bien sea para utilizarse en multiplicación con ellos.
Estos nuevos factores de escalamiento son como sigue:
{6.1}T_{1}=T(X,Y)=SPA(X)/SPA(Y)
{6.2}T_{2}=T(SPAF,X)=SPA_{FIJO}/SPA(X)
{6.3}T_{3}=T(SPAF,Y)=SPA_{FIJO}/SPA(Y)
{6.1'}T'_{1}=T(Y+\Delta)=\{SPA(X)+\Delta\}/\{SPA(Y)+\Delta\}
{6.2'}T'_{2}=T(X+\Delta)=SPA_{FIJO}/\{SPA(X)+\Delta\}
{6.3'}T'_{3}=T(Y+\Delta)=SPA_{FIJO}/\{SPA(Y)+\Delta\}
Y
{6.4}T_{4} =
T^{\alpha}(Y +
\Delta)
En estas fórmulas, SPA_{fija}, (es decir,
SPA_{f}) es un nivel de actividad de potencia de señal
predefinido, que puede elegirse de una manera similar a la del nivel
de potencia predefinido P_{fijo} antes citado.
Puesto que los factores de escalamiento así
definidos son también una función de un valor recíproco de un
parámetro relacionado con la potencia, por ejemplo, el parámetro
SPA, que, bajo determinadas circunstancias, puede tener también
valores que sean muy pequeños o incluso cero, los parámetros
\alpha y \Delta, tal como se utilizan en los factores de
escalamiento de las fórmulas {6.1'} - {6.3'} y {6.4} son ventajosos
porque proporcionan una mejor posibilidad de control de las
operaciones de escalamiento. Se ajustan de una forma similar, pero
en general diferente, de los parámetros tal como se utilizan en los
factores de escalamiento según las fórmulas {1'} - {3'} y {4}. Por
ejemplo, en el último caso, \Delta tiene la dimensión de potencia
y debe tener un valor no despreciable con respecto a P_{media} (X)
(en {1'}) o con respecto a P_{fija} (en {2'} o {3'}) mientras que
en el caso anterior, \Delta es un número sin dimensiones, que se
puede poner simplemente igual a 1.
En lo sucesivo, un factor de escalamiento basado
en la SPA de una señal de conversación se denomina un factor de
escalamiento de tipo T, mientras que un factor de escalamiento
basado en la P_{media} de una señal de conversación se denomina un
factor de escalamiento de tipo S.
Un factor de escalamiento de tipo T se puede
utilizar en lugar de un factor de escalamiento tipo S
correspondiente en cada una de las operaciones de escalamiento
descritas con referencia a las Figuras 1 a 5 inclusive.
El uso de un factor de escalamiento de tipo T
proporciona una solución para el problema de predicciones no fiables
de la calidad de la conversación en casos en los que dos señales de
conversación degradadas diferentes, que son las señales de salida de
dos diferentes sistemas de tratamiento de señales de conversación
bajo prueba, y que proceden de la misma señal de referencia de
entrada, tienen el mismo valor para la potencia media. Si, por
ejemplo, una de las señales tiene una potencia relativamente grande
durante solamente un periodo de tiempo corto de la duración de la
señal de conversación total y una potencia cero o muy baja en
cualquier otro momento, mientras que la otra señal tiene una
potencia relativamente baja durante la duración de la conversación
total, entonces dichas señales degradadas pueden dar lugar a
principalmente la misma predicción de la calidad de la conversación,
mientras que pueden diferir considerablemente en la calidad de la
conversación experimentada de forma subjetiva. Utilizando un factor
de escalamiento de tipo T en tales caso en lugar de un factor de
escalamiento de tipo S, dará lugar a predicciones diferentes y en
consecuencia más fiables. Sin embargo, puesto que también es posible
que dichas dos diferentes señales de conversación degradadas, en
lugar de tener el mismo valor para la potencia media, tengan el
mismo valor para la actividad de potencia de la señal y en
consecuencia, pueden resultar también en predicciones no fiables,
será conveniente utilizar un factor de escalamiento que sea una
combinación de un factor de escalamiento de tipo S y de tipo T.
Varias combinaciones son posibles, tales como una
combinación lineal o una combinación de productos de diferentes o
iguales potencias de un factor de escalamiento tipo S y tipo T.
Una combinación preferida es la multiplicación
simple de uno de los factores de escalamiento tipo S con su
correspondiente factor de escalamiento tipo T, en cuanto a definir
un factor de escalamiento tipo U correspondiente como sigue:
U_{1} =
S_{1}\cdot T_{1}, U_{2} = S_{2} \cdot T_{2}, U_{3}= S_{3}\cdot
T_{3}
U'_{1} =
S'_{1}\cdot T'_{1}, U'_{2} = S'_{2} \cdot T'_{2}, U'_{3}=
S'_{3}\cdot
T'_{3}
y
U_{4} =
S_{4}\cdot
T_{4}
Cada uno de los factores de escalamiento de tipo
U así definidos ha de utilizarse en lugar de un factor de
escalamiento tipo S correspondiente, en cada una de las operaciones
de escalamiento descritas con referencia a las Figuras 1 a 5
inclusive.
Un segundo nuevo factor de escalamiento es una
función de un valor recíproco de un parámetro relacionado con la
potencia también diferente, por ejemplo, la potencia instantánea de
una señal de conversación. Más en particular, se deriva de lo que
puede denominarse un factor de escalamiento local, es decir, la
relación de las potencias instantáneas de las señales de referencia
y de salida. El segundo nuevo factor de escalamiento se consigue
promediando este factor de escalamiento local a través de la
duración total de la señal de conversación, en la que los parámetros
de ajuste \alpha y \Delta son introducidos ya en el nivel local.
Un factor de escalamiento así conseguido, en lo sucesivo denominado
factor de escalamiento tipo V, en lugar o en combinación con una de
las operaciones de escalamiento realizadas por las unidades de
escalamiento 51 y 52 con una operación de escalamiento
sustancialmente invariable realizada por la unidad de escalamiento
42 en la sección de pretratamiento 50.1. Existen varias
posibilidades para realizar una operación de escalamiento basada en
el factor de escalamiento tipo V, dependiendo de si se aplica una
versión local o una versión global de dicho factor. Algunas de las
posibilidades se describen a continuación con referencia a las
Figuras 6 y 7.
Una versión local V_{l} del factor de
escalamiento tipo V, en la que se introdujeron ya los dos parámetros
de ajuste, viene dada por la siguiente expresión matemática.
{7.1}VL=V^{\alpha 3}
(Y+\Delta_{3}, t) = \left(\frac{P(X(t)) +
\Delta_{3}}{P(Y(t)) + \Delta_{3}}\right)^{\alpha
3}
En donde P(X(t)) y
P(Y(t)) son expresiones para las potencias
instantáneas de la señal de referencia y degradada, respectivamente.
Los parámetros \alpha_{3} y \Delta _{3} tienen un
significado similar al anteriormente descrito, pero tendrán valores
diferentes en general. Esta versión local V_{L} se aplica a la
señal diferencial D dependiente del tiempo en una unidad de
escalamiento 61 entre el medio diferenciador 15 y el medio
modelizador 16 en la sección de combinación 50.3, posiblemente en
combinación con la operación de escalamiento tal como se realiza por
la unidad de escalamiento 51. De este modo, para el promediado
indicado se utiliza el promediado que es implícito en el medio
modelizador 16.
Una versión global V_{g} del factor de
escalamiento tipo V se deriva promediando la versión local V_{L} a
través de la duración total de la señal de conversación. Dicha
promediación se puede realizar de una forma directa como sigue:
{7.2}V_{G}=V^{\alpha3}(Y+\Delta_{3})=\frac{1}{T}\int\limits^{T}_{o}V^{\alpha3}(Y+\Delta_{3},t)dt
La versión global del factor de escalamiento tipo
V se puede aplicar por una unidad de escalamiento 62 a la señal de
calidad Q tal como se proporciona a la salida por el medio
modelizador 16, dando como resultado una señal de calidad escalada
Q', posiblemente en combinación con, es decir, seguida (como se
indica en la Figura 7) o precedida por, la operación de escalamiento
tal como se realiza por la unidad de escalamiento 52, dando como
resultado una señal de calidad Q'' más escalada.
De otro modo, la versión global del factor de
escalamiento tipo V se puede aplicar con la unidad de escalamiento
61 en lugar de la versión local del factor de escalamiento tipo V, a
la señal diferencial D como a la salida por el medio diferenciador
15, posiblemente en combinación con, es decir, seguida (según se
ilustra en la Figura 7) o precedida por, la operación de
escalamiento según se realiza por la unidad de escalamiento 51.
Las expresiones {7.1} y {7.2} para los factores
de escalamiento tipo V son de nuevo dadas para un tratamiento
continuo de la señal. Las correspondientes expresiones adecuadas
para casos de tratamiento de señal discreto se puede obtener
simplemente sustituyendo las diversas funciones de señales
dependientes del tiempo por sus valores discretos por trama de
tiempo y las operaciones integrales mediante operaciones de suma a
través de varias tramas de tiempo.
Los diversos valores adecuados para los
parámetros \alpha_{3} y \Delta _{3} se determinan de una
forma similar tal como se indicó anteriormente utilizando conjuntos
específicos de señales de prueba X(t) e Y(t) para un
sistema específico bajo prueba, de tal manera que las calidades
medidas de forma objetiva tienen altas correlaciones con las
calidades recibidas de forma subjetiva, obtenidas a partir de
puntuaciones de opiniones medias. Cuál de las versiones de los
factores de escalamiento de tipo V y dónde se aplican en la sección
de combinación del dispositivo, en combinación con cuál de los demás
tipos de factores de escalamiento debe determinarse por separado
para cada sistema específico bajo prueba con los correspondientes
conjuntos de señales de prueba. En cualquier caso, el factor de
escalamiento de tipo U es más conveniente en casos de señales de
conversación degradadas, con partes de potencia cero o muy baja de
duración relativamente larga, mientras que el factor de escalamiento
de tipo V es más conveniente para las señales que tengan partes
similares de duración relativamente corta.
Claims (30)
1. Procedimiento destinado a determinar, según
una técnica de medida objetiva de la voz, la calidad de una señal de
salida (Y (t)) de un sistema de tratamiento de una señal vocal
respecto a una señal de referencia (X (t)), cuyo procedimiento
comprende una etapa principal de tratamiento de la señal de salida y
de la señal de referencia y de generación de una señal de calidad
(Q),
en el cual la etapa principal del tratamiento
comprende:
una primera etapa de escalamiento (S (Y +
\Delta); S (Y + \Delta_{i}), con i = 1,2) para el escalamiento
de un nivel de potencia de al menos una de las señales de salida y
de referencia mediante la aplicación de un primer factor de
escalamiento que es una función de un valor recíproco de un primer
parámetro relativo a la potencia de dicha señal y una segunda etapa
de escalamiento efectuada aplicando un segundo factor de
escalamiento (S^{\alpha3}(Y + \Delta); S^{\alpha i} (Y
+ \Delta_{i}), con i = 1,2; V^{\alpha3}(Y +
\Delta_{3}t); V^{\alpha3}(Y + \Delta_{3})), que es
una función de un valor recíproco de un segundo parámetro relativo a
la potencia de dicha señal, utilizando al menos un parámetro de
ajuste (\alpha, \Delta; \alpha_{i}, \Delta_{i} con i =
1,2; \alpha_{3}, \Delta_{3}).
2. Procedimiento según la reivindicación 1, en el
que el valor recíproco del segundo parámetro relativo a la potencia
está elevado a un exponente con un valor que corresponde a un primer
parámetro de ajuste (\alpha; \alpha_{i} con i = 1,2;
\alpha_{3}), estando el segundo parámetro relativo a la potencia
aumentado en un valor correspondiente a un segundo parámetro de
ajuste (\Delta; \Delta_{i} con i = 1,2; \Delta_{3}).
3. Procedimiento según la reivindicación 1 o 2,
en el que el primer factor de escalamiento (S (Y + \Delta); S (Y +
\Delta_{i}), con i = 1,2) es una función del primer parámetro
relativo a la potencia aumentado en un valor correspondiente a un
tercer parámetro de ajuste (\Delta; \Delta_{i}, con i =
1,2).
4. Procedimiento según una cualquiera de las
reivindicaciones 1 a 3, en el que la segunda etapa de ajuste se
efectúa sobre las señales de salida de referencia
(Y_{s}(t), X_{s}(t)) según está escalada en la
primera etapa de escalamiento.
5. Procedimiento según la reivindicación 4, en el
que las etapas, primera y segunda, de escalamiento están combinadas
en una etapa de escalamiento única mediante la aplicación del
producto de los primero y segundo factores de escalamiento.
6. Procedimiento según una cualquiera de las
reivindicaciones 1 a 3, en el que la segunda etapa de escalamiento
se efectúa sobre al menos una de las dos señales, siendo las dos
señales una señal diferencial (D) tal como fue determinada en una
fase de combinación de señal (50,3) de la etapa principal del
tratamiento y la señal de calidad (Q) tal como fue generada por la
etapa principal de tratamiento.
7. Procedimiento según una cualquiera de las
reivindicaciones 3 a 6, en el que el segundo factor de escalamiento
(S^{\alpha}(Y + \Delta); S^{\alpha i} (Y +
\Delta_{i}), con i = 1,2) se deriva del primer facto de
escalamiento (S (Y + \Delta); S (Y + \Delta_{i}) con i = 1,2)
siendo los parámetros primero y segundo, relativos a la potencia los
mismos y los segundo y terceros parámetros de ajuste siendo también
los mismos.
8. Procedimiento según una cualquiera de las
reivindicaciones 3 a 7, en el que el primer parámetro relativo a la
potencia incluye la potencia media de la señal de salida aumentada
en un valor de ajuste correspondiente al tercer parámetro de ajuste
(\Delta; \Delta_{i}, con i = 1,2).
9. Procedimiento según la reivindicación 8, en el
que el aumento por dicho valor de ajuste ajuste se obtiene mediante
la adición a la señal de salida (Y (t)) de una señal de ruido que
tiene una potencia media correspondiente al tercer parámetro de
ajuste (\Delta; \Delta_{i}, con i = 1,2).
10. Procedimiento según una cualquiera de las
reivindicaciones 1 a 7, en el que el primer parámetro relativo a la
potencia incluye una duración temporal total, durante la cual la
potencia de la señal de salida es superior o igual a un valor de
umbral.
11. Procedimiento según la reivindicación 10, en
el que la duración temporal total de dicho primer parámetro relativo
a la potencia está aumentada en un valor correspondiente al tercer
parámetro de ajuste (\Delta; \Delta_{i}, con i = 1,2).
12. Procedimiento según la reivindicación 10, en
el que en el curso de la etapa principal de tratamiento las señales
de referencia y de salida son tratadas con la ayuda de tramas de
tiempo y la duración temporal total de dicho primer parámetro
relativo a la potencia se expresa por el número total de tramas de
tiempo durante las cuales la potencia de las señales de referencia y
de salida es al menos igual al valor de umbral.
13. Procedimiento según la reivindicación 12, en
el que dicho número total de tramas de tiempo es aumentado en un
valor correspondiente al tercer parámetro de ajuste (\Delta;
\Delta_{i}, con i = 1,2).
14. Procedimiento según una cualquiera de las
reivindicaciones 2 a 13, en el que el primer parámetro de ajuste
tiene un valor comprendido entre 0 y 1 (\alpha; \alpha_{i} con
i = 1,2; \alpha_{3}).
15. Procedimiento según una cualquiera de las
reivindicaciones 3 a 14, en el que, dentro de la primera etapa de
escalamiento, la señal de referencia (X (t)) está escalada aplicando
un tercer factor de escalamiento (S (Y + \Delta); S (Y +
\Delta_{i}), con i = 1,2) que se deriva de la señal de
referencia utilizando el segundo parámetro de ajuste (\Delta;
\Delta_{i}, con i = 1,2), derivado de la misma manera que el
primer factor de escalamiento.
16. Procedimiento según una cualquiera de las
reivindicaciones 2 a 12, en el que, dentro de la primera etapa de
escalamiento, la señal de salida (Y (t)) está escalada, siendo el
primer factor de escalamiento (S (Y + \Delta); S (Y +
\Delta_{i}), con i = 1,2) una multiplicación de un cuarto factor
de escalamiento y de un quinto factor de escalamiento, siendo el
cuarto factor de escalamiento una función del valor recíproco de la
potencia media de la señal de salida aumentada en un primer valor de
ajuste que corresponde al segundo parámetro de ajuste (\Delta;
\Delta_{i}) y siendo el quinto factor de escalamiento una
función del valor recíproco de la duración temporal total durante la
cual la potencia de la señal de salida es superior o igual al valor
umbral aumentado en un segundo valor de ajuste que corresponde al
segundo parámetro de ajuste (\Delta; \Delta_{i}).
17. Procedimiento según la reivindicación 6, en
el que el segundo parámetro relativo a la potencia del segundo
factor de escalamiento (V^{\alpha3}(Y + \Delta_{3}t);
V^{\alpha3}(Y + \Delta_{3})) incluye un valor
instantáneo de la potencia de la señal de salida aumentado en un
valor de ajuste que corresponde al segundo parámetro de ajuste
(\Delta_{3}).
18. Procedimiento según la reivindicación 5, en
el que una versión local (V^{\alpha3}(Y +
\Delta_{3}t)) del segundo factor de escalamiento se aplica a la
señal diferencial (D).
19. Procedimiento según la reivindicación 17, en
el que una versión global (V^{\alpha3}(Y +
\Delta_{3})) del segundo factor de escalamiento es aplicada a
por lo menos una de las dos señales (D; Q).
20. Procedimiento según una cualquiera de las
reivindicaciones 17 a 19, en el que la segunda etapa de escalamiento
está combinada con una tercera etapa de escalamiento aplicando un
tercer factor de escalamiento (S^{\alpha}(Y + \Delta);
S^{\alpha i} (Y + \Delta_{i}), con i = 1,2) derivado del
primer factor de escalamiento (S (Y + \Delta); S (Y +
\Delta_{i}), con i = 1,2).
21. Dispositivo destinado a determinar, según una
técnica de medida objetiva de la voz, la calidad de una señal de
salida (Y (t)) de un sistema de tratamiento de una señal vocal (10)
con respecto a una señal de referencia (X (t)) cuyo dispositivo
comprende:
un medio de pretratamiento (12) destinado al
tratamiento previo de las señales de salida y de referencia
un medio de tratamiento (13, 14) destinado a
tratar las señales previamente tratadas por el medio de
pretratamiento y a generar señales de representación (R (y), (R (X))
que representan las señales de salida y de referencia según un
modelo de percepción y
un medio de combinación de señal (15, 16)
destinado a combinar las señales de representación y a generar una
señal de calidad (Q),
incluyendo el medio de pretratamiento un primer
medio de escalamiento (21, 31, 32, 41, 42) para el escalamiento de
un nivel de potencia de al menos una de las señales de salida y de
referencia (Y (t), X (t)) aplicando un primer factor de escalamiento
(S (X,Y); (S (P_{F}, Y); S (Y + \Delta)), que es una función de
un valor recíproco de un primer parámetro relativo a la potencia de
por lo menos una señales;
en el que el dispositivo comprende, además,
primeros medios de escalamiento (43, 44, 51, 52, 61, 62) para una
operación de escalamiento efectuada aplicando un segundo factor de
escalamiento (S^{\alpha} (Y + \Delta); S^{\alpha i} (Y +
\Delta _{i}), con i = 1,2); V^{\alpha3}(Y +
\Delta_{3}t); V^{\alpha3}(Y + \Delta_{3})), siendo
el segundo factor de escalamiento una función de un valor recíproco
de un segundo parámetro relativo a la potencia de al menos una
señal, utilizando por lo menos un parámetro de ajuste (\alpha;
\Delta; \alpha_{i}, \Delta_{i} con i = 1,2;
\alpha_{3}, \Delta_{3}).
22. Dispositivo según la reivindicación 21, en
el que los segundos medios de escalamiento fueron dispuestos para el
escalamiento mediante aplicación del segundo factor de escalamiento
en tanto como función del valor recíproco del segundo parámetro
relativo a la potencia correspondiente a un primer parámetro de
ajuste (\alpha; \alpha_{i} con i = 1,2; \alpha_{3}),
siendo el segundo parámetro relativo a la potencia aumentado en un
valor correspondiente al segundo parámetro de ajuste (\Delta;
\Delta_{i} con i = 1,2; \Delta_{3}).
23. Dispositivo según la reivindicación 21 o 22,
en el que los primeros medios de escalamiento incluyen una unidad de
escalamiento (42) para el escalamiento de la señal de salida
mediante la aplicación del primer factor de escalamiento, siendo el
primer factor de escalamiento (S (Y + \Delta); S (Y +
\Delta_{i}), con i = 1,2) una función del primer parámetro
relativo a la potencia aumentada en un valor correspondiente al
tercer parámetro de ajuste (\Delta; \Delta_{i} con i =
1,2).
24. Dispositivo según una cualquiera de las
reivindicaciones 21 a 23, en el que los segundos medios de
escalamiento han sido incluidos en los medios de pretratamiento para
escalamiento de las señales de salida y de referencia (Ys t), Xs
(t)) tal como se escalan en la primera etapa de escalamiento,
aplicando el segundo factor de escalamiento.
25. Dispositivo según una cualquiera de las
reivindicaciones 21 a 23, en el que los medios de combinación de
señal incluyen:
un medio de diferenciación (15) destinado a
determinar, a partir de las señales de representación, una señal
diferencial (D),
un medio de modelización (16) destinado al
tratamiento de la señal diferencial y a la generación de la señal de
calidad y
el segundo medio de escalamiento destinado al
escalamiento de una o de dos señales mediante la aplicación del
segundo factor de escalamiento, siendo las dos señales la señal
diferencial (D) tal como se determina por el medio de diferenciación
(15) y la señal de calidad (Q) tal como se genera por el medio de
modelización (16).
26. Dispositivo según una cualquiera de las
reivindicaciones 21 a 25, en el cual el segundo medio de
escalamiento incluye por lo menos una unidad de escalamiento (43,
44; 51, 52) acoplada al primer medio de escalamiento (42) para la
recepción del primer factor de escalamiento y la aplicación del
segundo factor de escalamiento tal como se deriva a partir del
primer factor de escalamiento.
27. Dispositivo según la reivindicación 25, en el
que el segundo medio de escalamiento incluye una unidad de
escalamiento (61, 62) destinado al escalamiento de una a dos señales
mediante la aplicación del segundo factor de escalamiento,
incluyendo el segundo parámetro relativo a la potencia del segundo
factor de escalamiento (V^{\alpha3}(Y + \Delta_{3}t);
V^{\alpha3}(Y + \Delta_{3})) un valor instantáneo de la
potencia de la señal de salida aumentada en un valor de ajuste
correspondiente al segundo parámetro de ajuste \Delta_{3}.
28. Dispositivo según la reivindicación 27, en el
que los segundos medios de escalamiento han sido combinados con el
tercer medio de escalamiento, que incluye por lo menos una unidad de
escalamiento (51, 52) acoplada al primer medio de escalamiento (52)
para la recepción del primer factor de escalamiento y para el
escalamiento de una o dos de dichas señales (D; Q) mediante
aplicación de un tercer factor de escalamiento (S^{\alpha
i}(Y + \Delta_{i}, donde i = 1,2), en combinación con el
segundo factor de escalamiento, siendo el tercer factor de
escalamiento derivado a partir del primer factor de escalamiento (S
(Y +\Delta_{i}, donde i = 1,2).
29. Dispositivo según una cualquiera de las
reivindicaciones 21 a 28, en el que el primer parámetro relativo a
la potencia del primer factor de escalamiento incluye una potencia
media de la señal de salida.
30. Dispositivo según una cualquiera de las
reivindicaciones 21 a 29, en el que el primer parámetro relativo a
la potencia incluye una duración temporal total durante la cual la
potencia de la señal de salida es superior o igual a un valor de
umbral.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01200945A EP1241663A1 (en) | 2001-03-13 | 2001-03-13 | Method and device for determining the quality of speech signal |
EP01200945 | 2001-03-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2243713T3 true ES2243713T3 (es) | 2005-12-01 |
Family
ID=8180008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES02722174T Expired - Lifetime ES2243713T3 (es) | 2001-03-13 | 2002-03-01 | Procedimiento y dispositivo para determinar la calidad de una señal de voz. |
Country Status (10)
Country | Link |
---|---|
US (1) | US7624008B2 (es) |
EP (2) | EP1241663A1 (es) |
JP (1) | JP3927497B2 (es) |
CN (1) | CN1327407C (es) |
AT (1) | ATE300779T1 (es) |
AU (1) | AU2002253093A1 (es) |
CA (1) | CA2440685C (es) |
DE (1) | DE60205232T2 (es) |
ES (1) | ES2243713T3 (es) |
WO (1) | WO2002073601A1 (es) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7318035B2 (en) * | 2003-05-08 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Audio coding systems and methods using spectral component coupling and spectral component regeneration |
CN100347988C (zh) * | 2003-10-24 | 2007-11-07 | 武汉大学 | 一种宽频带语音质量客观评价方法 |
US7525952B1 (en) * | 2004-01-07 | 2009-04-28 | Cisco Technology, Inc. | Method and apparatus for determining the source of user-perceived voice quality degradation in a network telephony environment |
US20050216260A1 (en) * | 2004-03-26 | 2005-09-29 | Intel Corporation | Method and apparatus for evaluating speech quality |
CN101053016B (zh) * | 2004-09-20 | 2011-05-18 | 荷兰应用科学研究会(Tno) | 构建第一频率补偿输入间距功率密度函数的方法和系统 |
US8005675B2 (en) * | 2005-03-17 | 2011-08-23 | Nice Systems, Ltd. | Apparatus and method for audio analysis |
TWI279774B (en) * | 2005-04-14 | 2007-04-21 | Ind Tech Res Inst | Adaptive pulse allocation mechanism for multi-pulse CELP coder |
US7856355B2 (en) * | 2005-07-05 | 2010-12-21 | Alcatel-Lucent Usa Inc. | Speech quality assessment method and system |
DE602007007090D1 (de) * | 2007-10-11 | 2010-07-22 | Koninkl Kpn Nv | Verfahren und System zur Messung der Sprachverständlichkeit eines Tonübertragungssystems |
US8027651B2 (en) * | 2008-12-05 | 2011-09-27 | Motorola Solutions, Inc. | Method and apparatus for removing DC offset in a direct conversion receiver |
EP2457233A4 (en) * | 2009-07-24 | 2016-11-16 | Ericsson Telefon Ab L M | PROCESS, COMPUTER PROGRAM AND COMPUTER PROGRAM PRODUCT FOR LANGUAGE QUALITY ASSESSMENT |
CN101609686B (zh) * | 2009-07-28 | 2011-09-14 | 南京大学 | 基于语音增强算法主观评估的客观评估方法 |
US8818798B2 (en) * | 2009-08-14 | 2014-08-26 | Koninklijke Kpn N.V. | Method and system for determining a perceived quality of an audio system |
CN102549657B (zh) * | 2009-08-14 | 2015-05-20 | 皇家Kpn公司 | 用于确定音频系统的感知质量的方法和系统 |
EP2372700A1 (en) | 2010-03-11 | 2011-10-05 | Oticon A/S | A speech intelligibility predictor and applications thereof |
US20130080172A1 (en) * | 2011-09-22 | 2013-03-28 | General Motors Llc | Objective evaluation of synthesized speech attributes |
US9208798B2 (en) | 2012-04-09 | 2015-12-08 | Board Of Regents, The University Of Texas System | Dynamic control of voice codec data rate |
EP2733700A1 (en) * | 2012-11-16 | 2014-05-21 | Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO | Method of and apparatus for evaluating intelligibility of a degraded speech signal |
US9396738B2 (en) | 2013-05-31 | 2016-07-19 | Sonus Networks, Inc. | Methods and apparatus for signal quality analysis |
WO2015036348A1 (en) * | 2013-09-12 | 2015-03-19 | Dolby International Ab | Time- alignment of qmf based processing data |
EP2922058A1 (en) * | 2014-03-20 | 2015-09-23 | Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO | Method of and apparatus for evaluating quality of a degraded speech signal |
US9653096B1 (en) * | 2016-04-19 | 2017-05-16 | FirstAgenda A/S | Computer-implemented method performed by an electronic data processing apparatus to implement a quality suggestion engine and data processing apparatus for the same |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5345535A (en) * | 1990-04-04 | 1994-09-06 | Doddington George R | Speech analysis method and apparatus |
US6232965B1 (en) * | 1994-11-30 | 2001-05-15 | California Institute Of Technology | Method and apparatus for synthesizing realistic animations of a human speaking using a computer |
NL9500512A (nl) * | 1995-03-15 | 1996-10-01 | Nederland Ptt | Inrichting voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal, alsmede werkwijze voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal. |
DE69626115T2 (de) * | 1995-07-27 | 2003-11-20 | British Telecomm | Signalqualitätsbewertung |
DE19647399C1 (de) * | 1996-11-15 | 1998-07-02 | Fraunhofer Ges Forschung | Gehörangepaßte Qualitätsbeurteilung von Audiotestsignalen |
DE69608316T2 (de) * | 1996-12-13 | 2000-11-30 | Koninkl Kpn Nv | Vorrichtung und verfahren zur signalqualitätsbestimmung |
JP3515903B2 (ja) * | 1998-06-16 | 2004-04-05 | 松下電器産業株式会社 | オーディオ符号化のための動的ビット割り当て方法及び装置 |
DE19840548C2 (de) * | 1998-08-27 | 2001-02-15 | Deutsche Telekom Ag | Verfahren zur instrumentellen Sprachqualitätsbestimmung |
US6246345B1 (en) * | 1999-04-16 | 2001-06-12 | Dolby Laboratories Licensing Corporation | Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding |
US6661832B1 (en) * | 1999-05-11 | 2003-12-09 | Qualcomm Incorporated | System and method for providing an accurate estimation of received signal interference for use in wireless communications systems |
EP1226578A4 (en) * | 1999-12-31 | 2005-09-21 | Octiv Inc | TECHNIQUES TO IMPROVE THE CLARITY AND UNDERSTANDING OF AUDIO-REDUCED AUDIO SIGNALS IN A DIGITAL NETWORK |
NL1014075C2 (nl) * | 2000-01-13 | 2001-07-16 | Koninkl Kpn Nv | Methode en inrichting voor het bepalen van de kwaliteit van een signaal. |
CN1432176A (zh) * | 2000-04-24 | 2003-07-23 | 高通股份有限公司 | 用于预测量化有声语音的方法和设备 |
ES2267457T3 (es) * | 2000-11-09 | 2007-03-16 | Koninklijke Kpn N.V. | Medicion de la calidad de la voz de un enlace telefonico en una red de telecomunicaciones. |
EP1244312A1 (en) * | 2001-03-23 | 2002-09-25 | BRITISH TELECOMMUNICATIONS public limited company | Multimodal quality assessment |
US20020193999A1 (en) * | 2001-06-14 | 2002-12-19 | Michael Keane | Measuring speech quality over a communications network |
US6934677B2 (en) * | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
US7027982B2 (en) * | 2001-12-14 | 2006-04-11 | Microsoft Corporation | Quality and rate control strategy for digital audio |
US7146313B2 (en) * | 2001-12-14 | 2006-12-05 | Microsoft Corporation | Techniques for measurement of perceptual audio quality |
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
EP1465156A1 (en) * | 2003-03-31 | 2004-10-06 | Koninklijke KPN N.V. | Method and system for determining the quality of a speech signal |
-
2001
- 2001-03-13 EP EP01200945A patent/EP1241663A1/en not_active Withdrawn
-
2002
- 2002-03-01 WO PCT/EP2002/002342 patent/WO2002073601A1/en active IP Right Grant
- 2002-03-01 JP JP2002572569A patent/JP3927497B2/ja not_active Expired - Lifetime
- 2002-03-01 US US10/468,087 patent/US7624008B2/en active Active
- 2002-03-01 DE DE60205232T patent/DE60205232T2/de not_active Expired - Lifetime
- 2002-03-01 AT AT02722174T patent/ATE300779T1/de not_active IP Right Cessation
- 2002-03-01 CA CA002440685A patent/CA2440685C/en not_active Expired - Lifetime
- 2002-03-01 CN CNB02806416XA patent/CN1327407C/zh not_active Expired - Lifetime
- 2002-03-01 EP EP02722174A patent/EP1374229B1/en not_active Expired - Lifetime
- 2002-03-01 ES ES02722174T patent/ES2243713T3/es not_active Expired - Lifetime
- 2002-03-01 AU AU2002253093A patent/AU2002253093A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
CN1327407C (zh) | 2007-07-18 |
US7624008B2 (en) | 2009-11-24 |
WO2002073601A1 (en) | 2002-09-19 |
CA2440685C (en) | 2009-12-08 |
AU2002253093A1 (en) | 2002-09-24 |
DE60205232T2 (de) | 2006-04-20 |
JP2004524753A (ja) | 2004-08-12 |
CA2440685A1 (en) | 2002-09-19 |
US20040078197A1 (en) | 2004-04-22 |
WO2002073601A8 (en) | 2005-05-12 |
DE60205232D1 (de) | 2005-09-01 |
JP3927497B2 (ja) | 2007-06-06 |
EP1374229B1 (en) | 2005-07-27 |
WO2002073601B1 (en) | 2002-11-28 |
EP1241663A1 (en) | 2002-09-18 |
EP1374229A1 (en) | 2004-01-02 |
ATE300779T1 (de) | 2005-08-15 |
CN1496558A (zh) | 2004-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2243713T3 (es) | Procedimiento y dispositivo para determinar la calidad de una señal de voz. | |
JP3996848B2 (ja) | 音声通信中に快適ノイズを発生するための方法およびシステム | |
RU2146394C1 (ru) | Способ и устройство вокодирования переменной скорости при пониженной скорости кодирования | |
JP4005128B2 (ja) | 信号品質の評価 | |
KR20080080893A (ko) | 음성신호의 대역폭 확장 제어 방법 및 장치 | |
KR101408625B1 (ko) | Dtx 행오버 주기의 길이를 조정하는 방법 및 음성 인코더 | |
US20080267425A1 (en) | Method of Measuring Annoyance Caused by Noise in an Audio Signal | |
US20150199954A1 (en) | Method, apparatus and storage medium for sound masking | |
ES2294143T3 (es) | Procedimiento mejorado para determinar la calidad de una señal de habla. | |
EP1250830B1 (en) | Method and device for determining the quality of a signal | |
KR0155315B1 (ko) | Lsp를 이용한 celp보코더의 피치 검색방법 | |
KR101893684B1 (ko) | 딥 러닝 기반 보코더 통과 음성 명료도 평가 방법 및 장치 | |
US9572103B2 (en) | System and method for addressing discontinuous transmission in a network device | |
JP5124768B2 (ja) | 放送装置 | |
ES2556587T3 (es) | Método y aparato para evaluar la inteligibilidad de una señal de voz degradada | |
JP2005077970A (ja) | 音声品質客観評価装置および音声品質客観評価方法 | |
Anskaitis et al. | The tool for quality estimation of short voice segments | |
Tahilramani et al. | A hybrid scheme of information hiding incorporating steganography as well as watermarking in the speech signal using Quantization index modulation (QIM) | |
JP4116955B2 (ja) | 音声品質客観評価装置および音声品質客観評価方法 | |
US20070061136A1 (en) | Optimized windows and methods therefore for gradient-descent based window optimization for linear prediction analysis in the ITU-T G.723.1 speech coding standard | |
JP4080153B2 (ja) | 音声品質評価方法及び評価装置 | |
Kondo | Estimation of forced-selection word intelligibility by comparing objective distances between candidates | |
Murrin | Objective measurement of voice activity detectors. | |
Kanade et al. | Analysis of Masking Energy for PEAQ Model using Lifting Technique | |
Jelassi et al. | A case study of perceived listening quality of temporally interrupted VoIP service |