ES2276839T3

ES2276839T3 - Sustitucion mejorada de parametros espectrales para la ocultacion de errores de trama en un decodificador de voz.

Info

Publication number: ES2276839T3
Application number: ES01978706T
Authority: ES
Inventors: Jari Makinen; Hannu J. Mikkola; Janne Vainio; Jani Rotola-Pukkila
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2000-10-23
Filing date: 2001-10-17
Publication date: 2007-07-01
Anticipated expiration: 2021-10-17
Also published as: EP1332493B1; DE60125219T2; DE60125219D1; US7031926B2; ZA200302778B; BRPI0114827B1; JP2004522178A; ATE348385T1; CN1291374C; CN1535461A; WO2002035520A3; US7529673B2; AU1079902A; PT1332493E; US20070239462A1; KR100581413B1; JP2007065679A; AU2002210799B2; EP1332493A2; KR20030048067A

Abstract

Método para ocultar los efectos de errores de trama en tramas a decodificar por un decodificador al proporcionar voz sintetizada, proporcionándose las tramas al decodificador a través de un canal de comunicaciones, proporcionando cada trama parámetros usados por el decodificador en la síntesis de la voz, comprendiendo el método la etapa en la que se determina si una trama es defectuosa, estando caracterizado el método por la etapa en la que se proporciona una sustitución de los parámetros espectrales de la trama defectuosa basándose únicamente en parámetros espectrales correspondientes a tramas buenas recibidas de forma previa y reciente e incluyendo una media por lo menos parcialmente adaptativa de los parámetros espectrales de un número predeterminado de las tramas buenas recibidas previamente y más recientemente.

Description

Sustitución mejorada de parámetros espectrales para la ocultación de errores de trama en un decodificador de voz.

Campo de la invención

La presente invención se refiere a decodificadores de voz, y más particularmente a métodos usados para el tratamiento de tramas defectuosas recibidas por decodificadores de voz.

Antecedentes de la invención

En los sistemas celulares digitales, se dice que un flujo continuo de bits se transmite a través de un canal de comunicaciones que conecta una estación móvil con una estación base a través de la interfaz aérea. El flujo continuo de bits está organizado en tramas, que incluyen tramas de voz. El hecho de que durante la transmisión se produzca o no un error depende de las condiciones predominantes del canal. A una trama de voz en la que se detecta que contiene errores se le denomina simplemente trama defectuosa. Según la técnica anterior, en el caso de una trama defectuosa, los parámetros de voz de la trama defectuosa se sustituyen por parámetros de voz obtenidos a partir de parámetros correctos antiguos (de tramas de voz no erróneas). La finalidad del tratamiento de las tramas defectuosas al realizar dicha sustitución es ocultar los parámetros de voz dañados de la trama de voz errónea sin provocar un deterioro perceptible en la calidad de la voz.

Los códecs de voz actuales funcionan procesando una señal de voz en segmentos cortos, es decir, las tramas antes mencionadas. Una longitud de trama típica de un códec de voz es 20 ms, lo cual se corresponde con 160 muestras de voz, considerando una frecuencia de muestreo de 8 kHz. En los denominados códecs de banda ancha, la longitud de la trama puede ser nuevamente 20 ms, aunque la misma se puede corresponder con 320 muestras de voz, considerando una frecuencia de muestreo de 16 kHz. Una trama se puede dividir adicionalmente en una serie de subtramas.

Para cada trama, un codificador determina una representación paramétrica de la señal de entrada. Los parámetros se cuantifican y a continuación se transmiten a través de un canal de comunicaciones en formato digital. Un decodificador produce una señal de voz sintetizada basándose en los parámetros recibidos (ver Fig. 1).

Uno de los conjuntos típicos de parámetros de codificación extraídos incluye parámetros espectrales (los denominados parámetros de codificación predictiva lineal, o parámetros LPC) usados en la predicción a corto plazo, parámetros usados para la predicción a largo plazo de la señal (los denominados parámetros de predicción a largo plazo o parámetros LTP), diversos parámetros de ganancia, y finalmente, parámetros de excitación.

Lo que se denomina codificación predictiva lineal es un método ampliamente usado y exitoso para codificar voz con vistas a su transmisión a través de un canal de comunicaciones; representa los atributos de conformación de las frecuencias del tracto vocal. La parametrización LPC caracteriza la forma del espectro de un segmento corto de voz. Los parámetros LPC se pueden representar bien como frecuencias LSF (Frecuencias de Rayas Espectrales) o bien, de forma equivalente, como pares ISP (Pares Espectrales de Inmitancia). Los pares ISP se obtienen descomponiendo la función inversa de transferencia del filtro A(z) en un conjunto de dos funciones de transferencia, presentando una de ellas una simetría par y presentando la otra una simetría impar. Los pares ISP, denominados también Frecuencias Espectrales de Inmitancia (Frecuencias ISF), son las raíces de estos polinomios en el círculo unitario del plano z. Los Pares de Rayas Espectrales (denominados también Frecuencias de Rayas Espectrales) se pueden definir de la misma manera que los Pares Espectrales de Inmitancia; la diferencia entre estas representaciones es el algoritmo de conversión, el cual transforma los coeficientes del filtro LP en otra representación de parámetros LPC (LSP o ISP).

En ocasiones la condición del canal de comunicaciones a través del cual se transmiten los parámetros de voz codificados es deficiente, provocando errores en el flujo continuo de bits, es decir, provocando errores de trama (y por lo tanto provocando tramas defectuosas). Existen dos tipos de errores de trama: tramas perdidas y tramas dañadas. En una trama dañada, están dañados solamente algunos de los parámetros que describen un segmento de voz específico (típicamente de 20 ms de duración). En un tipo de error de trama de trama perdida, una trama bien está dañada en su totalidad o bien no se recibe en absoluto.

En un sistema de transmisión basado en paquetes para comunicar voz (un sistema en el cual una trama se transporta habitualmente en forma de un único paquete), tal como se obtiene en ocasiones por medio de una conexión común de Internet, es posible que un paquete de datos (o trama) no llegue nunca al receptor deseado o que un paquete de datos (o trama) llegue tan tarde que no se pueda usar debido a la naturaleza de tiempo real de la voz en conversación. A una trama de este tipo se le denomina trama perdida. Una trama dañada en dicha situación es una trama que sí llega (habitualmente en un solo paquete) al receptor pero que contiene algunos parámetros con errores, indicados por ejemplo mediante una comprobación de redundancia cíclica (CRC). Esta es la situación que se produce habitualmente en una conexión por conmutación de circuitos, tal como una conexión en un sistema de la conexión correspondiente al sistema global para comunicaciones móviles (GSM), en el que el índice de errores de bit (BER) en una trama dañada está típicamente por debajo del 5%.

De este modo, puede observarse que la respuesta correctiva óptima a una incidencia de una trama defectuosa es diferente para los dos casos de tramas defectuosas (la trama dañada y la trama perdida). Se producen respuestas diferentes debido a que en el caso de las tramas dañadas, existe una información no fiable sobre los parámetros, y en el caso de las tramas perdidas, no hay ninguna información disponible.

Según la técnica anterior, cuando en una trama de voz recibida se detecta un error, se da inicio a un procedimiento de sustitución y silenciamiento; los parámetros de voz de la trama defectuosa se sustituyen por valores atenuados o modificados de la trama buena anterior, aunque se usan algunos de los parámetros menos importantes de la trama errónea, por ejemplo, los parámetros de predicción lineal con excitación por código (predicción CELP), o, simplificando, los parámetros de excitación.

En algunos métodos según la técnica anterior, (en el receptor) se usa una memoria intermedia denominada historial de parámetros, en la que se almacenan los últimos parámetros de voz recibidos sin error. Cuando se recibe una trama sin errores, se actualiza el historial de parámetros y los parámetros de voz transportados por las tramas se usan para la decodificación. Cuando se detecta una trama defectuosa, a través de una comprobación CRC o algún otro método de detección de errores, un indicador de trama defectuosa (BFI) se fija a valor verdadero y a continuación se da inicio a una ocultación de parámetros (sustitución y silenciamiento de las tramas defectuosas correspondientes); los métodos de la técnica anterior para la ocultación de parámetros usan el historial de los parámetros para ocultar tramas dañadas. El documento US nº 5.502.713 da a conocer, por ejemplo, el uso de una combinación ponderada de tramas recibidas previamente. Tal como se ha mencionado anteriormente, cuando una trama recibida se clasifica como trama defectuosa (BFI fijado a valor verdadero), se pueden usar algunos parámetros de voz de la trama defectuosa; por ejemplo, en la solución ilustrativa correspondiente a la sustitución de tramas dañadas de un códec de voz AMR (multivelocidad adaptativa) GSM proporcionado en la especificación 06.91 de ETSI (Instituto Europeo de Normas de Telecomunicación), se usa siempre el vector de excitación del canal. Cuando se pierde una trama de voz (incluyendo la situación en la que una trama llega demasiado tarde como para ser usada, tal como por ejemplo en algunos sistemas de transmisión basados en IP), evidentemente no hay parámetros de la trama perdida disponibles para ser usados.

En algunos sistemas de la técnica anterior, los parámetros espectrales de una trama defectuosa se sustituyen por los últimos parámetros espectrales recibidos buenos, después de desplazarlos ligeramente hacia una media predeterminada constante. Según la especificación ETSI 06.91 del GSM, la ocultación se realiza en formato LSF, y viene dada por el siguiente algoritmo,

100

en el que \alpha = 0,95 y N es el orden del filtro de predicción lineal (LP) que se está usando. La magnitud LSF_q1 es el vector LSF cuantificado de la segunda subtrama, y la magnitud LSF_q2 es el vector LSF cuantificado de la cuarta subtrama. Los vectores LSF de la primera y tercera subtramas se interpolan a partir de estos dos vectores. (El vector LSF correspondiente a la primera subtrama en la trama n se interpola a partir del vector LSF de la cuarta subtrama en la trama n-1, es decir, la trama anterior). La magnitud past_LSF_q es la magnitud LSF_q2 de la trama anterior. La magnitud mean_LSF es un vector cuyos componentes son constantes predeterminadas; los componentes no dependen de una secuencia de voz decodificada. La magnitud mean_LSF con componentes constantes genera un espectro de voz constante.

Dichos sistemas de la técnica anterior desplazan siempre los coeficientes espectrales hacia unas magnitudes constantes, indicadas en este caso como mean_LSF(i). Las magnitudes constantes se elaboran promediando durante un periodo de tiempo prolongado y con varios hablantes sucesivos. Por lo tanto dichos sistemas ofrecen únicamente una solución de compromiso, no una solución que sea óptima para cualquier comunicante o situación específicos; la concesión del compromiso se encuentra entre el hecho de dejar perturbaciones molestas en la voz sintetizada, y conseguir que la voz sea más natural en su sonido (es decir, la calidad de la voz sintetizada).

Se requiere una mejora de la sustitución de los parámetros espectrales en el caso de una trama de voz dañada, posiblemente una sustitución basada tanto en un análisis del historial de los parámetros de voz como en la trama errónea. Una sustitución adecuada de las tramas de voz erróneas tiene un efecto significativo sobre la calidad de la voz sintetizada producida a partir del flujo de bits continuo.

La invención queda definida por las reivindicaciones.

Breve descripción de los dibujos

Los anteriores objetivos, características y ventajas de la invención y otros diferentes se pondrán de manifiesto al considerar la siguiente descripción detallada, presentada en relación con los dibujos adjuntos, en los cuales:

la Fig. 1 es un diagrama de bloques de componentes de un sistema según la técnica anterior para transmitir o almacenar señales de voz y audio;

la Fig. 2 es un gráfico que ilustra coeficientes LSF [0...4 kHz] de tramas adyacentes en un caso de voz de tipo estacionario, siendo el eje Y la frecuencia y siendo el eje X las tramas;

la Fig. 3 es un gráfico que ilustra coeficientes LSF [0...4 kHz] de tramas adyacentes en un caso de voz de tipo no estacionario, siendo el eje Y la frecuencia y siendo el eje X las tramas;

la Fig. 4 es un gráfico que ilustra el error absoluto de desviación espectral en el método de la técnica anterior;

la Fig. 5 es un gráfico que ilustra el error absoluto de desviación espectral en la presente invención (mostrando que la presente invención proporciona una sustitución de los parámetros espectrales mejor que la del método de la técnica anterior), en la que la barra más alta del gráfico (que indica el residuo más probable) es aproximadamente cero;

la Fig. 6 es un diagrama de flujo esquemático que ilustra cómo se clasifican los bits según una de las técnicas anteriores cuando se detecta una trama defectuosa;

la Fig. 7 es un diagrama de flujo del método de la invención en conjunto; y

la Fig. 8 es un conjunto de dos gráficos que ilustran aspectos de los criterios usados para determinar si una LSF de una trama de la cual se ha indicado que presenta errores es o no aceptable.

Mejor modo de poner en práctica la invención

Según la invención, cuando un decodificador detecta una trama defectuosa después de la transmisión de una señal de voz a través de un canal de comunicaciones (Fig. 1), los parámetros espectrales dañados de la señal de voz se ocultan (sustituyéndolos por otros parámetros espectrales) sobre la base de un análisis de los parámetros espectrales que se han comunicado recientemente a través del canal de comunicaciones. Es importante ocultar eficazmente los parámetros espectrales dañados de una trama defectuosa no solamente debido a que los parámetros espectrales dañados pueden provocar perturbaciones (sonidos audibles que es evidente que no son voz), sino también debido a que se reduce la calidad subjetiva de las subsiguientes tramas de voz exentas de errores (por lo menos cuando se usa la cuantificación predictiva lineal).

Uno de los análisis según la invención hace uso también de la naturaleza localizada del impacto espectral de los parámetros espectrales, tales como las frecuencias de rayas espectrales (frecuencias LSF). Se dice que el impacto espectral de las LSF está localizado por cuanto si un parámetro LSF se ve modificado negativamente por un proceso de cuantificación y codificación, el espectro LP cambiará únicamente en las proximidades de la frecuencia representada por el parámetro LSF, dejando el resto del espectro sin variaciones.

La invención en general, bien para una trama perdida o bien para una trama dañada

Según la invención, un analizador determina la ocultación de los parámetros espectrales en el caso de una trama defectuosa basándose en el historial de parámetros de voz recibidos anteriormente. El analizador determina el tipo de la señal de voz decodificada (es decir, si es de tipo estacionario o no estacionario). El historial de los parámetros de voz se usa para clasificar la señal de voz decodificada (como de tipo estacionario o no, y más específicamente, como sonora o no); el historial que se usa se puede obtener principalmente a partir de los valores más recientes de los parámetros LTP y espectrales.

Las expresiones señal de voz de tipo estacionario y señal de voz sonora son prácticamente sinónimas; una secuencia de voz sonora es habitualmente una señal de tipo relativamente estacionario, mientras que una secuencia de voz sorda habitualmente no lo es. En el presente documento se usa la terminología señales de voz de tipo estacionario y de tipo no estacionario debido al que dicha terminología es más precisa.

Una trama se puede clasificar como sonora o sorda (y también de tipo estacionario o no estacionario) según la relación de la potencia de la excitación adaptativa con respecto a la correspondiente a la excitación total, indicada en la trama para la voz correspondiente a dicha trama. (Una trama contiene parámetros según los cuales se elaboran las excitaciones tanto adaptativa como total; después de realizar dichas operaciones, se puede calcular la potencia
total).

Si una secuencia de voz es de tipo estacionario, los métodos de la técnica anterior por medio de los cuales se ocultan parámetros espectrales dañados, tal como se ha indicado anteriormente, no son particularmente eficaces. Esto es debido a que los parámetros espectrales adyacentes de tipo estacionario varían lentamente, de manera que los valores espectrales buenos anteriores (valores espectrales no dañados o perdidos) constituyen habitualmente unas buenas estimaciones para los siguientes coeficientes espectrales, y más específicamente, son mejores que los parámetros espectrales de la trama anterior desplazados hacia la media constante, que sería la opción usada por la técnica anterior en lugar de los parámetros espectrales defectuosos (para ocultarlos). La Fig. 2 ilustra, para una señal de voz de tipo estacionario (y más particularmente una señal de voz sonora), las características de las LSF, como ejemplo de parámetros espectrales; ilustra coeficientes LSF [0...4 kHz] de tramas adyacentes de voz de tipo estacionario, siendo el eje Y la frecuencia y siendo el eje X las tramas, mostrando que las LSF sí cambian de forma relativamente lenta, de una trama a otra, para la voz de tipo estacionario.

Durante los segmentos de voz de tipo estacionario, la ocultación se realiza según la invención (para tramas bien perdidas o bien dañadas) usando el siguiente algoritmo:

101

en el que \alpha puede ser aproximadamente 0,95, N es el orden del filtro LP, y K es la longitud de adaptación. LSF_q1(i) es el vector LSF cuantificado de la segunda subtrama y LSF_q2(i) es el vector LSF cuantificado de la cuarta subtrama. Los vectores LSF de la primera y tercera subtramas se interpolan a partir de estos dos vectores. La magnitud past_LSF_good(i)(0) es igual al valor de la magnitud LSF_q2(i-1) de la trama buena anterior. La magnitud past_LSF_good(i)(n) es un componente del vector de parámetros LSF de la n+1^{ésima} trama buena anterior (es decir, la trama buena que precede a la trama defectuosa actual en n+1 tramas). Finalmente, la magnitud adaptive_mean_LSF(i) es la media (promedio aritmético) de los vectores LSF buenos anteriores (es decir, es un componente de una magnitud vectorial, siendo cada uno de los componentes una media de los componentes correspondientes de los vectores LSF buenos anteriores).

Se ha demostrado que el método de la invención de la media adaptativa mejora la calidad subjetiva de la voz sintetizada en comparación con el método de la técnica anterior. La demostración hizo uso de simulaciones en las que la voz se transmitía a través de un canal de comunicaciones con inducción de errores. Cada vez que se detectaba una trama defectuosa, se calculaba el error espectral. El error espectral se obtenía restando, del espectro original, el espectro que se usaba para la ocultación durante la trama defectuosa. El error absoluto se calcula tomando el valor absoluto del error espectral. Las Figs. 4 y 5 muestran los histogramas del error de desviación absoluto de frecuencias LSF para la técnica anterior y para el método de la invención, respectivamente. La ocultación de errores óptima presenta un error cercano a cero, es decir, cuando el error está cerca de cero, los parámetros espectrales usados para la ocultación están muy cerca de los parámetros espectrales originales (dañados o perdidos). Tal como puede observarse a partir de los histogramas de las Figs. 4 y 5, el método de la media adaptativa de la invención (Fig. 5) oculta los errores mejor que el método de la técnica anterior (Fig. 4) durante las secuencias de voz de tipo estacionario.

Tal como se ha mencionado anteriormente, los coeficientes espectrales de señales de tipo no estacionario (o, de forma menos precisa, señales sordas) fluctúan entre las tramas adyacentes, tal como se indica en la Fig. 3, la cual es un gráfico que ilustra frecuencias LSF de tramas adyacentes en el caso de voz de tipo no estacionario, siendo el eje Y la frecuencia y siendo el eje X las tramas. En dicho caso, el método de ocultación óptima no es el mismo que en el caso de la señal de voz de tipo estacionario. Para la voz de tipo no estacionario, la invención proporciona una ocultación para segmentos de voz de tipo no estacionario defectuosos (dañados o perdidos) según el siguiente algoritmo (el algoritmo de tipo no estacionario):

102

en el que N es el orden del filtro LP, en el que \alpha es típicamente de forma aproximada 0,90, en el que LSF_q1(i) y LSF_q2(i) son dos conjuntos de vectores LSF para la trama actual como en la ecuación (2.1), en el que past_LSF_q(i) es la LSF_q2(i) de la trama buena anterior, en el que partly_adaptive_mean_LSF(i) es una combinación de la media adaptativa de los vectores LSF y el promedio de los vectores LSF, y en el que adaptive_mean_LSF(i) es la media de los últimos K vectores LSF buenos (la cual se actualiza cuando no se ha activado BFI), y en el que mean_LSF(i) es un promedio constante de LSF y se genera durante el proceso de diseño del códec que se está usando para sintetizar la voz; es un promedio de LSF de alguna de las bases de datos de voz. El parámetro \beta es típicamente de forma aproximada 0,75, un valor usado para expresar el grado hasta el cual la voz es de tipo estacionario en oposición a no estacionario. (En ocasiones se calcula basándose en la relación de la energía de excitación de la predicción de largo plazo con respecto a la energía de excitación del libro de códigos fijo, o de forma más precisa, usando la
fórmula

103

en la que

1300

en la cual energía_{alturatonal} es la energía de la excitación por altura tonal y energía_{innovación} es la energía de la excitación por código de innovación. Cuando la mayor parte de la energía se encuentra en la excitación de la predicción de largo plazo, la voz que está siendo decodificada es en su mayor parte de tipo estacionario. Cuando la mayor parte de la energía se encuentra en la excitación del libro de códigos fijo, la voz es en su mayoría de tipo no estacionario).

Para \beta = 1,0, la ecuación (2.3) se reduce a la ecuación (1.0), la cual pertenece a la técnica anterior. Para \beta = 0,0, la ecuación (2.3) se reduce a la ecuación (2.1), la cual es usada por la presente invención para segmentos de tipo estacionario. Para implementaciones críticas en términos de complejidad (en aplicaciones en las que es importante mantener la complejidad a un nivel razonable), \beta se puede fijar a algún valor de compromiso, por ejemplo, 0,75, para los segmentos de tipo tanto estacionario como no estacionario. Ocultación de parámetros espectrales específicamente para tramas perdidas.

En el caso de una trama perdida, está disponible únicamente la información de los parámetros espectrales antiguos. Los parámetros espectrales sustituidos se calculan según un criterio que se basa en historiales de parámetros de, por ejemplo, valores espectrales LTP (predicción de largo plazo); los parámetros LTP incluyen la ganancia LTP y el valor de retardo LTP. La LTP representa la correlación de una trama actual con una trama anterior. Por ejemplo, el criterio usado para calcular los parámetros espectrales sustituidos puede diferenciar situaciones en las que las últimas frecuencias LSF buenas deberían ser modificadas por una media adaptativa de LSF o, como en la técnica anterior, por una media constante.

Ocultación alternativa de parámetros espectrales específicamente para tramas dañadas

Cuando una trama de voz está dañada (en contraposición a perdida), el procedimiento de ocultación de la invención se puede optimizar adicionalmente. En tal caso, los parámetros espectrales se pueden corregir de forma completa o parcial cuando se reciben en el decodificador de voz. Por ejemplo, en una conexión basada en paquetes (tal como en una conexión común de Internet TCP/IP), normalmente no es posible el método de ocultación de tramas dañadas debido a que con las conexiones de tipo TCP/IP normalmente todas las tramas defectuosas son tramas perdidas, aunque para otros tipos de conexiones, tales como en las conexiones EDGE o GSM por conmutación de circuitos, se puede usar el método de ocultación de tramas dañadas de la invención. De este modo, para conexiones por conmutación de paquetes, no se puede usar el siguiente método alternativo, aunque para conexiones por conmutación de circuitos, el mismo se puede usar ya que en dichas conexiones las tramas defectuosas son por lo menos en ocasiones (y de hecho normalmente) solo tramas dañadas.

Según las especificaciones correspondientes al GSM, se detecta una trama defectuosa cuando se activa una bandera BFI después de una comprobación CRC u otro mecanismo de detección de errores usado en el proceso de decodificación de los canales. Los mecanismos de detección de errores se usar para detectar errores en los bits subjetivamente más significativos, es decir, aquellos bits que tienen el mayor efecto sobre la calidad de la voz sintetizada. En algunos métodos de la técnica anterior, estos bits más significativos no se usan cuando se indica que una trama es defectuosa. No obstante, una trama puede tener solamente unos pocos errores de bit (incluso siendo uno suficiente para activar la bandera BFI), por lo que se podría descartar la trama completa incluso aunque la mayoría de los bits sean correctos. Una comprobación CRC detecta simplemente si una trama tiene o no tramas erróneas, pero no realiza ninguna estimación del BER (índice de errores de bit). La Fig. 6 ilustra cómo se clasifican los bits según la técnica anterior cuando se detecta una trama defectuosa. En la Fig. 6, se muestra la comunicación de una única trama, un bit cada vez (de izquierda a derecha), hacia un decodificador a través de un canal de comunicaciones con condiciones tales que algunos bits de la trama incluida en una comprobación CRC están dañados, y por lo tanto el BFI se fija a uno.

Tal como puede observarse a partir de la Fig. 6, incluso cuando una trama recibida contenga en ocasiones muchos bits correctos (siendo habitualmente reducido el BER en una trama cuando las condiciones del canal son relativamente buenas), la técnica anterior no hace uso de ellos. Por el contrario, la presente invención intenta realizar una estimación sobre si los parámetros recibidos están dañados y si no lo están, el método de la invención los usa.

La Tabla 1 muestra claramente la idea que subyace tras la ocultación de tramas dañadas según la invención en el ejemplo de un decodificador de banda ancha (WB) de multivelocidad adaptativa (AMR).

TABLA 1 Porcentaje de parámetros espectrales correctos en una trama de voz dañada

1

En el caso de un decodificador WB AMR, el modo 12,65 kbit/s es una buena elección para ser usada cuando la relación portadora/interferencia (C/I) del canal está en el intervalo de entre aproximadamente 9 dB y 10 dB. A partir de la Tabla 1, puede observarse que en el caso de unas condiciones de canal GSM con una C/I en el intervalo de 9 a 10 dB usando un esquema de modulación GMSK (Modulación por Desplazamiento Mínimo con Filtro Gaussiano), aproximadamente entre el 35 y el 50% de las tramas defectuosas recibidas tienen un espectro totalmente correcto. Además, aproximadamente entre el 75 y el 85% de todos los coeficientes de los parámetros espectrales de tramas defectuosas son correctos. Debido a la naturaleza localizada del impacto espectral, tal como se ha mencionado anteriormente, en las tramas defectuosas se puede usar información de los parámetros espectrales. Las condiciones de un canal con una C/I en el intervalo de entre 6 y 8 dB ó menor son tan deficientes que no se debería usar el modo 12,65 kbit/s; en su lugar, debería usarse algún otro modo inferior.

La idea básica de la presente invención en el caso de tramas dañadas es que según un criterio (que se describe posteriormente), los bits del canal de una trama dañada se usan para decodificar la trama dañada. El criterio para los coeficientes espectrales se basa en los valores antiguos de los parámetros de voz de la señal que está siendo decodificada. Cuando se detecta una trama defectuosa, si se cumple el criterio se usan las LSF recibidas u otros parámetros espectrales que se comuniquen a través del canal; en otras palabras, si las LSF recibidas cumplen el criterio, las mismas se usan en la decodificación exactamente tal como se haría si la trama no fuera una trama defectuosa. En cualquier otro caso, es decir, si las LSF del canal no cumplen el criterio, el espectro correspondiente a una trama defectuosa se calcula según el método de ocultación antes descrito, usando las ecuaciones (2.1) ó (2.2). El criterio para aceptar los parámetros espectrales se puede implementar usando por ejemplo un cálculo de distancia espectral tal como un cálculo de la distancia espectral denominada Itakura-Saito. (Ver, por ejemplo, la página 329 de la publicación Discrete-Time Processing of Speech Signals de John R Deller Jr, John H.L. Hansen, y John G. Proakis, publicada por IEEE Press, 2000).

El criterio para aceptar los parámetros espectrales del canal debería ser muy estricto en el caso de una señal de voz de tipo estacionario. Tal como se muestra en la Fig. 3, los coeficientes espectrales son muy estables durante una secuencia estacionaria (por definición) de manera que las LSF dañadas (u otros parámetros de voz) de una señal de voz de tipo estacionario normalmente se pueden detectar con facilidad (ya que las mismas serían distinguibles con respecto a las LSF no dañadas sobre la base de que diferirían drásticamente de las LSF de tramas adyacentes no dañadas). Por otro lado, para una señal de voz de tipo no estacionario, no es necesario que el criterio sea tan estricto; se permite que el espectro correspondiente a una señal de voz de tipo no estacionario presente una mayor variación. Para una señal de voz de tipo no estacionario, la exactitud de los parámetros espectrales correctos no es estricta en relación con las perturbaciones audibles, ya que para la voz de tipo no estacionario (es decir, voz más o menos sorda), no es probable que se produzcan perturbaciones audibles con independencia de si los parámetros de voz son o no correctos. En otras palabras, incluso si hay bits dañados de los parámetros espectrales, los mismos pueden seguir siendo aceptables según el criterio, ya que los parámetros espectrales para la voz de tipo no estacionario con algunos bits dañados habitualmente no generarán ninguna perturbación audible. Según la invención, la calidad subjetiva de la voz sintetizada debe reducirse lo menos posible en el caso de tramas dañadas mediante el uso de toda la información disponible sobre las LSF recibidas, y mediante la selección de qué frecuencias LSF usar según las características de la voz que se esté transportando.

De este modo, aunque la invención incluye un método para ocultar tramas dañadas, también comprende como alternativa el uso de un criterio en el caso de una voz de tipo no estacionario que transporte una trama dañada, el cual, si se cumple, provocará que el decodificador use la trama dañada tal como esté; en otras palabras, incluso aunque esté activado el BFI, se usará la trama. El criterio es esencialmente un umbral usado para diferenciar entre una trama dañada que sea utilizable y otra que no lo sea; el umbral se basa en el grado de diferencia de los parámetros espectrales de la trama dañada con respecto a los parámetros espectrales de las tramas buenas recibidas más recientemente.

El uso de posibles parámetros espectrales dañados es probablemente más sensible a las perturbaciones audibles que el uso de otros parámetros dañados, tales como los valores del retardo LTP dañados. Por esta razón, el criterio usado para determinar si se usa o no un parámetro espectral posiblemente dañado debería ser especialmente fiable. En algunas formas de realización, resulta ventajoso usar como criterio una distancia espectral máxima (con respecto a un parámetro espectral correspondiente en una trama anterior, más allá de la cual no debe usarse el parámetro espectral dudoso); en una forma de realización de este tipo, se podría usar el cálculo de la distancia Itakura-Saito, bien conocido, para cuantificar la distancia espectral a comparar con el umbral. Como alternativa, para determinar si se van a usar o no parámetros espectrales posiblemente dañados se podrían usar estadísticas fijas o adaptativas de parámetros espectrales. Para generar el criterio también se podrían usar otros parámetros de voz, tales como parámetros de ganancia. (Si los otros parámetros de voz no son drásticamente diferentes en la trama actual, en comparación con los valores de la trama buena más reciente, en ese caso los parámetros espectrales son probablemente adecuados para ser usados, siempre que los parámetros espectrales recibidos cumplan además los criterios. En otras palabras, se pueden usar otros parámetros, tales como la ganancia LTP, como componente adicional para fijar criterios adecuados con vistas a determinar si se usan o no los parámetros espectrales recibidos. El historial de los otros parámetros de voz se puede usar para mejorar el reconocimiento de la característica de la voz. Por ejemplo, el historial se puede usar para decidir si la secuencia de voz decodificada presenta una característica de tipo estacionario o no estacionario. Cuando se conocen las propiedades de la secuencia de voz decodificada, resulta más sencillo detectar parámetros espectrales posiblemente correctos de la trama dañada y resulta más sencillo realizar una estimación sobre qué tipo de valores de los parámetros espectrales se espera que se hayan transportado en una trama dañada recibida).

Según la invención, en la forma de realización preferida, y en este caso haciendo referencia a la Fig. 8, el criterio para determinar si se usa o no un parámetro espectral para una trama dañada se basa en la noción de distancia espectral, tal como se ha mencionado anteriormente. Más específicamente, para determinar si se cumple el criterio para aceptar los coeficientes LSF de una trama dañada, un procesador del receptor ejecuta un algoritmo que comprueba cuánto se han movido los coeficientes LSF a lo largo del eje de frecuencia en comparación con los coeficientes LSF de la última trama buena, la cual está almacenada en una memoria intermedia LSF, junto con los coeficientes LSF de cierto número predeterminado de tramas más recientes anteriores.

El criterio según la forma de realización preferida implica la realización de una o más de entre cuatro comparaciones: una comparación entre tramas, una comparación intratrama, una comparación de dos puntos, y una comparación de un solo punto.

En la primera comparación, la comparación entre tramas, las diferencias entre elementos de vector LSF en tramas adyacentes de la trama dañada se comparan con las diferencias correspondientes de tramas anteriores. Las diferencias se determinan de la forma siguiente:

d_{(n)}(i)=|L_{n-1}(i)-L_{n}(i)|,

\hskip1.5cm

1\leq i\leq P-1,

en la que P es el número de coeficientes espectrales para una trama, L_{n}(i) es el elemento LSF i^{ésimo} de la trama dañada, y L_{n-1}(i) es el elemento LSF i^{ésimo} de la trama anterior a la trama dañada. El elemento LSF, L_{n}(i), de la trama dañada se descarta si la diferencia, d_{n}(i), es demasiado elevada en comparación con d_{n-1}(i), d_{n-2}(i),..., d_{n-k}(i), en la que k es la longitud de la memoria intermedia LSF.

La segunda comparación, la comparación intratrama, es una comparación de la diferencia entre elementos de vector LSF adyacentes en la misma trama. La distancia entre el elemento LSF i^{ésimo} candidato, L_{n}(i), de la trama n^{ésima} y el elemento LSF (i-1)^{ésimo}, L_{n-1}(i), de la trama n^{ésima} se determina de la manera siguiente:

e_{n}(i)=L_{n}(i-1)-L_{n}(i),

\hskip1.5cm

2\leq i\leq P-1,

en la que P es el número de coeficientes espectrales y e_{n}(i) es la distancia entre elementos LSF. Las distancias se calculan entre todos los elementos del vector LSF de la trama. Se descartarán uno o ambos de entre los elementos LSF L_{n}(i) y L_{n}(i-1) si la diferencia, e_{n}(i), es demasiado grande o demasiado pequeña en comparación con e_{n-1}(i), e_{n-2}(i),..., e_{n-k}(i).

La tercera comparación, la comparación de dos puntos, determina si se ha producido un cruce que implica al elemento LSF L_{n}(i) candidato, es decir, si un elemento L_{n}(i-1) que es de orden menor que el elemento candidato tiene un valor mayor que el elemento LSF L_{n}(i) candidato. Un cruce indica uno o más valores LSF altamente dañados. Normalmente se descartan todos los elementos LSF de cruce.

La cuarta comparación, la comparación de un solo punto, compara el valor del elemento de vector LSF candidato, L_{n}(i), con un elemento LSF mínimo, L_{min}(i), y con un elemento LSF máximo, L_{max}(i), calculados ambos a partir de la memoria intermedia LSF, y descarta al elemento LSF candidato si el mismo se sitúa fuera del intervalo delimitado por los elementos LSF mínimo y máximo.

Si se descarta un elemento LSF de una trama dañada (basándose en el criterio anterior o en algún otro aspecto), en ese caso se calcula un valor nuevo para el elemento LSF según el algoritmo usando la ecuación (2.2).

Haciendo referencia a continuación a la Fig. 7, se muestra un diagrama de flujo del método en conjunto de la invención, indicando las diferentes previsiones realizadas para tramas de voz de tipo estacionario y no estacionario, y para tramas de voz de tipo no estacionario dañadas en contraposición a las perdidas.

Argumentación

La invención se puede aplicar en un decodificador de voz bien en una estación móvil o bien en un elemento de una red móvil. Se puede aplicar también a cualquier decodificador de voz usado en un sistema que presente un canal de transmisión erróneo.

Alcance de la invención

Debe entenderse que las disposiciones descritas anteriormente son únicamente ilustrativas de la aplicación de los principios de la presente invención. En particular, debería entenderse que aunque la invención se ha mostrado y descrito usando pares de rayas espectrales considerando una ilustración concreta, la invención incluye además el uso de otros parámetros equivalentes tales como pares espectrales de inmitancia. Los expertos en la materia podrán idear numerosas modificaciones y disposiciones alternativas sin apartarse por ello del alcance de la presente invención, y las reivindicaciones adjuntas están destinadas a incluir dichas modificaciones y disposiciones.

Claims

1. Método para ocultar los efectos de errores de trama en tramas a decodificar por un decodificador al proporcionar voz sintetizada, proporcionándose las tramas al decodificador a través de un canal de comunicaciones, proporcionando cada trama parámetros usados por el decodificador en la síntesis de la voz, comprendiendo el método la etapa en la que se determina si una trama es defectuosa,

estando caracterizado el método por la etapa en la que se proporciona una sustitución de los parámetros espectrales de la trama defectuosa basándose únicamente en parámetros espectrales correspondientes a tramas buenas recibidas de forma previa y reciente e incluyendo una media por lo menos parcialmente adaptativa de los parámetros espectrales de un número predeterminado de las tramas buenas recibidas previamente y más recientemente.

2. Método según la reivindicación 1, que comprende además la etapa en la que se determina si la trama defectuosa transporta voz de tipo estacionario o no estacionario, y en el que la etapa en la que se proporciona una sustitución de la trama defectuosa se realiza de una manera que depende de si la trama defectuosa transporta voz de tipo estacionario o no estacionario.

3. Método según la reivindicación 2, en el que en el caso de una trama defectuosa que transporta voz de tipo estacionario, la etapa en la que se proporciona una sustitución de la trama defectuosa se realiza usando una media de parámetros de un número predeterminado de las tramas buenas recibidas más recientemente.

4. Método según la reivindicación 3, en el que en el caso de una trama defectuosa que transporta voz de tipo estacionario y en el caso de que se esté usando un filtro de predicción lineal, la etapa en la que se proporciona una sustitución de la trama defectuosa se realiza según el algoritmo:

104

en el que \alpha es un parámetro predeterminado, en el que N es el orden del filtro de predicción lineal, en el que K es la longitud de adaptación, en el que LSF_q1(i) es el vector LSF cuantificado de la segunda subtrama y LSF_q2(i) es el vector LSF cuantificado de la cuarta subtrama, en el que past_LSF_good(i)(0) es igual al valor de la magnitud LSF_q2(i-1) de la trama buena anterior, en el que past_LSF_good(i)(n) es un componente del vector de parámetros LSF de la n+1^{ésima} trama buena anterior, y en el que adaptive_mean_LSF(i) es la media de los vectores LSF buenos
anteriores.

5. Método según la reivindicación 2, en el que en el caso de una trama defectuosa que transporta voz de tipo no estacionario, la etapa en la que se proporciona una sustitución de la trama defectuosa se realiza usando a lo sumo una parte predeterminada de una media de parámetros de un número predeterminado de las tramas buenas recibidas más recientemente.

6. Método según la reivindicación 2, en el que en el caso de una trama defectuosa que transporta voz de tipo no estacionario y en el caso de que se esté usando un filtro de predicción lineal, la etapa en la que se proporciona una sustitución de la trama defectuosa se realiza según el algoritmo:

105

en el que N es el orden del filtro de predicción lineal, en el que \alpha y \beta son parámetros predeterminados, en el que LSF_q1(i) es el vector LSF cuantificado de la segunda subtrama y LSF_q2(i) es el vector LSF cuantificado de la cuarta subtrama, en el que past_LSF_q(i) es el valor de LSF_q2(i) de la trama buena anterior, en el que partly_adaptive_mean_LSF(i) es una combinación de la media adaptativa de los vectores LSF y el promedio de los vectores LSF, en el que
adaptive_mean_LSF(i) es la media de los últimos K vectores LSF buenos, en el K es la longitud de adaptación, y en el que mean_LSF(i) es un promedio constante de LSF.

7. Método según la reivindicación 1, que comprende además la etapa en la que se determina si la trama defectuosa cumple un criterio predeterminado, y si es así, se usa la trama defectuosa en lugar de sustituir dicha trama defectuosa.

8. Método según la reivindicación 7, en el que el criterio predeterminado implica la realización de una o más de entre cuatro comparaciones: una comparación entre tramas, una comparación intratrama, una comparación de dos puntos, y una comparación de un solo punto.

9. Método según la reivindicación 1, en el cual la etapa en la que se proporciona una sustitución de los parámetros de la trama defectuosa comprende proporcionar una sustitución en la cual las frecuencias espectrales de inmitancia antiguas se desplazan hacia una media parcialmente adaptativa proporcionada por:

ISF_{q}(i)=\alpha*past\_ISF_{q}(i)+(1-\alpha)*ISF_{mean}(i),

\hskip1,5cm

para\ i=0. . 16,

en la que

\alpha = 0.9,

ISF_{q}(i) es el componente i^{ésimo} del vector de frecuencias espectrales de inmitancia para una trama actual,

past_ISF_{q}(i) es el componente i^{ésimo} del vector de frecuencias espectrales de inmitancia de la trama anterior,

ISF_{mean}(i) es el componente i^{ésimo} del vector que es una combinación de la media adaptativa y la media predeterminada constante de los vectores de frecuencias espectrales de inmitancia, y se calcula usando la fórmula:

ISF_{mean}(i) = \beta*ISF_{const\_mean}(i)+(1-\beta)*ISF_{adaptive\_mean}(i),

\hskip1cm

para\ i= 0. . 16,

en la que \beta = 0,75, en la que ISF_{adaptive\_mean}(i)= \frac{1}{3} \sum\limits^{2}_{i=0} past_ISF_{q}(i) y se actualiza siempre que BFI=0 en la que BFI es un indicador de trama defectuosa, y en la que ISF_{const\_mean}(i) es el componente i^{ésimo} de un vector formado a partir de un promedio de larga duración de vectores de frecuencias espectrales de inmitancia.

10. Aparato para ocultar los efectos de errores de trama en tramas a decodificar por un decodificador al proporcionar voz sintetizada, proporcionándose las tramas al decodificador a través de un canal de comunicaciones, proporcionando cada trama parámetros usados por el decodificador en la síntesis de la voz, comprendiendo el aparato medios para determinar si una trama es defectuosa,

estando caracterizado el aparato por medios para proporcionar una sustitución de los parámetros espectrales de la trama defectuosa basándose únicamente en parámetros espectrales correspondientes a tramas buenas recibidas de forma previa y reciente e incluyendo una media por lo menos parcialmente adaptativa de los parámetros espectrales de un número predeterminado de las tramas buenas recibidas previamente y más recientemente.

11. Aparato según la reivindicación 10, que comprende además medios para determinar si la trama defectuosa transporta voz de tipo estacionario o no estacionario, y en el que los medios para proporcionar una sustitución de la trama defectuosa realizan la sustitución de una manera que depende de si la trama defectuosa transporta voz de tipo estacionario o no estacionario.

12. Aparato según la reivindicación 11, en el que en el caso de una trama defectuosa que transporta voz de tipo estacionario, los medios para proporcionar una sustitución de la trama defectuosa realizan dicha operación usando una media de parámetros de un número predeterminado de las tramas buenas recibidas más recientemente.

13. Aparato según la reivindicación 12, en el que en el caso de una trama defectuosa que transporta voz de tipo estacionario y en el caso de que se esté usando un filtro de predicción lineal, los medios para proporcionar una sustitución de la trama defectuosa funcionan según el algoritmo:

106

en el que \alpha es un parámetro predeterminado, en el que N es el orden del filtro de predicción lineal, en el que K es la longitud de adaptación, en el que LSF_q1(i) es el vector LSF cuantificado de la segunda subtrama y LSF_q2(i) es el vector LSF cuantificado de la cuarta subtrama, en el que past_LSF_good(i)(0) es igual al valor de la magnitud LSF_q2(i-1) de la trama buena anterior, en el que past_LSF_good(i)(n) es un componente del vector de parámetros LSF de la n+1^{ésima} trama buena anterior, y en el que adaptive_mean_LSF(i) es la media de los vectores LSF buenos
anteriores.

14. Aparato según la reivindicación 11, en el que en el caso de una trama defectuosa que transporta voz de tipo no estacionario, los medios para proporcionar una sustitución de la trama defectuosa realizan dicha operación usando a lo sumo una parte predeterminada de una media de parámetros de un número predeterminado de las tramas buenas recibidas más recientemente.

15. Aparato según la reivindicación 11, en el que en el caso de una trama defectuosa que transporta voz de tipo no estacionario y en el caso de que se esté usando un filtro de predicción lineal, los medios para proporcionar una sustitución de la trama defectuosa funcionan según el algoritmo:

107

en el que N es el orden del filtro de predicción lineal, en el que \alpha y \beta son parámetros predeterminados, en el que LSF_q1(i) es el vector LSF cuantificado de la segunda subtrama y LSF_q2(i) es el vector LSF cuantificado de la cuarta subtrama, en el que past_LSF_q(i) es el valor de LSF_q2(i) de la trama buena anterior, en el que partly_adaptive_mean_LSF(i) es una combinación de la media adaptativa de los vectores LSF y el promedio de los vectores LSF, en el que
adaptive_mean_LSF(i) es la media de los últimos K vectores LSF buenos, en el que K es la longitud de adaptación, y en el que mean_LSF(i) es un promedio constante de LSF.

16. Aparato según la reivindicación 10, que comprende además medios para determinar si la trama defectuosa cumple un criterio predeterminado, y si es así, se usa la trama defectuosa en lugar de sustituir dicha trama defectuo-
sa.

17. Aparato según la reivindicación 16, en el que el criterio predeterminado implica la realización de una o más de entre cuatro comparaciones: una comparación entre tramas, una comparación intratrama, una comparación de dos puntos, y una comparación de un solo punto.

18. Aparato según la reivindicación 10, en el cual los medios para proporcionar una sustitución de los parámetros de la trama defectuosa comprenden medios para proporcionar una sustitución en la cual las frecuencias espectrales de inmitancia antiguas se desplazan hacia una media parcialmente adaptativa proporcionada por:

\vskip1.000000\baselineskip

ISF_{q}(i)=\alpha*past\_ISF_{q}(i)+(1-\alpha)*ISF_{mean}(i),

\hskip1,5cm

para\ i=0. . 16,

\vskip1.000000\baselineskip

en la que

\alpha = 0.9,

\vskip1.000000\baselineskip

ISF_{mean}(i) = \beta*ISF_{const\_mean}(i)+(1-\beta)*ISF_{adaptive\_mean}(i),

\hskip1cm

para\ i= 0. . 16,

\newpage

en la que \beta = 0,75, en la que ISF_{adaptive\_mean}(i)= \frac{1}{3} \sum\limits^{2}_{i=0}(1/3) past_ISF_{q}(i) y se actualiza siempre que BFI=0 en la que BFI es un indicador de trama defectuosa, y en la que ISF_{const\_mean}(i) es el componente i^{ésimo} de un vector formado a partir de un promedio de larga duración de vectores de frecuencias espectrales de inmitancia.

19. Estación móvil que comprende un aparato según cualquiera de las reivindicaciones 10 a 18.

20. Elemento de red que comprende un aparato según cualquiera de las reivindicaciones 10 a 18.