ES2217772T3

ES2217772T3 - Tecnicas mejoradas de recuperacion de tramas perdidas para sistemas parametricos de codificacion predictiva de voz.

Info

Publication number: ES2217772T3
Application number: ES99930163T
Authority: ES
Inventors: Grant Ian Ho; Marion Baraniecki; Suat Yeldener
Original assignee: Comsat Corp
Current assignee: Comsat Corp
Priority date: 1998-06-19
Filing date: 1999-06-16
Publication date: 2004-11-01
Anticipated expiration: 2019-06-16
Also published as: EP1088205B1; DE69915830T2; CA2332596A1; CA2332596C; US6810377B1; WO1999066494A1; AU4675999A; ATE262723T1; EP1088205A4; DE69915830D1; EP1088205A1; AU755258B2

Abstract

Método para recuperar una trama perdida para un sistema del tipo en el que se transmite información en tramas sucesivas de señales codificadas y en el que la información se reconstruye a partir de dichas señales codificadas en un receptor, comprendiendo dicho método: almacenar las señales codificadas de una primera trama anterior a dicha trama perdida; almacenar las señales codificadas de una segunda trama posterior a dicha trama perdida; interpolar entre las señales codificadas de dichas primera y segunda trama para obtener unas señales codificadas correspondientes a dicha trama perdida; calcular un periodo fundamental de la voz (pitch lag) estimado y una ganancia de predicción para la primera trama; caracterizado por la etapa de clasificar dicha trama perdida como trama vocal o no vocal en base a dicha ganancia de predicción y periodo fundamental estimado de la primera trama.

Description

Técnicas mejoradas de recuperación de tramas perdidas para sistemas paramétricos de codificación predictiva de voz.

Antecedentes de la invención

La transmisión de voz comprimida sobre redes móviles y de conmutación de paquetes implica dos sistemas importantes. El sistema fuente de voz codifica la señal de voz por tramas, empaqueta la voz comprimida en octetos de bits de información, o en paquetes, y envía estos paquetes por la red. Después de alcanzar el sistema de voz de destino, los octetos de bits de información son desempaquetados resultando en tramas y decodificados. El codificador de voz de tasa dual G.723.1, descrito en la recomendación de la ITU-T G.723.1, "Dual Rate Speech Coder for Multimedia Communications Transmitting at 5.3 and 6.3 kbits/s," de marzo de 1996 (de aquí en adelante "Referencia 1") fue ratificado por la ITU-T en 1996 y ha sido utilizado desde entonces para incorporar servicios de voz sobre varias redes de conmutación de paquetes al igual que sobre redes de comunicaciones móviles. Con una puntuación de opinión promedio de 3,98 sobre 5,0 (véase, Thryft, A.R., "Voice over IP Looms for Intranets in '98," Electronic Engineering Times, agosto de 1997, ejemplar 967, páginas 79, 102, indicado como "Referencia 2" de aquí en adelante), la calidad de conexión telefónica interurbana de corta distancia de la recomendación G.723.1 es ideal para aplicaciones multimedia en tiempo real sobre redes privadas y de área local (LANs) donde la pérdida de paquetes es mínima. Sin embargo, en redes de área extensa (WANs), redes de área global (GANs), y redes de comunicaciones móviles, la congestión puede ser grave, y la pérdida de paquetes puede resultar en una voz fuertemente degradada si no se trata al respecto. Por tanto, es necesario desarrollar técnicas para reconstruir en el receptor las tramas de voz perdidas para minimizar la distorsión y mantener una inteligibilidad de la salida.

La siguiente exposición del codificador de tasa dual G.273.1 y su ocultación de errores facilitará una mayor comprensión de la invención.

El codificador de tasa dual G.273.1 codifica voz modulada según modulación por impulsos codificados (PCM) lineal de 16 bits, muestreada a una frecuencia de 8 KHz, utilizando codificación predictiva lineal de análisis por síntesis. La señal de excitación para el codificador de tasa alta resulta de una Cuantificación por Máxima Probabilidad de Impulsos Múltiples (MP-MLQ) mientras que la señal de excitación para el codificador de tasa baja resulta de una Predicción Lineal con Excitación por Código Algebraico (ACELP). El codificador funciona con una duración de trama de 30 ms, lo que equivale a una longitud de trama de 240 muestras, y divide cada trama en cuatro subtramas de 60 muestras cada una. Para cada trama de voz de 30 ms, se calcula un filtro de codificación de predicción lineal (LPC) de orden 10 y sus coeficientes son cuantificados en forma de parámetros de un par de líneas espectrales (LSP) para ser transmitidos al decodificador. Finalmente, la señal de excitación, que consiste en la ganancia de libro de código fijo, las posiciones de los pulsos, los signos de los pulsos y el índice de cuadrícula, es aproximada utilizando o bien MP-MLQ para el codificador de tasa alta o ACELP para el codificador de tasa baja, y se transmite al decodificador. En suma, el tren de bits enviado desde el codificador al decodificador consiste en los parámetros LSP, los retardos de libro de código adaptativo, las ganancias de libro de código fijo y adaptativos, las posiciones de los pulsos, los signos de los pulsos y el índice de cuadrícula.

En el decodificador, se decodifican los parámetros LSP y el filtro de síntesis LPC genera la voz reconstruida. Para cada subtrama, las contribuciones del libro de código fijo y del libro de código adaptativo se envían a un postfiltro de tono fundamental de la voz (pitch postfilter), cuya salida entra en el filtro de síntesis LPC. La salida del filtro de síntesis se envía entonces a un postfiltro conformador y a un sistema de escalado de ganancia para generar la salida sintetizada. En el caso de que se indiquen borrados de trama, se aporta una estrategia de ocultación de errores, descrita en la siguiente subsección. La figura 1 muestra un diagrama de bloques del decodificador G.723.1.

Si tiene lugar una pérdida de paquetes, la ocultación de errores de la actual recomendación G.723.1 implica dos etapas principales. La primera etapa es la recuperación de un vector LSP y la segunda etapa es la recuperación de la señal de excitación. En la primera etapa, se recupera el vector LSP de la trama perdida aplicando un predictor lineal fijo sobre el vector LSP decodificado previamente. En la segunda etapa, la señal de excitación de la trama perdida se recupera utilizando sólo la información reciente disponible en el decodificador. Esto se logra configurando en primer lugar el clasificador de trama vocal/no-vocal respecto la trama anterior utilizando una función de maximización de la correlación cruzada y comprobando después la ganancia de predicción para el mejor vector. Si la ganancia es mayor que 0,58 dB, la trama es declarada trama vocal, y en el caso contrario, se declara la trama como trama de no vocal. Entonces el clasificador devuelve un valor de 0 si la trama previa es no vocal, o retorna el periodo fundamental de la voz (pitch lag) si la trama previa es vocal. En el caso de que no sea vocal, entonces se genera la excitación de la trama perdida utilizando un generador de números aleatorios de distribución uniforme y se escala según el promedio de las ganancias de las subtramas 2 y 3 de la trama previa. Si no, en el caso de que sea vocal, se atenúa la trama vocal en 2,5 dB y se regenera con una excitación periódica que tiene un periodo igual al periodo fundamental estimado. Si se siguen perdiendo paquetes de las dos tramas siguientes, la excitación regenerada se atenúa en unos 2,5 dB adicionales para cada trama, pero después de tres tramas interpoladas, la salida es silenciada completamente, tal como se describe en la Referencia 1.

La estrategia de ocultación de errores de la recomendación G.723.1 fue comprobada enviando varios segmentos de voz sobre una red con niveles de pérdida de paquetes de 1%, 3%, 6%, 10% y 15%. Para cada nivel se simuló tanto pérdidas múltiples como pérdidas individuales. Mediante una serie de pruebas informales de escucha, se demostró que aunque la calidad global de salida fue muy buena en el caso de niveles bajos de pérdida de paquetes, un cierto número de problemas persistieron y se hicieron progresivamente graves a todos los niveles a medida que la pérdida de paquetes aumentaba.

En primer lugar, algunas partes del segmento de salida sonaron poco naturales y contenían muchos efectos molestos de sonido metálico. La calidad de sonido poco natural de la salida puede atribuirse a la recuperación del vector LSP en base a un predictor fijo como se ha descrito previamente. Ya que el vector LSP de la trama perdida se recupera aplicando un predictor fijo sobre el vector LSP de las tramas previas, los cambios espectrales entre las tramas previas y las tramas reconstruidas no son suaves. Como resultado del fracaso en la generación de cambios espectrales suaves para las tramas perdidas, se obtiene una calidad sonido poco natural, que aumenta la ininteligibilidad cuando se dan altos niveles de pérdida de paquetes. Además, se escucharon muchos efectos indeseados de sonido metálico en la salida. Estos efectos de sonido metálico tenían lugar principalmente en las regiones consideradas no vocales de la salida, y se deben a la estimación incorrecta de la trama previa durante la recuperación de la señal de excitación. En otras palabras, ya que un trama perdida considerada no vocal puede ser clasificada como vocal, entonces el cambio hacia la trama perdida generará un transitorio de alta frecuencia, o efecto de sonido metálico, debido a la aplicación del periodo fundamental calculado para la trama previa. A medida que la pérdida de paquetes aumenta, este problema se hace más grave, debido a que la estimación incorrecta de la voz genera una distorsión mayor.

Otro problema al utilizar la ocultación de errores de la recomendación G.723.1 fue la presencia de picos de alta energía en la salida. Estos picos de alta energía, que son especialmente molestos al oído, se deben a la estimación incorrecta de los coeficientes LPC durante el postfiltrado conformador, debido a la predicción pobre de los parámetros LSP o de ganancia, utilizando las predicciones fijas del G.273.1 de parámetros LSP y de recuperación de excitación. Una vez más, a medida que la pérdida de paquetes aumenta, el número de picos de alta energía también aumenta, comportando una mayor distorsión e incomodidad para el oyente.

Finalmente, la voz entrecortada que resulta de silenciar completamente la salida fue evidente. Ya que la ocultación de errores de la recomendación G.723.1 no reconstruye más de tres tramas perdidas consecutivas, todas las tramas restantes son simplemente silenciadas, conduciendo por tanto a fragmentos de silencio en la salida o voz entrecortada. Cuando aumenta la pérdida de paquetes, ya que la probabilidad de que se produzca pérdida en una red de más de tres paquetes consecutivos es alta, aumentará la voz entrecortada y con ello disminuye la inteligibilidad y la distorsión a la salida.

Debe hacerse referencia al documento EP-A-0.459.358 que describe un decodificador de voz cuyo objetivo es obtener una voz reproducida de alta calidad con sólo una ligera deterioración de la calidad de sonido. Para recuperar parámetros de una trama perdida, un circuito interpolador interpola entre parámetros de tramas pasadas y de tramas futuras adecuadas.

Sumario de la invención

Es un objetivo de la presente invención eliminar los problemas anteriores y mejorar la estrategia de ocultación de errores definida en la Referencia 1. Estos y otros objetivos se logran mediante una técnica mejorada de recuperación de trama perdida que emplea interpolación lineal, atenuación de energía selectiva y ponderación de energía.

Según la presente invención, se proporciona un método para recuperar una trama perdida para un sistema del tipo en el que se transmite información en tramas sucesivas de señales codificadas y en el que la información se reconstruye a partir de dichas señales codificadas en un receptor, comprendiendo dicho método:

: almacenar las señales codificadas de una primera trama anterior a dicha trama perdida;

: almacenar las señales codificadas de una segunda trama posterior a dicha trama perdida;

: interpolar entre las señales codificadas de dichas primera y segunda trama para obtener unas señales codificadas correspondientes a dicha trama perdida;

: calcular un periodo fundamental estimado y una ganancia de predicción para la primera trama; y

: clasificar dicha trama perdida como trama vocal o no vocal en base a dicha ganancia de predicción y periodo fundamental estimado de la primera trama.

La interpolación lineal de los parámetros del modelo de voz es una técnica diseñada para obtener cambios suaves de espectro según se producen borrados de trama, eliminando por tanto de la salida cualquier sonido poco natural o efectos de sonido metálico en la voz. La interpolación lineal funciona de la siguiente forma: 1) En el decodificador, se incorpora una memoria provisional para almacenar la trama o paquete de voz futuro. La información previa o futura que se almacena en la memoria provisional se utiliza para interpolar los parámetros del modelo de voz de la trama perdida, generando por tanto cambios más suaves en el espectro según se producen las sucesivas tramas perdidas que si tan sólo se utilizase un predictor fijo, tal como ocurre en la ocultación de errores de la recomendación G.723.1; 2) La clasificación de la naturaleza vocal o no vocal de los paquetes se basa entonces tanto en el valor de periodo fundamental estimado como en la ganancia de predicción de la trama previa, en oposición al simple uso de la ganancia de predicción en la ocultación de errores de la recomendación G.723.1; esto mejora la probabilidad de estimación correcta de la naturaleza vocal de la trama perdida. Aplicando la primera parte de la técnica de interpolación lineal se logra un sonido de voz más natural; aplicando la segunda parte de la técnica de interpolación lineal, casi todos los efectos indeseados de sonido metálico son enmascarados de forma efectiva.

Para eliminar los efectos de los picos de alta energía, se desarrolló una técnica selectiva de atenuación de energía. Esta técnica compara la energía de señal para cada subtrama sintetizada respecto a un valor umbral, y si se supera el umbral, atenúa todas las energías de señal de toda la trama a un nivel aceptable. Combinada con la interpolación lineal, esta técnica de atenuación selectiva de la energía elimina de forma efectiva de la salida todas las apariciones de picos de alta energía.

Finalmente, se diseñó una técnica de ponderación de energía para eliminar los efectos de voz "entrecortada". Siempre que se pierdan en exceso múltiples paquetes de una trama, esta técnica simplemente repite la trama válida anterior para cada trama perdida, reduciendo gradualmente la energía de señal de la trama repetida. Al emplear esta técnica, la energía de la señal de salida es gradualmente suavizada o ponderada durante las pérdidas de múltiples paquetes, eliminando de ese modo cualquier fragmento de silencio o efecto de voz "entrecortada" evidente en la ocultación de errores de la recomendación G.723.1. Otra ventaja de la ponderación de energía es la relativamente pequeña cantidad de tiempo de cálculo requerido para la reconstrucción de los paquetes perdidos. En comparación con la ocultación de errores de la recomendación G.723.1, debido a que esta técnica sólo implica una atenuación gradual de las energías de señal de las tramas repetidas, frente a la realización de la predicción fija de parámetros LSP y la recuperación de la excitación de la recomendación G.723.1, el retardo algorítmico total es considerablemente inferior.

Breve descripción de los dibujos

La invención se comprenderá con mayor claridad a partir de la siguiente descripción, considerada conjuntamente con los dibujos adjuntos, en los que:

La figura 1 es un diagrama de bloques que muestra el funcionamiento del decodificador G.723.1;

La figura 2 es un diagrama de bloques que ilustra el uso de las memorias provisionales Futuro, Actual y Copia en la técnica de interpolación según la presente invención;

Las figuras 3a a 3c son formas de onda que ilustran la eliminación de picos de alta energía mediante la técnica de ocultación de errores de la presente invención; y

Las figuras 4a a 4c son formas de onda que ilustran la eliminación del silenciado de la salida mediante la técnica de ocultación de errores según la presente invención.

Descripción detallada de la invención

La presente invención comprende tres técnicas utilizadas para eliminar los problemas expuestos anteriormente que provienen de la ocultación de errores de la recomendación G.723.1, principalmente, voz que suena poco natural, efectos de sonido metálico, picos de alta energía y voz "entrecortada". Nótese que las técnicas de ocultación de errores descritas se pueden aplicar sobre diferentes tipos de Codificación Predictiva Lineal paramétrica (LPC) basada en codificadores de voz (por ejemplo, APC, RELP, RPE-LPC, MPE-LPC, CELP, SELF, CELB-BB, LD-CELP y VSELP) al igual que sobre diferentes redes de conmutación de paquetes (por ejemplo, la red Internet, una red de Modo de Transferencia Asíncrono (ATM) y una red de Retransmisión de Trama (FR)) y de comunicaciones móviles (por ejemplo, vía satélite y celulares digitales). De ese modo, aunque la invención se describirá en el contexto del codificador G.273.1 MP-MLQ de 6,3 Kbps sobre Internet, utilizando terminología asociada a este codificador de voz concreto y a esta red concreta, la invención no queda limitada por ello, si no que se puede aplicar a otros codificadores de voz basados en LPC (por ejemplo, el codificador ACELP de tasa baja, al igual que otros codificadores similares) y a redes diferentes.

Interpolación lineal

La interpolación lineal de los parámetros del modelo de voz se desarrolló para suavizar los cambios espectrales según un único borrado de trama (por ejemplo, una trama perdida entre dos tramas válidas) y por tanto, generar una salida con un sonido más natural eliminando de la misma efectos de sonido metálico. La configuración del sistema de interpolación lineal se ilustra en la figura 2. La interpolación lineal requiere tres memorias provisionales - la memoria "Futuro", la memoria "Actual" y la memoria "Copia", siendo el tamaño de cada una equivalente a la longitud de una trama de 30 ms. Estas memorias provisionales son colocadas en el receptor antes de que tenga lugar la decodificación y la síntesis. Antes de describir esta técnica, es necesario primero definir los siguientes términos según se aplican a la interpolación lineal:

Trama previa, es la última trama válida que fue procesada por el decodificador, y se almacena en la memoria Copia.

Trama actual, es un trama válida o perdida, que está siendo procesada actualmente por el decodificador, y se almacena en la memoria Actual.

Trama futura, es una trama válida o perdida inmediatamente posterior a la trama actual, y se almacena en la memoria Futuro.

La interpolación lineal es un procedimiento de múltiples etapas que funciona como sigue:

1. La memoria Actual almacena la trama válida actual que va a ser procesada mientras la memoria Futuro almacena la trama futura de la secuencia de voz codificada. Se realiza una copia de los parámetros del modelo de voz de la trama actual y se almacena en la memoria Copia.

2. Se determina el estado, o bien válida o bien perdida, de la trama futura. Si la trama futura es válida, no es necesaria la interpolación lineal; y el indicador de interpolación lineal se pone a cero. Si la trama futura es una trama perdida, será necesaria la interpolación lineal; y el indicador de interpolación lineal se pone provisionalmente a 1. (En un sistema en tiempo real, se detecta una trama perdida o bien por expiración de temporización o por fallo de la Prueba de Redundancia Cíclica (CRC), en el receptor. Sin embargo, estos algoritmos de detección de trama perdida no forman parte de la invención, pero deben tenerse en cuenta y ser incorporados en el decodificador para facilitar el adecuado funcionamiento de cualquier estrategia de reconstrucción de paquetes.)

3. La trama actual es descodificada y sintetizada. Se realiza una copia del filtro de síntesis LPC y de la excitación postfiltrada del periodo fundamental correspondientes a la trama actual.

4. La trama futura, originalmente almacenada en la memoria Futuro, pasa a ser la trama actual y se almacena en la memoria Actual. La siguiente trama de la secuencia de voz codificada llega como trama futura a la memoria Futuro.

5. Se comprueba el valor del indicador de interpolación lineal. Si el indicador está a 0, el proceso retrocede a la etapa (1). Si el indicador está a 1, el proceso pasa a la etapa (6).

6. Se determina el estado de la trama futura. Si la trama futura es válida, se aplica interpolación lineal; el indicador de interpolación lineal se mantiene a 1 y el proceso pasa a la etapa (7). Si la trama futura es una trama perdida, se aplica ponderación de energía; el indicador de ponderación de energía se pone a 1 y el indicador de interpolación lineal se pone a cero. (Nota: La técnica de ponderación de energía se aplica sólo en el caso de múltiples tramas perdidas y se describirá más tarde en esta memoria).

7. Se realiza la recuperación de los parámetros LSP. Aquí, se promedian los vectores LSP de orden 10 correspondientes a las tramas válidas previa y futura, almacenadas en la memoria Copia y en la memoria Futuro respectivamente, para obtener el vector LSP de la trama actual.

8. Se realiza la recuperación de la señal de excitación. Aquí, se promedian las ganancias de libro de código fijo correspondientes a las tramas previa y futura, almacenadas en las memorias Copia y Futuro, para obtener la ganancia de libro de código fijo correspondiente a la trama perdida. El resto de parámetros del modelo de voz se toman de la trama previa.

9. Se realiza la estimación del periodo fundamental y de la ganancia de predicción de la trama previa, almacenada en la memoria Copia, con el mismo procedimiento idéntico de la ocultación de errores de la recomendación G.723.1.

10. Si la ganancia de predicción es menor que 0,58 dB, se declara la trama como trama no vocal, y la señal de excitación correspondiente a la trama actual se genera utilizando un generador de números aleatorios y se escala mediante la ganancia de libro de código fijo calculada en la etapa (8).

11. Si la ganancia de predicción es mayor que 0,58 dB y el periodo fundamental estimado supera un cierto valor umbral P_{umbral}, la trama es declarada como trama vocal, y la señal de excitación correspondiente a la trama actual se genera atenuando primero la señal de excitación previa en 1,25 dB cada dos subtramas, y regenerando luego esta señal de excitación con un periodo igual al periodo fundamental estimado. En caso contrario, la trama se declara como trama vocal y la señal de excitación se recupera del mismo modo que en la etapa (10).

12. Después de la recuperación de los parámetros LSP y de la señal de excitación, se decodifica y se sintetiza la trama actual con sus parámetros LSP y de ganancias recién interpolados, y el procedimiento retrocede a la etapa (13).

13. La trama futura, originalmente en la memoria Futuro pasa a ser la trama actual y se almacena en la memoria Actual. La siguiente trama de la secuencia de voz codificada llega a modo de trama futura a la memoria Futuro. El procedimiento vuelve entonces a la etapa (1).

Existen al menos dos ventajas importantes de la interpolación lineal frente a la ocultación de errores de la recomendación G.723.1. La primera ventaja tiene lugar en la etapa (7), durante la recuperación de los parámetros LSP. En la etapa (7), debido a que la interpolación lineal determina los parámetros LSP de la trama perdida en base a las tramas previa y futura, esto proporciona una mejor estimación de los parámetros LSP de la trama perdida, permitiendo por tanto suavizar más los cambios espectrales durante la trama perdida que si se utilizase predicción fija de parámetros LSP, como es el caso de la ocultación de errores de la recomendación G.723.1. Como resultado se genera una voz con sonido más natural e inteligible, aumentando por tanto la comodidad para el oyente.

La segunda ventaja de la interpolación lineal ocurre en las etapas (8) a (11), durante la recuperación de excitación. En primer lugar, en la etapa (8), ya que la interpolación lineal genera los parámetros de ganancia de la trama perdida promediando las ganancias de libro de código fijo entre las tramas previa y futura, proporciona una mejor estimación de la ganancia de trama perdida, al contrario de la técnica descrita en la ocultación de errores de la recomendación G.723.1. Esta ganancia interpolada, que se aplica entonces a las tramas vocales en la etapa (10), genera por tanto unas transiciones de ganancia más suaves, de sonido más agradable durante el borrado de tramas. En segundo lugar, en la etapa (11), la clasificación según la naturaleza vocal de la trama se basa tanto en la ganancia de predicción como en el periodo fundamental estimado, al contrario de sólo basarse en la ganancia de predicción tal como ocurre en la ocultación de errores de la recomendación G.723.1. Es decir, las tramas cuya ganancia de predicción es mayor que 0,58 dB también se comparan con un valor umbral de periodo fundamental, P_{umbral}. Debido a que las tramas no vocales están compuestas de componentes espectrales principalmente de alta frecuencia, aquellas tramas que tienen unos periodos fundamentales estimados pequeños, y por tanto frecuencias fundamentales estimadas altas, tienen por tanto una alta probabilidad de ser tramas no vocales. Así pues, aquellas tramas cuyos periodos fundamentales estimados caen por debajo de P_{umbral} son declaradas tramas no vocales y todas aquellas cuyos periodos fundamentales estimados superan P_{umbral} son declaradas tramas vocales. En resumen, mediante la determinación selectiva de la clasificación de la naturaleza vocal de una trama en base tanto a la ganancia de predicción como al periodo fundamental estimado, la técnica de esta invención enmascara de forma efectiva todas las apariciones de efectos de alta frecuencia de sonido metálico que tienen lugar en la salida. Como resultado, se aumenta globalmente la inteligibilidad y la comodidad del oyente.

Atenuación selectiva de energía

La atenuación selectiva de energía se desarrolló para eliminar la aparición de picos de alta energía que se escuchan cuando se utiliza la ocultación de errores de la recomendación G.723.1. En referencia a la figura 1, estos picos de alta energía se generan debido a una estimación incorrecta de los coeficientes LPC durante el postfiltrado conformador, debido a la predicción pobre de los parámetros LSP o de ganancia de la ocultación de errores de la recomendación G.723.1. Para proporcionar mejores estimadores de los parámetros LSP y de ganancia de una trama perdida, se desarrolló la interpolación lineal tal como se ha descrito anteriormente. Además, la energía de señal para cada subtrama sintetizada, después del postfiltrado conformador, se compara con un valor umbral de energía S_{umbral}. Si la energía de señal para cualquiera de las cuatro subtramas supera S_{umbral}, entonces las energías de señal de todas las subtramas restantes son atenuadas a un nivel de energía aceptable S_{max}. Esta técnica de atenuación selectiva de energía, combinada con la interpolación lineal elimina todas las apariciones de picos de alta energía, sin degradar notablemente la salida. Se aumenta globalmente la inteligibilidad de la voz y la comodidad del oyente. La figura 3b muestra la presencia de un pico de alta energía debido a la ocultación de errores de la recomendación G.723.1; la figura 3c muestra la eliminación del pico de alta energía debido a atenuación selectiva de energía e interpolación lineal.

Ponderación de energía

La ponderación de energía se desarrolló para eliminar los efectos de voz "entrecortada" generados por la ocultación de errores de la recomendación G.723.1. Como ya se ha citado, la voz "entrecortada" se produce cuando la ocultación de errores de la recomendación G.723.1 silencia completamente la salida después de recuperar tres tramas perdidas. Como resultado, se generan fragmentos de silencio en la salida, reduciendo por tanto la inteligibilidad y produciendo voz "entrecortada". Para eliminar este problema se diseñó una técnica de ponderación de energía de múltiples etapas. En relación a la figura 2, está técnica funciona como sigue:

1. La memoria provisional Actual almacena la trama válida actual que va a ser procesada mientras la memoria provisional Futuro almacena la trama futura de la secuencia de voz codificada. Se realiza una copia de los parámetros del modelo de voz de la trama actual y se almacenan en la memoria provisional Copia.

2. Se determina el estado, o bien válida o bien perdida, de la trama futura. Si la trama futura es válida, no es necesaria la interpolación lineal; y el indicador de interpolación lineal se pone a cero. Si la trama futura es una trama perdida, será necesaria la interpolación lineal; y el indicador de interpolación lineal se pone provisionalmente a 1.

3. La trama actual es descodificada y sintetizada. Se realiza una copia del filtro de síntesis LPC y de la excitación postfiltrada correspondiente al periodo fundamental de la trama actual.

6. Se determina el estado de la trama futura. Si la trama futura es válida, se aplica interpolación lineal tal como se ha descrito en el apartado 3.1. Si la trama futura es una trama perdida, se aplica ponderación de energía; el indicador de ponderación de energía se pone a 1, el indicador de interpolación lineal se pone a 0, y el procedimiento pasa a la etapa (7).

7. La copia de la señal de excitación postfiltrada correspondiente al periodo fundamental de la trama previa, de la etapa (3), es atenuada en (0,5 x valor del indicador de ponderación de energía) dB.

8. La copia del filtro de síntesis LPC de la trama previa, de la etapa (3), se utiliza para sintetizar la trama actual utilizando la señal de excitación atenuada de la etapa (7).

9. La trama futura, originalmente en la memoria Futuro pasa a ser la trama actual y se almacena en la memoria Actual. La siguiente trama de la secuencia de voz codificada llega a modo de trama futura a la memoria Futuro.

10. Se sintetiza la trama actual utilizando las etapas (7) a (9), pasando entonces a la etapa (11).

11. Se determina el estado de la trama futura. Si la trama futura es válida, no se aplica ponderación de energía adicional; el indicador de ponderación de energía se pone a 0, y el procedimiento pasa a la etapa (12). Si la trama futura es una trama perdida, se aplica ponderación de energía adicional; se incrementa en 1 el indicador de ponderación de energía y el procedimiento pasa a la etapa (11).

12. La trama futura, originalmente en la memoria Futuro pasa a ser la trama actual y se almacena en la memoria Actual. La siguiente trama de la secuencia de voz codificada llega a modo de trama futura a la memoria Futuro. El procedimiento vuelve entonces a la etapa (1).

Empleando esta técnica, la energía de la señal de salida es ponderada gradualmente a medida que se producen pérdidas de paquetes, y por tanto, elimina el efecto de voz "entrecortada" que se debe al silenciado total de la salida. La figura 4b muestra la presencia de silenciado total de la salida debido a la ocultación de errores de la recomendación G.723.1; la figura 4c muestra la eliminación del silenciado debido a ponderación de energía. Tal como ilustra la figura 4c, la salida es ponderada gradualmente a medida que se producen pérdidas de paquetes, eliminando por tanto todos los segmentos de silencio puro en la salida y generando una mayor inteligibilidad para el oyente.

Tal como se discute arriba, una de las ventajas claras de la ponderación de energía frente la ocultación de errores de la recomendación G.723.1, a parte de la inteligibilidad mejorada de la salida, es el tiempo de cálculo requerido relativamente menor. Debido a que la ponderación de energía sólo repite el filtro de síntesis LPC de la trama previa y atenúa la ganancia postfiltrada correspondiente al periodo fundamental de la trama previa, el retardo algorítmico total es considerablemente menor comparado con realizar una recuperación de la excitación y de los parámetros LSP a escala completa, como en el caso de la ocultación de errores de la recomendación G.723.1. Esta aproximación minimiza el retardo global con el propósito de proporcionar al usuario un sistema de comunicaciones en tiempo real más robusto.

Resultados mejorados de la invención

Las tres técnicas de ocultación de errores descritas fueron puestas a prueba con varios altavoces bajo niveles de pérdida de paquetes idénticos a los tratados utilizando la ocultación de errores de la recomendación G.723.1. Una serie de pruebas informales de escucha indicaron que para todos los niveles de pérdida de paquetes, la calidad del segmento de voz de salida mejoró significativamente de las siguientes formas: En primer lugar, se logró una voz con sonido más natural y un enmascaramiento efectivo de los efectos de sonido metálico debido a transiciones de espectro más suaves entre tramas perdidas basadas en interpolación lineal y a una clasificación mejorada de la naturaleza vocal. En segundo lugar, se eliminaron todos los picos de alta energía debido a la atenuación selectiva de energía y a la interpolación lineal. Finalmente, se eliminaron todas las apariciones de voz "entrecortada" debido a la ponderación de energía. Es importante darse cuenta de que a medida que aumentan los niveles de congestión de la red, el nivel de pérdidas de paquete también aumenta. Así pues, con el propósito de mantener inteligibilidad de voz en tiempo real, es esencial desarrollar técnicas que oculten con éxito los borrados de trama minimizando a la vez el nivel de degradación a la salida. Las estrategias desarrolladas por los autores representan técnicas que proporcionan una calidad de voz mejorada a la salida, son más robustas en presencia de borrados de trama en comparación con las técnicas descritas en la Referencia 1, y pueden aplicarse fácilmente sobre cualquier codificador de voz paramétrico basado en LPC sobre cualquier red de conmutación de paquetes o de comunicaciones móviles.

Se apreciará que pueden realizarse varios cambios y modificaciones respecto a las formas de realización específicas descritas anteriormente, sin apartarse por ello del alcance de la invención tal como se define en las reivindicaciones adjuntas.

Claims

1. Método para recuperar una trama perdida para un sistema del tipo en el que se transmite información en tramas sucesivas de señales codificadas y en el que la información se reconstruye a partir de dichas señales codificadas en un receptor, comprendiendo dicho método:

: calcular un periodo fundamental de la voz (pitch lag) estimado y una ganancia de predicción para la primera trama;

caracterizado por la etapa de clasificar dicha trama perdida como trama vocal o no vocal en base a dicha ganancia de predicción y periodo fundamental estimado de la primera trama.

2. Método según la reivindicación 1, en el que dichas señales codificadas incluyen una pluralidad de parámetros de Par de Líneas Espectrales (LSP) correspondiente a cada trama, y dicha etapa de interpolación comprende interpolar entre los parámetros LSP de dicha primera trama y los parámetros LSP de dicha segunda trama.

3. Método según la reivindicación 1, en el que cada trama incluye una pluralidad de subtramas, comprendiendo dicho método la etapa de comparar una energía de señal para cada subtrama de una trama particular con un umbral, y atenuar las energías de señal de todas las subtramas de dicha trama particular si la energía de señal de cualquier subtrama supera dicho umbral.

4. Método según la reivindicación 1, en el que en el caso de producirse una pérdida de múltiples tramas sucesivas, dicho método comprende la etapa de repetir las señales codificadas de una trama inmediatamente precedente a dichas múltiples tramas sucesivas mientras se reduce gradualmente la energía de señal de cada trama recuperada.

5. Método según la reivindicación 2, en el que dichas señales codificadas incluyen dichos parámetros LSP, unas ganancias de libro de código fijo y unas señales adicionales de excitación, comprendiendo dicho método interpolar dicha ganancia fija de libro de código de dicha trama perdida a partir de las ganancias de libro de código fijo de dichas primera y segunda trama, y adoptar dichas señales adicionales de excitación de dicha primera trama como señales adicionales de excitación de dicha trama per-
dida.