ES2298261T3

ES2298261T3 - Disimulacion de errores de transmision en una señal de audio.

Info

Publication number: ES2298261T3
Application number: ES01969857T
Authority: ES
Inventors: Balazs Kovesi; Dominique Massaloux; David Deleam
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2000-09-05
Filing date: 2001-09-05
Publication date: 2008-05-16
Anticipated expiration: 2021-09-05
Also published as: AU2001289991A1; DE60132217T2; WO2002021515A1; DE60132217D1; HK1055346A1; EP1316087B1; FR2813722A1; EP1316087A1; IL154728A; US20100070271A1; IL154728A0; JP5062937B2; US20040010407A1; JP2004508597A; US7596489B2; FR2813722B1; ATE382932T1; US8239192B2

Abstract

Proceso de disimulación de error de transmisión en una señal audio-numérica en la cual en la detección (3) de muestras faltantes o erróneas en una señal, se generan muestras de síntesis (5) con la ayuda de al menos un operador de predicción a corto plazo y al menos para los sonidos sonoros un operador de predicción a largo plazo estimado en función de muestras descodificadas de una señal descodificada pasada, dichas muestras descodificadas siendo memorizadas (6) anteriormente cuando los datos transmitidos de dicha señal pasada son válidos, caracterizado porque se controla la energía de la señal de síntesis generada de esta manera con la ayuda de una ganancia calculada y adaptada muestra por muestra según una ley de adaptación que depende de al menos un parámetro de dichas muestras descodificadas memorizadas.

Description

Disimulación de errores de transmisión en una señal de audio.

1. Dominio técnico

La presente invención concierne a las técnicas de disimulación de errores de transmisión consecutivos en los sistemas de transmisión que utilizan cualquier tipo de codificación numérica de la señal de la palabra y/o del sonido.

Se distinguen clásicamente dos grandes categorías de codificadores:

-: los codificadores llamados temporales, que efectúan la compresión de las muestras de señal numerada muestra por muestra (es el caso de los codificadores MIC o MICDA [DAUMER][MAITRE] por ejemplo)

-: y los codificadores paramétricos que analizan las tramas sucesivas de muestras de la señal a codificar para extraer, en cada una de estas tramas, un cierto número de parámetros que son a continuación codificados y transmitidos (caso de los vocodificadores [TREMAIN], de los codificadores IMBE [HARDWICK], o de los codificadores por transformada [BRANDENBURG]).

Existen categorías intermediarias que completan la codificación de los parámetros representativos de los codificadores paramétricos por la codificación de una forma de onda temporal residual. Para simplificar, estos codificadores pueden ser ordenados en la categoría de los codificadores paramétricos.

En esta categoría se encuentran los codificadores predictivos y particularmente la familia de los codificadores de análisis por síntesis tales como el RPE-LTP ([HELLWING]) o los CELP ([ATAL]).

Para todos estos codificadores, los valores codificados son a continuación transformados en un tren binario que será transmitido sobre un canal de transmisión. Según la calidad de este canal y el tipo de transporte, las perturbaciones pueden afectar la señal transmitida y producir errores sobre el tren binario recibido por el descodificador. Estos errores pueden intervenir de manera aislada en el tren binario pero se producen muy frecuentemente por ráfagas. Esto es entonces un paquete de bits que corresponde a una porción completa de señal que es errónea o no recibida. Este tipo de problemas se encuentran por ejemplo en las transmisiones sobre las redes móviles. Se encuentran también en las transmisiones sobre las redes por paquetes y en particular sobre las redes de tipo internet.

Cuando el sistema de transmisión o los módulos cargados de la recepción permiten detectar que los datos recibidos son fuertemente erróneos (por ejemplo en las redes móviles), o que un bloque de datos no haya sido recibido (caso de sistemas de transmisión por paquetes por ejemplo), procedimientos de disimulación de errores son entonces puestos en práctica. Estos procedimientos permiten extrapolar al descodificador las muestras de la señal que falta a partir de las señales y datos disponibles salidos de las tramas que anteceden y eventualmente siguiendo las zonas borradas.

Tales técnicas han sido puestas en práctica principalmente en el caso de los codificadores paramétricos (técnicas de recuperación de las tramas borradas). Las mismas permiten limitar fuertemente la degradación subjetiva de la señal percibida en el descodificador en presencia de tramas borradas. La mayor parte de los algoritmos desarrollados reposan en la técnica utilizada por el codificador y el descodificador, y constituyen de hecho una extensión del descodificador.

Un objetivo general de la invención es mejorar, para cualquier sistema de compresión de la palabra y del sonido, la calidad subjetiva de la señal de palabra restituida en el descodificador cuando, a causa de una mala calidad del canal de transmisión o a continuación de la pérdida o no recepción de un paquete en un sistema de transmisión por paquetes, un conjunto de datos codificados consecutivos se han perdido.

La misma propone a este efecto una técnica que permite disimular los errores de transmisión sucesivos (paquetes de error) cualquiera que sea la técnica de codificación utilizada, la técnica propuesta pudiendo ser utilizada por ejemplo en el caso de los codificadores temporales cuya estructura se presta menos bien a priori para la disimulación de los paquetes de errores.

\vskip1.000000\baselineskip

2. Estado de la técnica anterior

La mayor parte de los algoritmos de codificación de tipo predictivo proponen técnicas de recuperación de tramas borradas ([GSM-FR], [REC G.723.1A], [SALAMI], [HONKANEN], [COX-2], [CHEN-2], [CHEN-3], [CHEN-4], [CHEN-5], [CHEN-6], [CHEN-7], [KROON-2], [WATKINS]). El descodificador es informado de la ocurrencia de una trama borrada de una manera o de otra, por ejemplo en el caso de los sistemas radio-móviles por la transmisión de la información de borrado de trama que proviene del descodificador canal. Los dispositivos de recuperación de tramas borradas tienen por objetivo extrapolar los parámetros de la trama borrada a partir de la (o de las) últimas tramas anteriores consideradas como válidas. Ciertos parámetros manipulados o codificados por los codificadores predictivos presentan una fuerte correlación inter-tramas (caso de los parámetros de predicción a corto plazo, también denominados "LPC" de "Linear Predictive Coding" (ver [RABINER]) que representan la envoltura espectral, y los parámetros de predicción a largo plazo para los sonidos sonorizados, por ejemplo). Debido al hecho de esta correlación es mucho más ventajoso reutilizar los parámetros de la última trama válida para sintetizar la trama borrada que utilizar parámetros erróneos o aleatorios.

Para el algoritmo de codificación CELP (de "Code Excited Linear Prediction", consultar a [RABINER]), los parámetros de la trama borrada son clásicamente obtenidos de la manera siguiente:

-: el filtro LPC es obtenido a partir de los parámetros LPC de la última trama válida sea por re-copia de los parámetros o con introducción de un cierto amortiguamiento (cf. codificador G723.1 [REC G.723.1A]).

-: se detecta la sonorización para determinar el grado de armonicidad de la señal al nivel de la trama borrada ([SALAMI], esta detección ocurre de la manera siguiente:

\sqbullet: en el caso de una señal no sonora:

: una señal de excitación es generada de manera aleatoria (tirada de una palabra de código y ganancia de la excitación pasada ligeramente amortiguada [SALAMI], selección aleatoria en la excitación pasada [CHEN], uso de los códigos transmitidos de manera eventual totalmente erróneos [HONKANEN]...)

\sqbullet: en el caso de una señal sonora:

: el plazo LTP es generalmente el plazo calculado en la trama anterior, eventualmente con una ligera fluctuación ([SALAMI]), la ganancia LTP siendo tomada muy cerca de 1 o igual a 1. La señal de excitación está limitada a la predicción a largo plazo efectuada a partir de la excitación pasada.

En todos los ejemplos citados anteriormente, los procedimientos de disimulación de las tramas borradas están fuertemente vinculados al descodificador y utilizan módulos de este descodificador, como el módulo de síntesis de la señal. Los mismos utilizan también señales intermediarias disponibles en el seno de este descodificador como la señal de excitación pasada y memorizada durante el tratamiento de las tramas válidas que anteceden las tramas borradas.

La mayor parte de los métodos utilizados para disimular los errores producidos por los paquetes perdidos durante el transporte de datos codificados por los codificadores de tipo temporal citan a las técnicas de sustitución de formas de ondas tales como aquellas presentadas en [GOODMAN], [ERDÖL], [AT&T]. Los métodos de este tipo reconstituyen la señal seleccionando porciones de la señal descodificada antes del período perdido y no citan a los modelos de síntesis. Las técnicas de lisado son igualmente puestas en práctica para evitar los artefactos producidos por la concatenación de diferentes señales.

Para los codificadores por transformada, las técnicas de reconstrucción de las tramas borradas se apoyan igualmente en la estructura de codificación utilizada: los algoritmos, tales como [PICTEL, MAHIEUX-2], apuntan a regenerar los coeficientes transformados perdidos a partir de los valores tomados por estos coeficientes antes del borrado.

El método descrito en [PARIKH] puede aplicarse a cualquier tipo de señales; el mismo se basa en la construcción de un modelo sinusoidal a partir de la señal válida descodificada que antecede al borrado, para regenerar la parte de la señal perdida.

Finalmente, existe una familia de técnicas de disimulación de tramas borradas desarrolladas conjuntamente con la codificación canal. Estos métodos, tal como los descritos en [FINGSCHEIDT], se sirven de informaciones proporcionadas por el descodificador canal, por ejemplo las informaciones concernientes al grado de fiabilidad de los parámetros recibidos. Los mismos son fundamentalmente diferentes de la presente invención que no presupone la existencia de un codificador canal.

Un arte anterior que puede ser considerado como el más próximo a la presente invención es el descrito en [COMBESCURE], que proponía un método de disimulación de tramas borradas equivalente al utilizado en los codificadores CELP para un codificador por transformada. Los inconvenientes del método propuesto eran la introducción de distorsiones espectrales audibles (voz "sintética", resonancias parásitas,...), debidas, principalmente al uso de filtros de síntesis a largo plazo mal controlados (componente armónica única en sonidos sonoros, generación de la señal de excitación limitada al uso de porciones de la señal residual pasada). Además, el control de energía se efectuaba en [COMBESCURE] al nivel de la señal de excitación, el objetivo energético de esta señal era mantenido constante durante toda la duración del borrado, lo que engendraba igualmente molestos artefactos. Las mismas consideraciones se aplican al documento US5884010.

3. Presentación de la invención

La invención tal como se define en las reivindicaciones 1, 17 y 18 permite en cuanto a ella la disimulación de las tramas borradas sin distorsión marcada en las tasas de errores más elevadas y/o por intervalos borrados más largos.

La misma propone principalmente un proceso de disimulación de error de transmisión en una señal audio-numérica según la cual se recibe una señal descodificada después de la transmisión, se memorizan las muestras descodificadas cuando los datos transmitidos son válidos, se estima al menos un operador de predicción a corto plazo y al menos un operador de predicción a largo plazo en función de las muestras válidas memorizadas y se generan eventuales muestras faltantes o erróneas en la señal descodificada con la ayuda de los operadores estimados de esta manera.

Según un primer aspecto particularmente ventajoso de la invención, se controla la energía de la señal de síntesis de esta manera generada con la ayuda de una ganancia calculada y adaptada muestra por muestra.

Esto contribuye en particular a mejorar las ejecuciones de la técnica en las zonas de borrado de una duración más larga.

Principalmente, la ganancia para el control de la señal de síntesis es ventajosamente calculada en función de al menos uno de los parámetros siguientes: valores de energía previamente memorizados por las muestras que corresponden a los datos válidos, período fundamental para los sonidos sonoros, o cualquier parámetro que caracteriza el espectro de frecuencias.

De manera ventajosa igualmente, la ganancia aplicada a la señal de síntesis decrece progresivamente en función de la duración durante la cual las muestras de síntesis son generadas.

De manera preferida igualmente, se discriminan en los datos válidos los sonidos estacionarios y los sonidos no estacionarios y se ponen en práctica leyes de adaptación de esta ganancia (velocidad de decrecimiento, por ejemplo), diferentes por una parte para las muestras generadas a continuación de datos válidos que corresponden a sonidos estacionarios y por otra parte para las muestras generadas a continuación de datos válidos que corresponden a sonidos no estacionarios.

Según otro aspecto independiente de la invención, se actualiza en función de las muestras de síntesis generadas el contenido de las memorias utilizadas para el tratamiento de descodificación.

De esta manera, por una parte se limita la eventual desincronización del codificador y del descodificador (ver párrafo 5.1.4 más adelante), y se evitan las bruscas discontinuidades entre la zona borrada reconstruida según la invención y las muestras que siguen a esta zona.

Principalmente, se pone en práctica al menos parcialmente sobre las muestras sintetizadas una codificación análoga a la puesta en práctica en el emisor seguido eventualmente de una operación (eventualmente parcial) de descodificación, los datos obtenidos sirviendo para regenerar las memorias del descodificador.

En particular, esta operación de codificación-descodificación eventualmente parcial puede ser ventajosamente utilizada para regenerar la primera trama borrada porque permite explotar el contenido de las memorias del descodificador antes del corte, cuando estas memorias contienen informaciones no proporcionadas por las últimas muestras válidas descodificadas (por ejemplo en el caso de los codificadores por transformada en adición-recubrimiento, ver párrafo 5.2.2.2.1 punto 10).

Según un aspecto también diferente de la invención, se genera a la entrada del operador de predicción a corto plazo una señal de excitación que, en zona sonora, es la suma de una componente armónica y de una componente débilmente armónica o no armónica, y en zona sonora limitada en la componente no armónica.

Principalmente, la componente armónica es ventajosamente obtenida poniendo en práctica una filtración por medio del operador de predicción a largo plazo aplicado sobre una señal residual calculada poniendo en práctica una filtración a corto plazo inversa sobre las muestras memorizadas.

La otra componente puede ser determinada con la ayuda de un operador de predicción a largo plazo en el cual se aplican perturbaciones (por ejemplo perturbaciones de ganancia, o del período), seudo-aleatorias.

De manera particularmente preferida, para la generación de una señal de excitación sonora, la componente armónica representa las bajas frecuencias del espectro, mientras que la otra componente la parte de alta frecuencia.

Según otro aspecto más, el operador de predicción a largo plazo es determinado a partir de las muestras de tramas válidas memorizadas, con un número de muestras utilizadas para esta estimación que varía entre un valor mínimo y un valor igual a al menos dos veces el período fundamental estimado para el sonido sonoro.

Por otra parte, la señal residual es ventajosamente modificada por tratamientos de tipo no lineal para eliminar picos de amplitud.

Igualmente, según otro aspecto ventajoso, se detecta la actividad vocal estimando los parámetros de ruido cuando la señal es considerada como no activa, y se hacen tender los parámetros de la señal sintetizada hacia los del ruido estimado.

De manera preferencial también, se estima la envoltura espectral del ruido de las muestras descodificadas válidas y se genera una señal sintetizada que evoluciona hacia una señal que posee el mismo desarrollo espectral.

La invención propone igualmente un proceso de tratamiento de señales de sonido, caracterizado porque se pone en práctica una discriminación entre la palabra y los sonidos musicales y cuando se detectan sonidos musicales, se pone en práctica un proceso del tipo precipitado sin estimación de un operador de predicción a largo plazo, la señal de excitación siendo limitada a una componente no armónica obtenida por ejemplo generando un ruido blanco uniforme.

La invención concierne además a un dispositivo de disimulación de error de transmisión en una señal audio-numérica que recibe a la entrada una señal descodificada que le transmite un descodificador y que genera muestras faltantes o erróneas en esa señal descodificada, caracterizado porque comprende medios de tratamiento aptos para poner en práctica el proceso precitado.

La misma comprende igualmente un sistema de transmisión que comprende al menos un codificador, al menos un canal de transmisión, un módulo apto para detectar qué datos transmitidos se han perdido o son fuertemente erróneos, al menos un descodificador y un dispositivo de disimulación de errores que recibe la señal descodificada, caracterizado porque este dispositivo de disimulación de errores es un dispositivo del tipo precitado.

\vskip1.000000\baselineskip

4. Presentación de las figuras

Otras características y ventajas de la invención resultarán también de la descripción que sigue, la cual es puramente ilustrativa y no limitativa y debe ser leída con relación a los dibujos anexados en los cuales:

- la figura 1 es un esquema sinóptico que ilustra un sistema de transmisión conforme a un modo de realización posible de la invención;

- la figura 2 y la figura 3 son esquemas sinópticos que ilustran una puesta en práctica conforme a un modo posible de la invención;

- las figuras 4 a 6 ilustran esquemáticamente las ventanas utilizadas con el proceso de disimulación de errores conforme a un modo de puesta en práctica posible de la invención;

- las figuras 7 y 8 son representaciones esquemáticas que ilustran un modo de puesta en práctica posible de la invención en el caso de señales musicales.

\vskip1.000000\baselineskip

5. Descripción de uno o varios modos de realización posibles de la invención 5.1 Principio de un modo de realización posible

La figura 1 presenta un dispositivo de codificación y descodificación de la señal audio numérica, que comprende un codificador 1, un canal de transmisión 2, un módulo 3 que permite detectar que datos transmitidos se han perdido o son fuertemente erróneos, un descodificador 4, y un módulo 5 de disimulación de errores o paquetes perdidos conforme a un modo de realización posible de la invención.

Se notará que este módulo 5, además de la indicación de los datos borrados, recibe la señal descodificada en período válido y transmite al descodificador señales utilizadas para su actualización.

Más precisamente, el tratamiento puesto en práctica por el módulo 5 se basa en:

1.: la memorización de las muestras descodificadas cuando los datos transmitidos son válidos (tratamiento 6);

2.: durante un bloque de datos borrados, la síntesis de las muestras que corresponden a los datos perdidos (tratamiento 7);

3.: cuando la transmisión es restablecida, el lisado entre las muestras de síntesis producidas durante el período borrado y las muestras descodificadas (tratamiento 8);

4.: la actualización de las memorias del descodificador (tratamiento 9) (actualización que se efectúa ya sea durante la generación de las muestras borradas, ya sea en el momento del restablecimiento de la transmisión).

\vskip1.000000\baselineskip

5.1.1 En período válido

Después de la descodificación de los datos válidos, se actualiza la memoria de las muestras descodificadas, que contienen un número de muestras suficientes para la regeneración de eventuales períodos borrados a continuación. Típicamente, se memoriza del orden de 20 a 40 ms de señal. Se calcula igualmente la energía de las tramas válidas y se retienen en memoria las energías que corresponden a las últimas tramas válidas tratadas (típicamente del orden de 5 s).

5.1.2 Durante un bloque de datos borrados

Se efectúan las operaciones siguientes, ilustradas por la figura 3:

1. Estimación de la envoltura espectral corriente

Se calcula este desarrollo espectral a la manera de un filtro LPC [RABINER] [KLEIJN]. El análisis es efectuado por métodos clásicos ([KLEIJN]) después del ventanaje de las muestras memorizadas en período válido. Principalmente se pone en práctica un análisis LPC (etapa 10) para obtener los parámetros de un filtro A(z), cuyo inverso es utilizado para la filtración LPC (etapa 11). Como los coeficientes de esta manera calculados no son transmitidos, se puede utilizar para este análisis un orden elevado, lo que permite obtener buenas ejecuciones sobre las señales musicales.

2. Detección de los sonidos sonoros y cálculo de los parámetros LTP

Un método de detección de los sonidos sonoros (tratamiento 12 de la figura 3: detección V/NV, por "sonoro/no sonoro") es utilizado sobre los últimos datos memorizados. Por ejemplo se puede utilizar para esto la correlación normalizada ([KLEIJN]), o el criterio presentado en el ejemplo de realización que sigue.

Cuando la señal es declarada sonora, se calculan los parámetros que permitan la generación de un filtro de síntesis a largo plazo, también denominado filtro LTP ([KLEIJN]) (figura 3: análisis LTP, se define por B(z) el filtro inverso LTP calculado). Tal filtro es generalmente representado por un período que corresponde al período fundamental y una ganancia. La precisión de este filtro puede ser mejorada por el uso de pitch fraccionario o de una estructura multi-coeficientes [KROON].

Cuando la señal es declarada no sonora, un valor particular es atribuido al filtro de síntesis LTP (ver párrafo 4).

Es particularmente interesante en esta estimación del filtro de síntesis LTP restringir la zona analizada al final del período anterior al borrado. La longitud de la ventana de análisis varía entre un valor mínimo y un valor ligado al período fundamental de la señal.

3. Cálculo de la señal residual

Se calcula una señal residual por filtración inversa LPC (tratamiento 10) de las últimas muestras memorizadas. Esta señal es a continuación utilizada para generar una señal de excitación del filtro de síntesis LPC 11 (ver abajo).

4. Síntesis de las muestras faltantes

La síntesis de las muestras de reemplazo se efectúa introduciendo una señal de excitación (calculada en 13 a partir de la señal de salida del filtro LPC inverso) en el filtro de síntesis LPC 11 (1/A(z)) calculado en 1. Esta señal de excitación es engendrada de dos maneras diferentes según si la señal es sonora o no sonora:

4.1 En zona sonora

La señal de excitación es la suma de dos señales, una componente fuertemente armónica y la otra menos o nada armónica.

La componente fuertemente armónica es obtenida por filtración LTP (módulo de tratamiento 14) con la ayuda de los parámetros calculados en 2, de la señal residual mencionada en 3.

La segunda componente puede ser obtenida igualmente por filtración LTP pero hecha no periódica por modificaciones aleatorias de los parámetros, por generación de una señal seudo-aleatoria.

Es particularmente interesante limitar la banda pasante de la primera componente en las bajas frecuencias del espectro. De la misma manera será interesante limitar en las más altas frecuencias la segunda componente.

4.2 En zona no sonora

Cuando la señal es no sonora, una señal de excitación no armónica es engendrada. Es interesante utilizar un método de generación similar al utilizado para los sonidos sonoros, con variaciones de parámetros (período, ganancia, signos) que permitan hacerla no armónica.

4.3 Control de la amplitud de la señal residual

Cuando la señal es no sonora, o débilmente sonora, la señal residual utilizada para la generación de la excitación es tratada para eliminar los picos de amplitud significativamente por encima de la media.

5. Control de la energía de la señal de síntesis

La energía de la señal de síntesis es controlada con la ayuda de una ganancia calculada y adaptada muestra por muestra. En el caso donde el período de borrado es relativamente largo, es necesario hacer bajar progresivamente la energía de la señal de síntesis. La ley de adaptación de ganancia es calculada en función de diferentes parámetros: valores de energía memorizados antes del borrado (ver en 1), período fundamental, y estacionalidad local de la señal en el momento del corte.

Si el sistema comprende un módulo que permite la discriminación de los sonidos estacionarios (como la música) y no estacionarios (como la palabra), las leyes de adaptación diferentes pueden también ser utilizadas.

En el caso de codificadores por transformada con adición-recubrimiento, la primera mitad de la memoria de la última trama correctamente recibida contiene informaciones bastante precisas sobre la primera mitad de la primera trama perdida (su peso en la adición-recubrimiento es más importante que el de la trama actual). Esta información puede ser igualmente utilizada para el cálculo de la ganancia adaptativa.

6. Evolución del procedimiento de síntesis con el transcurso del tiempo

En el caso de períodos de borrado relativamente largos, se puede igualmente hacer evolucionar los parámetros de síntesis. Si el sistema está acoplado a un dispositivo de detección de actividad vocal con estimación de los parámetros de ruido (tales como [REC-G.723.1A], [SALAMI-2], [BENYASSINE]), es particularmente interesante hacer tender los parámetros de generación de la señal a reconstruir hacia aquellos del ruido estimado: en particular al nivel de la envoltura espectral (interpolación del filtro LPC con el del ruido estimado, los coeficientes de la interpolación evolucionando con el transcurso del tiempo hasta la obtención del filtro del ruido) y de la energía (nivel que evoluciona progresivamente hacia el del ruido, por ejemplo por ventanaje).

5.1.3 En el restablecimiento de la transmisión

En el restablecimiento de la transmisión, es particularmente importante evitar las rupturas brutales entre el período borrado que se ha reconstruido según las técnicas definidas en los párrafos anteriores y los períodos que siguen, en el curso de los cuales se dispone de toda la información transmitida para descodificar la señal. La presente invención efectúa una ponderación en el dominio temporal con interpolación entre las muestras de reemplazo anterior al restablecimiento de la comunicación y las muestras descodificadas válidas que siguen al período borrado. Esta operación es a priori independiente del tipo de codificador empleado.

En el caso de codificadores por transformada con adición-recubrimiento, esta operación es común con la actualización de las memorias descritas en el párrafo que sigue (ver ejemplo de realización).

5.1.4 Actualización de las memorias del descodificador

Cuando la descodificación de las muestras válidas se retoma después de un período borrado, puede haber una degradación cuando el descodificador utiliza las datos normalmente producidos en las tramas anteriores y memorizados. Es importante actualizar adecuadamente estas memorias para evitar estos artefactos.

Esto es particularmente importante para las estructuras de codificación que utilizan procesos recursivos, que para una muestra o una secuencia de muestras, se sirven de informaciones obtenidas después de la descodificación de las muestras anteriores. Estas son por ejemplo las predicciones ([KLEIJN]) que permiten extraer de la redundancia de la señal. Estas informaciones están normalmente disponibles a la vez en el codificador, que debe para esto haber efectuado para estas muestras anteriores una forma de descodificación local, y en el descodificador distante presente en la recepción. A partir de que el canal de transmisión es perturbado y que el descodificador distante no dispone más de las mismas informaciones que el descodificador local presente en la emisión, hay desincronización entre el codificador y el descodificador. En el caso de sistemas de codificación fuertemente recursivos, esta desincronización puede provocar degradaciones audibles que pueden perdurar largo tiempo incluso amplificarse con el transcurso del tiempo si existen inestabilidades en la estructura. En este caso, es entonces importante esforzarse en re-sincronizar el codificador y el descodificador, es decir, hacer una estimación de las memorias del descodificador lo más cercana posible de las del codificador. Sin embargo las técnicas de resincronización dependen de la estructura de codificación utilizada. Se
presentará una cuyo principio es general en la presente patente, pero cuya complejidad es potencialmente importante.

Un método posible consiste en introducir en el descodificador en la recepción un módulo de codificación del mismo tipo que aquel presente en la emisión, que permite efectuar la codificación-descodificación de las muestras de la señal producida por las técnicas mencionadas en el párrafo anterior durante los períodos borrados. De esta manera las memorias necesarias para descodificar las muestras siguientes, son completadas con datos a priori próximos (bajo reserva de una cierta estacionalidad durante el período borrado) de aquellos que se han perdido. En el caso donde esta hipótesis de estacionalidad no sería respetada, después de un largo período borrado por ejemplo, no se dispone de cualquier manera de informaciones suficientes para actuar mejor.

De hecho no es generalmente necesario efectuar la codificación completa de estas muestras, se limita a los módulos necesarios para actualizar las memorias.

Esta puesta en práctica puede efectuarse en el momento de la producción de las muestras de reemplazo, lo que repartió la complejidad sobre toda la zona de borrado, pero se acumula con el procedimiento de síntesis descrito anteriormente.

Cuando la estructura de codificación lo permite, se puede también limitar el procedimiento de arriba a una zona intermediaria en el principio del período de datos válidos que suceden a un período borrado, el proceso de actualización acumulándose entonces con la operación de descodificación.

5.2. Descripción de ejemplos de realización particulares

Los ejemplos particulares de puesta en práctica posibles son dados a continuación. El caso de los codificadores por transformada de tipo TDAC o TCDM ([MAHIEUX]) es en particular abordado.

5.2.1 Descripción del dispositivo

Sistema de codificación/descodificación numérico por transformada del tipo TDAC.

Codificador en banda amplificada (50-7000 Hz) a 24 kb/s o 32 kb/s.

Trama de 20 ms (320 muestras).

Ventanas de 40 ms (640 muestras) con adición-recubrimientos de 20 ms. Una trama binaria que contiene los parámetros codificados obtenidos por la transformación TDAC sobre una ventana. Después de la descodificación de estos parámetros, haciendo la transformación inversa TDAC, se obtiene una trama de salida de 20 ms que es la suma de la segunda mitad de la ventana anterior y la primera mitad de la ventana actual. Sobre la figura 4, ha sido marcado en grueso las dos partes de ventanas utilizadas para la reconstrucción de la trama n (en temporal). De esta manera, una trama binaria perdida perturba la reconstrucción de dos tramas consecutivas (la actual y la siguiente, figura 5). Por el contrario, haciendo correctamente el reemplazo de los parámetros perdidos, se pueden recuperar las partes de la información que provienen de la trama binaria anterior y siguiente (figura 6), para la reconstrucción estas dos tramas.

5.2.2 Puesta en práctica

Todas las operaciones descritas abajo son puestas en práctica en la recepción, conforme a las figuras 1 y 2, ya sea en el seno del módulo de disimulación de las tramas borradas que comunican con el descodificador, como en el descodificador mismo (actualización de las memorias del descodificador).

5.2.2.1 En período válido

En correspondencia con el párrafo 5.1.2, se actualiza la memoria de las muestras descodificadas. Esta memoria es utilizada para los análisis LPC y LTP de la señal pasada en el caso de un borrado de una trama binaria. En el ejemplo aquí presentado, el análisis LPC es hecho sobre un período de señal de 20 ms (320 muestras). En general, el análisis LTP necesita más muestras a memorizar. En nuestro ejemplo, para poder hacer el análisis LTP correctamente, el número de muestras memorizadas es igual a dos veces el valor máximo del pitch. Por ejemplo, si el valor máximo del pitch MaxPitch está fijado en 320 muestras (50 Hz, 20 ms), las últimas 640 muestras serán memorizadas (40 ms de la señal). Se calcula igualmente la energía de las tramas válidas y se almacenan en un tampón circular de longitud 5s. Cuando una trama borrada es detectada, se compara la energía de la última trama válida con el máximo y con el mínimo de este tampón circular para conocer su energía relativa.

5.2.2.2 Durante un bloque de datos borrados

Cuando una trama binaria es perdida, se distinguen dos casos diferentes:

5.2.2.2.1 Primera trama binaria perdida después de un período válido

Primero, se hace un análisis de la señal memorizada para estimar los parámetros del modelo que sirven para sintetizar la señal regenerada. Este modelo nos permite a continuación sintetizar 40 ms de señal, lo que corresponde a la ventana de 40 ms perdida. Haciendo la transformación TDAC seguida de la transformación inversa TDAC sobre esta señal sintetizada (sin codificación - descodificación de los parámetros), se obtiene la señal de salida de 20 ms. Gracias a estas operaciones TDAC - TDAC inversa, se explota la información que proviene de la ventana anterior correctamente recibida (ver figura 6). Al mismo tiempo, se actualizan las memorias del descodificador. De esta manera, la trama binaria siguiente, si es bien recibida, puede ser descodificada normalmente, y las tramas descodificadas serán automáticamente sincronizadas (figura 6).

Las operaciones a efectuar son las siguientes:

1. Ventanaje de la señal memorizada. Por ejemplo, se puede utilizar una ventana asimétrica de Hamming de 20 ms.

2. Cálculo de la función de autocorrelación sobre la señal ventaneada.

3. Determinación de los coeficientes del filtro LPC. Para esto, clásicamente se utiliza el algoritmo iterativo de Levinson-Durbin. El orden de análisis puede ser elevado, sobre todo cuando el codificador es utilizado para codificar secuencias de música.

4. Detección de sonoridad y análisis a largo plazo de la señal memorizada para la modelización de la eventual periodicidad de la señal (sonidos sonorizados). En la realización presentada, los inventores limitaron la estimación del período fundamental Tp a los valores enteros, y calcularon una estimación del grado de sonoridad bajo la forma del coeficiente de correlación MaxCorr (ver abajo) evaluado en el período seleccionado. Sea Tm = max (T, Fs/200), donde Fs es la frecuencia de muestreo, entonces Fs/200 muestras corresponden a una duración de 5 ms. Para modelizar mejor la evolución de la señal al final de la trama anterior, se calculan los coeficientes de correlación Corr(T) que corresponden a un retardo T utilizando solamente 2^{*}Tm muestras al final de la señal memorizada:

100

donde m_{0}...m_{Lmem-1} es la memoria de la señal descodificada anteriormente. De esta fórmula, se ve que la longitud de esta memoria L_{mem} debe ser al menos 2 veces el valor máximo del período fundamental (también llamado "pitch") MaxPitch.

Se ha fijado igualmente el valor mínimo del período fundamental MinPitch que corresponde a una frecuencia de 600 Hz (26 muestras con Fs = 16 kHz).

Se calcula Corr(T) para T=2, 101, MaxPitch. Si T' es el más pequeño retardo tal que Corr(T')<0 (se eliminan de esta manera las correlaciones a muy corto plazo), entonces se busca MaxCorr, máximo de Corr(T) para T'<T<=MaxPitch. Sea Tp el período que corresponde a MaxCorr (Corr(Tp) = MaxCorr). Se busca igualmente MaxCorrMP, máximo de Corr(T) para T'<T<=0.75*MinPitch. Si Tp<MinPitch o MaxCorrMP > 0.7*MaxCorr y si la energía de la última trama válida es relativamente débil, se decide que la trama es no sonora, porque utilizando la predicción LTP se arriesgaría de obtener una resonancia en las altas frecuencias muy molesta. El pitch escogido es Tp=MaxPitch/2, y el coeficiente de correlación MaxCorr fijado en un valor débil (0.25).

Se considera igualmente la trama como no-sonora cuando más del 80% de su energía se concentra en las últimas MinPitch muestras. Se trata entonces de una salida de la palabra, pero el número de muestras no es suficiente para estimar el período fundamental eventual, es mejor tratarlo como trama no sonora, incluso disminuir más rápidamente la energía de la señal sintetizada (para señalar esto, se pone DiminFlag=1).

En el caso donde MaxCorr > 0.6, se verifica que no se encontró un múltiplo (4, 3 ó 2 veces) del período fundamental. Para esto, se busca el máximo local de la correlación alrededor de Tp/4, Tp/3 y Tp/2. Se nota T_{1} la posición de este máximo, y MaxCorrL = Corr(T_{1}). Si T_{1} > MinPitch y MaxCorrL > 0.75* MaxCorr, se escoge T_{1} como nuevo período fundamental.

Si Tp es inferior a MaxPitch/2, se puede verificar si se trata realmente de una trama sonora buscando el máximo local de la correlación alrededor de 2*TP(TPP) y verificando si Corr(T_{pp})>0.4. Si Corr(T_{pp})<0.4 y si la energía de la señal disminuye, se pone DiminFlag=1 y se disminuye el valor de MaxCorr, si no se busca el máximo local siguiente entre el T_{p} actual y MaxPitch.

Otro criterio de sonorización consiste en verificar si al menos en 2/3 de los casos la señal retardada por el período fundamental tiene el mismo signo que la señal no retardada.

Se verifica esto sobre una longitud igual al máximo entre 5 ms y 2*T_{p}.

Se verifica igualmente si la energía de la señal tiene tendencia a disminuir o no. Si sí, se pone DiminFlag=1 y se hace decrecer el valor de MaxCorr en función del grado de disminución.

La decisión de sonorización tiene en cuenta igualmente la energía de la señal: si la energía es fuerte, se aumenta el valor de MaxCorr, de esta manera es más probable que la trama sea decidida sonora. Por el contrario, si la energía es muy débil, se disminuye el valor de MaxCorr.

Finalmente, se toma la decisión de sonorización en función del valor de MaxCorr: la trama es no sonora si y sólo si MaxCorr < 0.4. El período fundamental T_{p} de una trama no sonora es definido, el mismo debe ser inferior o igual a MaxPitch/2.

\vskip1.000000\baselineskip

5. Cálculo de la señal residual por filtración inversa LPC de las últimas muestras memorizadas. Esta señal residual es almacenada en la memoria ResMem.

6. Igualamiento de la energía de la señal residual. En el caso de una señal no sonora o débilmente sonora (MaxCorr< 0.7), la energía de la señal residual almacenada en ResMem puede cambiar bruscamente de una parte a la otra. La repetición de esta excitación ocasiona una perturbación periódica muy desagradable en la señal sintetizada. Para evitar esto, se asegura que ningún pico de amplitud importante se presente en la excitación de una trama débilmente sonora. Como la excitación es construida a partir de las últimas Tp muestras de la señal residual, se trata este vector de Tp muestras. El método utilizado en nuestro ejemplo es el siguiente:

\sqbullet: Se calcula la media MeanAmpl de los valores absolutos de las últimas Tp_{ }muestras de la señal residual.

\sqbullet: Si el vector de las muestras a tratar contiene n pasajes en cero, se corta en n+1 sub-vectores, el signo de la señal en cada sub-vector siendo entonces invariable.

\sqbullet: Se busca la amplitud máxima MaxAmplSv de cada sub-vector. Si MaxAmplSv>1.5*MeanAmpl, se multiplica el sub-vector por 1.5*MeanAmpl/MaxAmplSv.

\vskip1.000000\baselineskip

7. Preparación de la señal de excitación de una longitud de 640 muestras que corresponde a la longitud de la ventana TDAC. Se distinguen 2 casos según la sonorización:

101 La señal de excitación es la suma de dos señales, una componente fuertemente armónica limitada en banda en las bajas frecuencias del espectro excb y otra menos armónica limitada en las más altas frecuencias exch.

La componente fuertemente armónica es obtenida por filtración LTP del orden 3 de la señal residual:

excb(i) = 0.15*exc(i-Tp-1)+0.7*exc(i-Tp)+0.15*exc(i-Tp+1)

Los coeficientes [0.15, 0.7, 0.15] corresponden a un filtro FIR paso-bajo de 3 dB de atenuación a Fs/4.

La segunda componente es obtenida igualmente por una filtración LTP hecha no periódica por la modificación aleatoria de su período fundamental Tph. Tph es escogido como la parte entera de un valor real aleatorio Tpa. El valor inicial de Tpa es igual a Tp y después el mismo es modificado muestra por muestra adicionándole un valor aleatorio en [-0.5, 0.5]. Además, esta filtración LTP es combinada con una filtración IIR paso alto:

\vskip1.000000\baselineskip

102

\vskip1.000000\baselineskip

La excitación sonora es entonces la suma de estas dos componentes:

Exc(i)=excb(i)+exch(i)

\sqbullet: En el caso de una trama no sonora, la señal de excitación exc es obtenida igualmente por filtración LTP de orden 3 con los coeficientes [0.15, 0.7, 0.15] pero es hecha no periódica por aumento del período fundamental de un valor igual a 1 todas las 10 muestras, e inversión de la señal con una probabilidad de 0.2.

\vskip1.000000\baselineskip

8. Síntesis de las muestras de reemplazo introduciendo la señal de excitación exc en el filtro LPC calculado en 3.

9. Control del nivel de la energía de la señal de síntesis. La energía tiende progresivamente hacia un nivel fijado por adelantado desde la primera trama de reemplazo sintetizado. Este nivel puede ser definido, por ejemplo, como la energía de la trama de salida más débil encontrada durante los últimos 5 segundos anteriores al borrado. Se definen dos leyes de adaptación de la ganancia que son escogidas en función de la bandera DiminFlag calculada en 4. La velocidad de disminución de la energía depende igualmente del período fundamental. Existe una tercera ley de adaptación más radical que es utilizada cuando se detecta que el principio de la señal generada no corresponde bien a la señal original, como es explicado posteriormente (ver punto 11).

\newpage

10. Transformación TDAC sobre la señal sintetizada en 8, como se explica en el principio de este capítulo. Los coeficientes TDAC obtenidos reemplazan los coeficientes TDAC perdidos. A continuación, haciendo la transformación inversa TDAC, se obtiene la trama de salida. Estas operaciones tienen tres objetivos:

\sqbullet: En el caso de la primera ventana perdida, de esta manera se explota la información de la ventana anterior correctamente recibida que contiene la mitad de los datos necesarios para reconstruir la primera trama perturbada (figura 6).

\sqbullet: Se actualiza la memoria del descodificador para la descodificación de la trama siguiente (sincronización del codificador y del descodificador, ver párrafo 5.1.4).

\sqbullet: Se asegura automáticamente la transición continua (sin ruptura) de la señal de salida cuando la primera trama binaria correctamente recibida llega después de un período borrado que se ha reconstruido según las técnicas presentadas arriba (ver párrafo 5.1.3).

11. La técnica de adición-recubrimiento permite verificar si la señal sonora sintetizada corresponde bien a la señal de origen o no porque para la primera mitad de la primera trama perdida el peso de la memoria de la última ventana correctamente recibida es más importante (figura 6). Entonces tomando la correlación entre la primera mitad de la primera trama sintetizada y la primera mitad de la trama obtenida después de las operaciones TDAC 101 TDAC inversa, se puede estimar la similitud entre la trama perdida y la trama de reemplazo. Una correlación débil (<0.65) señala que la señal original es bastante diferente de la obtenida por el método de reemplazo, es mejor disminuir la energía de esta última rápidamente hacia el nivel mínimo.

5.2.2.2.2 Tramas perdidas según la primera trama de una zona borrada

En el párrafo anterior, los puntos 1-6 concernientes al análisis de la señal descodificada que anteceden a la primera trama borrada y que permiten la construcción de un modelo de síntesis (LPC y eventualmente LTP) de esta señal. Para las tramas borradas siguientes, no se rehace el análisis, el reemplazo de la señal perdida está basada sobre los parámetros (coeficientes LPC, pitch, MaxCorr, ResMem) calculados durante la primera trama borrada. Se hacen entonces únicamente las operaciones que corresponden a la síntesis de la señal y a la sincronización del descodificador, con las modificaciones siguientes con relación a la primera trama borrada:

\sqbullet: En la parte de síntesis (puntos 7 y 8), se generan únicamente 320 nuevas muestras, porque la ventana de la transformación TDAC cubre las últimas 320 muestras generadas durante la trama borrada anterior y estas nuevas 320 muestras.

\sqbullet: En el caso donde el período de borrado fuera relativamente largo, es importante hacer evolucionar los parámetros de síntesis hacia los parámetros de un ruido blanco o hacia aquellos con ruido de fondo (ver punto 5 en el párrafo 3.2.2.2). Como el sistema presente en este ejemplo no comprende VAD/CNG, se tiene, por ejemplo, la posibilidad de hacer una o varias de las modificaciones siguientes:

\sqbullet: Interpolación progresiva del filtro LPC con un filtro plano para hacer la señal sintetizada menos coloreada.

\sqbullet: Aumento progresivo del valor del pitch.

\sqbullet: En modo sonoro, se oscila en modo no-sonoro después de un cierto tiempo (por ejemplo cuando la energía mínima es alcanzada).

5.3 Tratamiento específico para las señales musicales

Si el sistema comprende un módulo que permite la discriminación palabra/música, se puede entonces, después de la selección de un modo de síntesis de música poner en práctica un tratamiento específico para las señales musicales. En la figura 7, el módulo de síntesis de música ha sido referenciado por 15, el de la síntesis de palabra por 16 y el conmutador palabra/música por 17.

Tal tratamiento pone en práctica por ejemplo para el modelo de síntesis de música las etapas siguientes, ilustradas en la figura 8:

1. Estimación de la envoltura espectral corriente

Se calcula esta envoltura espectral bajo la forma de un filtro LPC [RABINER][KLEIJN]. El análisis es efectuado por los métodos clásicos ([KLEIJN]). Después del ventanaje de las muestras memorizadas en período válido, se pone en práctica un análisis LPC para calcular un filtro LPC A(z) (etapa 19). Se utiliza para este análisis un orden elevado (>100) con el fin de obtener buenas ejecuciones sobre las señales musicales.

2. Síntesis de las muestras faltantes

La síntesis de las muestras de reemplazo se efectúa introduciendo una señal de excitación en el filtro de síntesis LPC (1/A(z)) calculado en la etapa 19. Esta señal de excitación - calculada en una etapa 20 - es un ruido blanco cuya amplitud es escogida para obtener una señal que tiene la misma energía de las últimas N muestras memorizadas en período válido. En la figura 8, la etapa de filtración es referenciada por 21.

Ejemplo del control de la amplitud de la señal residual

Si la excitación se presenta como un ruido blanco uniforme multiplicado por una ganancia, se puede calcular esta ganancia G como sigue:

Estimación de la ganancia del filtro LPC

El algoritmo de Durbin da la energía de la señal residual. Conociendo igualmente la energía de la señal a modelizar se estima la ganancia G_{LPC} del filtro LPC como la relación de estas dos energías.

Cálculo de la energía objetivo

Se estima la energía objetivo igual a la energía de las últimas N muestras memorizadas en período válido (N es típicamente < la longitud de la señal utilizada para el análisis LPC).

La energía de la señal sintetizada es el producto de la energía del ruido blanco por G^{2} y G_{LPC}. Se escoge G para que esta energía sea igual a la energía objetivo.

3. Control de la energía de la señal de síntesis

Como para las señales de palabra, salvo que la velocidad de disminución de la energía de la señal de síntesis es mucho más lenta, y que la misma no depende del período fundamental (inexistente):

La energía de la señal de síntesis es controlada con la ayuda de una ganancia calculada y adaptada muestra por muestra. En el caso donde el período de borrado es relativamente largo, es necesario hacer bajar progresivamente la energía de la señal de síntesis. La ley de adaptación de la ganancia puede ser calculada en función de diferentes parámetros como los valores de las energías memorizadas antes del borrado, y estacionalidad local de la señal en el momento del corte.

6. Evolución del procedimiento de síntesis con el transcurso del tiempo

Como para las señales de palabra:

En el caso de períodos de borrado relativamente largos, se puede igualmente hacer evolucionar los parámetros de síntesis. Si el sistema es acoplado a un dispositivo de detección de actividad vocal o de señales musicales con estimación de los parámetros de ruido (tal como [REC-G.723.1A], [SALAMI-2], [BENYASSINE]), será particularmente interesante hacer tender los parámetros de generación de la señal a reconstruir hacia aquellos del ruido estimado: en particular al nivel de la envoltura espectral (interpolación del filtro LPC con el del ruido estimado, los coeficientes de la interpolación evolucionando con el transcurso del tiempo hasta obtención del filtro del ruido) y de la energía (nivel que evoluciona progresivamente hacia el del ruido, por ejemplo por ventanaje).

6. Observación general

Como se habrá comprendido, la técnica que acaba de ser descrita presenta la ventaja de ser utilizable con cualquier tipo de codificador; en particular la misma permite remediar los problemas de los paquetes de bits perdidos por los codificadores temporales o por transformada, sobre las señales de palabra y música con buenas ejecuciones: en efecto, en la presente técnica, las únicas señales memorizadas durante los períodos donde los datos transmitidos son válidos, son las muestras salidas del descodificador, información que está disponible cualquiera que sea la estructura de codificación utilizada.

7. Referencias bibliográficas

[AT&T] AT&T (D.A. Kapilow, R.V. Cox) "A high quality low-complexity algorithm for frame erasure concealment (FEC) with G.711". Delayed Contribution D.249 (WP 3/16), ITU, mayo 1999.

[ATAL] B.S. Atal y M.R. Schroeder. "Predictive coding of speech signal and subjectives error criteria". IEEE Trans. on Acoustics, Speech and Signal Processing, 27:247-254, junio 1979.

[BENYASSINE] A. Benyassine, E. Shlomot y H.Y. Su. "ITU-T recommendation G.729 Annex B: A silence compression scheme for use with G.729 optimized for V.70 digital simultaneous voice and data applications". IEEE Communication Magazine, Septiembre 97, PP. 56-63.

[BRANDENBURG] K. H. Brandenburg y M. Bossi. "Overview of MPEG audio: current and future standards for low-bit-rate audio coding". Journal of Audio Eng. Soc., Vol.45-1/2, enero/febrero 1997, PP.4-21.

[CHEN] J. H. Chen, R. V. Cox, Y. C. Lin, N. Jayant y M. J. Melchner. "A low-delay CELP coder for the CCITT 16 kb/s speech coding standard". IEEE Journal on Selected Areas on Communications, Vol.10-5, junio 1992, PP.830-849.

[CHEN-2] J. H. Chen, C. R. Watkins. "Linear prediction coefficient generation during frame erasure or packet loss". Patente US5574825, EP0673018.

[CHEN-3] J. H. Chen, C. R. Watkins. "Linear prediction coefficient generation during frame erasure or packet loss". Patente 884010.

[CHEN-4] J. H. Chen, C. R. Watkins. "Frame erasure or packet loss compensation method". Patente US5550543, EP0707308.

[CHEN-5] J. H. Chen. "Excitation signal synthesis during frame erasure or packet loss". Patente US5615298, EP0673017.

[CHEN-6] J. H. Chen. "Computational complexity reduction during frame erasure of packet loss". Patente
US5717822.

[CHEN-7] J. H. Chen. "Computational complexity reduction during frame erasure or packet loss". Patente
US940212435, EP0673015.

[COX] R. V. Cox. "Three new speech coders from the ITU cover a range of applications". IEEE Communication Magazine, septiembre 97, PP.40-47.

[COX-2] R. V. Cox. "An improved frame erasure concealment method for ITU-T Rec. G728". Delayed contribution D.107 (WP 3/16), ITU-T, enero 1998.

[COMBESCURE] P. Combescure, J. Schnitzler, K. Ficher, R. Kirchherr, C. Lamblin, A. Le Guyader, D. Massaloux, C. Quinquis, J. Stegmann, P. Vary. "A 16,24,32 kbit/s Wideband Speech Codec Based on ATCELP". Proc. of ICASSP conference, 1998.

[DAUMER] W. R. Daumer, P. Mermelstein, X. Maître y I. Tokizawa. "Overview of the ADPCM coding algorithm". Proc. of GLOBECOM 1984, PP.23.1.1-23.1.4.

[ERDÖL] N. Erdöl, C. Castelluccia, A. Zilouchian. "Recovery of Missing Speech Packets Using the Short-Time Energy and Zero-Crossing Measurements" IEEE Trans. on Speech and Audio Processing, Vol.1-3, julio 1993, PP. 295-303.

[FINGSCHEIDT] T. Fingscheidt, P. Vary, "Robust speech decoding: a universal approach to bit error concealment", Proc. of ICASSP conference, 1997, pp.1667-1670.

[GOODMAN] D. J. Goodman, G. B. Lockhart, O. J. Wasem, W. C. Wong. "Waveform Substitution Techniques for Recovering Missing Speech Segments in Packet Voice Communications". IEEE Trans. on Acoustics, Speech and Signal Processing, Vol. ASSP-34, diciembre 1986, PP. 1440-1448.

[GSM-FR] Recommendation GSM 06.11. "Substitution and muting of lost frames for full rate speech traffic channels". ETSI/TC SMG, ver.:3.0.1., febrero 1992.

[HARDWICK] J. C. Hardwick y J. S. Lim. "The application of the IMBE speech coder to mobile communications". Proc. of ICASSP conference, 1991, PP.249-252.

[HELLWIG] K. Hellwig, P. Vary, D. Massaloux, J. P. Petit, C. Galand y M. Rosso. "Speech codec for the European mobile radio system". GLOBECOM conference, 1989, PP. 1065-1069.

[HONKANEN] T. Honkanen, J. Vainio, P. Kapanen, P. Haavisto, R. Salami, C. Laflamme y J. P. Adoul. "GSM enhanced full rate speech codec". Proc. of ICASSP conference, 1997, PP.771-774.

[KROON] P. Kroon, B. S. Atal. "On the use of pitch predictors with high temporal resolution". IEEE Trans. on Signal Processing, Vol. 39-3, marzo. 1991, PP. 733-735.

[KROON-2] P. Kroon. "Linear prediction coefficient generation during frame erasure or packet loss". Patente US5450449, EP0673016.

\newpage

[MAHIEUX] Y. Mahieux, J. P. Petit. "High quality audio transform coding at 64 kbit/s". IEEE Trans. on Com., Vol. 42-11, nov. 1994, PP.3010-3019.

[MAHIEUX-2] Y. Mahieux, "Dissimulation erreurs de transmission", Patente 92 06720 depositada el 3 de junio 1992.

[MAITRE] X. Maitre. "7 kHz audio coding within 64 kbit/s". IEEE Journal on Selected Areas on Communications, Vol. 6-2, febrero 1988, PP. 283-298.

[PARIKH] V. N. Parikh, J. H. Chen, G. Aguilar. "Frame Erasure Concealment Using Sinusoidal Analysis-Synthesis and Its Application to MDCT-Based Codecs". Proc. of ICASSP conference, 2000.

[PICTEL] PictureTel Corporation, "Detailed Description of the PTC (PictureTel Transform Coder)", Contribution ITU-T, SG15/WP2/Q6, 8-9 Octubre 1996 Baltimore meeting, TD7.

[RABINER] L. R. Rabiner, R. W. Schafer. "Digital processing of speech signals". Bell Laboratoires Inc., 1978.

[REC G.723.1A] ITU-T Annex A to recommendation G.723.1 "Silence compression scheme for dual rate speech coder for multimedia communications transmitting at 5.3 & 6.3 kbit/s".

[SALAMI] R. Salami, C. Laflamme, J. P. Adoul, A. Kataoka, S. Hayashi, T. Moriya, C. Lamblin, D. Massaloux, S. Proust, P. Kroon y Y. Shoham. "Design and description of CS-ACELP: a toll quality 8kb/s speech coder". IEEE Trans. on Speech and Audio Processing, Vol. 6-2, marzo 1998, PP. 116-130.

[SALAMI-2] R. Salami, C. Laflamme, J. P. Adoul. "ITU-T G.729 Annex A: Reduced complexity 8 kb/s CS-ACELP codec for digital simultaneous voice and data". IEEE Communication Magazine, septiembre 97, PP. 56-63.

[TREMAIN] T. E. Tremain. "The government standard linear predictive coding algorithm: LPC 10". Speech technology, abril 1982, PP. 40-49.

[WATKINS] C. R. Watkins, J. H. Chen. "Improving 16 kb/s G.728 LD-CELP Speech Coder for Frame Erasure Channels". Proc. of ICASSP conference, 1995, PP. 241-244.

Claims

1. Proceso de disimulación de error de transmisión en una señal audio-numérica en la cual en la detección (3) de muestras faltantes o erróneas en una señal, se generan muestras de síntesis (5) con la ayuda de al menos un operador de predicción a corto plazo y al menos para los sonidos sonoros un operador de predicción a largo plazo estimado en función de muestras descodificadas de una señal descodificada pasada, dichas muestras descodificadas siendo memorizadas (6) anteriormente cuando los datos transmitidos de dicha señal pasada son válidos, caracterizado porque se controla la energía de la señal de síntesis generada de esta manera con la ayuda de una ganancia calculada y adaptada muestra por muestra según una ley de adaptación que depende de al menos un parámetro de dichas muestras descodificadas memorizadas.

2. Proceso según la reivindicación 1, caracterizado porque la ganancia para el control de la señal de síntesis es calculada en función de al menos uno de los parámetros siguientes: valores de energía previamente memorizados para las muestras que corresponden a los datos válidos, período fundamental para los sonidos sonoros, o cualquier parámetro que caracteriza el espectro de frecuencias.

3. Proceso según una de las reivindicaciones anteriores, caracterizado porque la ganancia aplicada a la señal de síntesis decrece progresivamente en función de la duración durante la cual las muestras de síntesis son generadas.

4. Proceso según una de las reivindicaciones anteriores, caracterizado porque se discrimina en los datos válidos los sonidos estacionarios y los sonidos no estacionarios y se ponen en práctica las leyes de adaptación de la ganancia que permiten controlar la señal de síntesis diferentes por una parte para las muestras generadas a continuación de datos válidos que corresponden a sonidos estacionarios y por otra parte para las muestras generadas a continuación de datos válidos que corresponden a sonidos no estacionarios.

5. Proceso según una de las reivindicaciones anteriores, caracterizado porque se actualiza en función de las muestras de síntesis generadas el contenido de memorias utilizadas para el tratamiento de descodificación.

6. Proceso según la reivindicación 5, caracterizado porque se pone en práctica al menos parcialmente sobre las muestras sintetizadas una codificación análoga a aquella puesta en práctica en el emisor seguida eventualmente de una operación de descodificación al menos parcial, los datos obtenidos sirviendo para regenerar las memorias del descodificador.

7. Proceso según la reivindicación 6, caracterizado porque se regenera la primera trama borrada por medio de esta operación de codificación-descodificación, explotando el contenido de las memorias del descodificador antes del corte, cuando dichas memorias contienen informaciones explotables en esta operación.

8. Proceso según una de las reivindicaciones anteriores caracterizado porque se genera a la entrada del operador de predicción a corto plazo una señal de excitación que, en zona sonora, es la suma de una componente armónica y de una componente débilmente armónica o no armónica, y en zona no sonora, limitada por una componente no armónica.

9. Proceso según la reivindicación 8, caracterizado porque la componente armónica es obtenida poniendo en práctica una filtración por medio del operador de predicción a largo plazo aplicado sobre una señal residual calculada poniendo en práctica una filtración a corto plazo inversa sobre las muestras memorizadas.

10. Proceso según la reivindicación 9, caracterizado porque la otra componente es determinada con la ayuda de un operador de predicción a largo plazo en el cual se aplican perturbaciones seudo-aleatorias.

11. Proceso según una de las reivindicaciones 8 a 10, caracterizado porque para la generación de una señal de excitación sonora, la componente armónica está limitada a bajas frecuencias del espectro, mientras que, la otra componente está limitada a altas frecuencias.

12. Proceso según una de las reivindicaciones anteriores, caracterizado porque el operador de predicción a largo plazo es determinado a partir de muestras de tramas válidas memorizadas, con un número de muestras utilizadas para esta estimación que varía entre un valor mínimo y un valor igual a al menos dos veces el período fundamental estimado para el sonido sonoro.

13. Proceso según una de las reivindicaciones anteriores, caracterizado porque la señal residual es tratada de manera no lineal para eliminar los picos de amplitud.

14. Proceso según una de las reivindicaciones anteriores, caracterizado porque detecta la actividad vocal estimando los parámetros de ruido y porque se hacen tender los parámetros de la señal sintetizada hacia los del ruido estimado.

15. Proceso según la reivindicación 14, caracterizado porque se estima la envoltura espectral del ruido de las muestras descodificadas válidas y se genera una señal sintetizada que evoluciona hacia una señal que posee la misma envoltura espectral.

16. Proceso de tratamiento de señales de sonidos, caracterizado porque se pone en práctica una discriminación entre los sonidos sonoros y los sonidos musicales y cuando se detectan los sonidos musicales, se pone en práctica un proceso según una de las reivindicaciones anteriores sin estimación de un operador de predicción a largo plazo.

17. Dispositivo de disimulación de error de transmisión en una señal audio-numérica que recibe a la entrada una señal descodificada que le transmite un descodificador y que genera muestras faltantes o erróneas en esta señal descodificada, caracterizado porque comprende medios de tratamiento aptos para poner en práctica el proceso según una de las reivindicaciones anteriores.

18. Sistema de transmisión que comprende al menos un codificador, al menos un canal de transmisión, un módulo apto para detectar qué datos transmitidos se han perdido o son fuertemente erróneos, al menos un descodificador y un dispositivo de disimulación de errores que recibe la señal descodificada, caracterizado porque este dispositivo de disimulación de errores es un dispositivo según la reivindicación 17.