ES2298261T3 - Disimulacion de errores de transmision en una señal de audio. - Google Patents

Disimulacion de errores de transmision en una señal de audio. Download PDF

Info

Publication number
ES2298261T3
ES2298261T3 ES01969857T ES01969857T ES2298261T3 ES 2298261 T3 ES2298261 T3 ES 2298261T3 ES 01969857 T ES01969857 T ES 01969857T ES 01969857 T ES01969857 T ES 01969857T ES 2298261 T3 ES2298261 T3 ES 2298261T3
Authority
ES
Spain
Prior art keywords
signal
samples
process according
sound
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES01969857T
Other languages
English (en)
Inventor
Balazs Kovesi
Dominique Massaloux
David Deleam
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Application granted granted Critical
Publication of ES2298261T3 publication Critical patent/ES2298261T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Automobile Manufacture Line, Endless Track Vehicle, Trailer (AREA)
  • Arrangements For Transmission Of Measured Signals (AREA)

Abstract

Proceso de disimulación de error de transmisión en una señal audio-numérica en la cual en la detección (3) de muestras faltantes o erróneas en una señal, se generan muestras de síntesis (5) con la ayuda de al menos un operador de predicción a corto plazo y al menos para los sonidos sonoros un operador de predicción a largo plazo estimado en función de muestras descodificadas de una señal descodificada pasada, dichas muestras descodificadas siendo memorizadas (6) anteriormente cuando los datos transmitidos de dicha señal pasada son válidos, caracterizado porque se controla la energía de la señal de síntesis generada de esta manera con la ayuda de una ganancia calculada y adaptada muestra por muestra según una ley de adaptación que depende de al menos un parámetro de dichas muestras descodificadas memorizadas.

Description

Disimulación de errores de transmisión en una señal de audio.
1. Dominio técnico
La presente invención concierne a las técnicas de disimulación de errores de transmisión consecutivos en los sistemas de transmisión que utilizan cualquier tipo de codificación numérica de la señal de la palabra y/o del sonido.
Se distinguen clásicamente dos grandes categorías de codificadores:
-
los codificadores llamados temporales, que efectúan la compresión de las muestras de señal numerada muestra por muestra (es el caso de los codificadores MIC o MICDA [DAUMER][MAITRE] por ejemplo)
-
y los codificadores paramétricos que analizan las tramas sucesivas de muestras de la señal a codificar para extraer, en cada una de estas tramas, un cierto número de parámetros que son a continuación codificados y transmitidos (caso de los vocodificadores [TREMAIN], de los codificadores IMBE [HARDWICK], o de los codificadores por transformada [BRANDENBURG]).
Existen categorías intermediarias que completan la codificación de los parámetros representativos de los codificadores paramétricos por la codificación de una forma de onda temporal residual. Para simplificar, estos codificadores pueden ser ordenados en la categoría de los codificadores paramétricos.
En esta categoría se encuentran los codificadores predictivos y particularmente la familia de los codificadores de análisis por síntesis tales como el RPE-LTP ([HELLWING]) o los CELP ([ATAL]).
Para todos estos codificadores, los valores codificados son a continuación transformados en un tren binario que será transmitido sobre un canal de transmisión. Según la calidad de este canal y el tipo de transporte, las perturbaciones pueden afectar la señal transmitida y producir errores sobre el tren binario recibido por el descodificador. Estos errores pueden intervenir de manera aislada en el tren binario pero se producen muy frecuentemente por ráfagas. Esto es entonces un paquete de bits que corresponde a una porción completa de señal que es errónea o no recibida. Este tipo de problemas se encuentran por ejemplo en las transmisiones sobre las redes móviles. Se encuentran también en las transmisiones sobre las redes por paquetes y en particular sobre las redes de tipo internet.
Cuando el sistema de transmisión o los módulos cargados de la recepción permiten detectar que los datos recibidos son fuertemente erróneos (por ejemplo en las redes móviles), o que un bloque de datos no haya sido recibido (caso de sistemas de transmisión por paquetes por ejemplo), procedimientos de disimulación de errores son entonces puestos en práctica. Estos procedimientos permiten extrapolar al descodificador las muestras de la señal que falta a partir de las señales y datos disponibles salidos de las tramas que anteceden y eventualmente siguiendo las zonas borradas.
Tales técnicas han sido puestas en práctica principalmente en el caso de los codificadores paramétricos (técnicas de recuperación de las tramas borradas). Las mismas permiten limitar fuertemente la degradación subjetiva de la señal percibida en el descodificador en presencia de tramas borradas. La mayor parte de los algoritmos desarrollados reposan en la técnica utilizada por el codificador y el descodificador, y constituyen de hecho una extensión del descodificador.
Un objetivo general de la invención es mejorar, para cualquier sistema de compresión de la palabra y del sonido, la calidad subjetiva de la señal de palabra restituida en el descodificador cuando, a causa de una mala calidad del canal de transmisión o a continuación de la pérdida o no recepción de un paquete en un sistema de transmisión por paquetes, un conjunto de datos codificados consecutivos se han perdido.
La misma propone a este efecto una técnica que permite disimular los errores de transmisión sucesivos (paquetes de error) cualquiera que sea la técnica de codificación utilizada, la técnica propuesta pudiendo ser utilizada por ejemplo en el caso de los codificadores temporales cuya estructura se presta menos bien a priori para la disimulación de los paquetes de errores.
\vskip1.000000\baselineskip
2. Estado de la técnica anterior
La mayor parte de los algoritmos de codificación de tipo predictivo proponen técnicas de recuperación de tramas borradas ([GSM-FR], [REC G.723.1A], [SALAMI], [HONKANEN], [COX-2], [CHEN-2], [CHEN-3], [CHEN-4], [CHEN-5], [CHEN-6], [CHEN-7], [KROON-2], [WATKINS]). El descodificador es informado de la ocurrencia de una trama borrada de una manera o de otra, por ejemplo en el caso de los sistemas radio-móviles por la transmisión de la información de borrado de trama que proviene del descodificador canal. Los dispositivos de recuperación de tramas borradas tienen por objetivo extrapolar los parámetros de la trama borrada a partir de la (o de las) últimas tramas anteriores consideradas como válidas. Ciertos parámetros manipulados o codificados por los codificadores predictivos presentan una fuerte correlación inter-tramas (caso de los parámetros de predicción a corto plazo, también denominados "LPC" de "Linear Predictive Coding" (ver [RABINER]) que representan la envoltura espectral, y los parámetros de predicción a largo plazo para los sonidos sonorizados, por ejemplo). Debido al hecho de esta correlación es mucho más ventajoso reutilizar los parámetros de la última trama válida para sintetizar la trama borrada que utilizar parámetros erróneos o aleatorios.
Para el algoritmo de codificación CELP (de "Code Excited Linear Prediction", consultar a [RABINER]), los parámetros de la trama borrada son clásicamente obtenidos de la manera siguiente:
-
el filtro LPC es obtenido a partir de los parámetros LPC de la última trama válida sea por re-copia de los parámetros o con introducción de un cierto amortiguamiento (cf. codificador G723.1 [REC G.723.1A]).
-
se detecta la sonorización para determinar el grado de armonicidad de la señal al nivel de la trama borrada ([SALAMI], esta detección ocurre de la manera siguiente:
\sqbullet
en el caso de una señal no sonora:
una señal de excitación es generada de manera aleatoria (tirada de una palabra de código y ganancia de la excitación pasada ligeramente amortiguada [SALAMI], selección aleatoria en la excitación pasada [CHEN], uso de los códigos transmitidos de manera eventual totalmente erróneos [HONKANEN]...)
\sqbullet
en el caso de una señal sonora:
el plazo LTP es generalmente el plazo calculado en la trama anterior, eventualmente con una ligera fluctuación ([SALAMI]), la ganancia LTP siendo tomada muy cerca de 1 o igual a 1. La señal de excitación está limitada a la predicción a largo plazo efectuada a partir de la excitación pasada.
En todos los ejemplos citados anteriormente, los procedimientos de disimulación de las tramas borradas están fuertemente vinculados al descodificador y utilizan módulos de este descodificador, como el módulo de síntesis de la señal. Los mismos utilizan también señales intermediarias disponibles en el seno de este descodificador como la señal de excitación pasada y memorizada durante el tratamiento de las tramas válidas que anteceden las tramas borradas.
La mayor parte de los métodos utilizados para disimular los errores producidos por los paquetes perdidos durante el transporte de datos codificados por los codificadores de tipo temporal citan a las técnicas de sustitución de formas de ondas tales como aquellas presentadas en [GOODMAN], [ERDÖL], [AT&T]. Los métodos de este tipo reconstituyen la señal seleccionando porciones de la señal descodificada antes del período perdido y no citan a los modelos de síntesis. Las técnicas de lisado son igualmente puestas en práctica para evitar los artefactos producidos por la concatenación de diferentes señales.
Para los codificadores por transformada, las técnicas de reconstrucción de las tramas borradas se apoyan igualmente en la estructura de codificación utilizada: los algoritmos, tales como [PICTEL, MAHIEUX-2], apuntan a regenerar los coeficientes transformados perdidos a partir de los valores tomados por estos coeficientes antes del borrado.
El método descrito en [PARIKH] puede aplicarse a cualquier tipo de señales; el mismo se basa en la construcción de un modelo sinusoidal a partir de la señal válida descodificada que antecede al borrado, para regenerar la parte de la señal perdida.
Finalmente, existe una familia de técnicas de disimulación de tramas borradas desarrolladas conjuntamente con la codificación canal. Estos métodos, tal como los descritos en [FINGSCHEIDT], se sirven de informaciones proporcionadas por el descodificador canal, por ejemplo las informaciones concernientes al grado de fiabilidad de los parámetros recibidos. Los mismos son fundamentalmente diferentes de la presente invención que no presupone la existencia de un codificador canal.
Un arte anterior que puede ser considerado como el más próximo a la presente invención es el descrito en [COMBESCURE], que proponía un método de disimulación de tramas borradas equivalente al utilizado en los codificadores CELP para un codificador por transformada. Los inconvenientes del método propuesto eran la introducción de distorsiones espectrales audibles (voz "sintética", resonancias parásitas,...), debidas, principalmente al uso de filtros de síntesis a largo plazo mal controlados (componente armónica única en sonidos sonoros, generación de la señal de excitación limitada al uso de porciones de la señal residual pasada). Además, el control de energía se efectuaba en [COMBESCURE] al nivel de la señal de excitación, el objetivo energético de esta señal era mantenido constante durante toda la duración del borrado, lo que engendraba igualmente molestos artefactos. Las mismas consideraciones se aplican al documento US5884010.
3. Presentación de la invención
La invención tal como se define en las reivindicaciones 1, 17 y 18 permite en cuanto a ella la disimulación de las tramas borradas sin distorsión marcada en las tasas de errores más elevadas y/o por intervalos borrados más largos.
La misma propone principalmente un proceso de disimulación de error de transmisión en una señal audio-numérica según la cual se recibe una señal descodificada después de la transmisión, se memorizan las muestras descodificadas cuando los datos transmitidos son válidos, se estima al menos un operador de predicción a corto plazo y al menos un operador de predicción a largo plazo en función de las muestras válidas memorizadas y se generan eventuales muestras faltantes o erróneas en la señal descodificada con la ayuda de los operadores estimados de esta manera.
Según un primer aspecto particularmente ventajoso de la invención, se controla la energía de la señal de síntesis de esta manera generada con la ayuda de una ganancia calculada y adaptada muestra por muestra.
Esto contribuye en particular a mejorar las ejecuciones de la técnica en las zonas de borrado de una duración más larga.
Principalmente, la ganancia para el control de la señal de síntesis es ventajosamente calculada en función de al menos uno de los parámetros siguientes: valores de energía previamente memorizados por las muestras que corresponden a los datos válidos, período fundamental para los sonidos sonoros, o cualquier parámetro que caracteriza el espectro de frecuencias.
De manera ventajosa igualmente, la ganancia aplicada a la señal de síntesis decrece progresivamente en función de la duración durante la cual las muestras de síntesis son generadas.
De manera preferida igualmente, se discriminan en los datos válidos los sonidos estacionarios y los sonidos no estacionarios y se ponen en práctica leyes de adaptación de esta ganancia (velocidad de decrecimiento, por ejemplo), diferentes por una parte para las muestras generadas a continuación de datos válidos que corresponden a sonidos estacionarios y por otra parte para las muestras generadas a continuación de datos válidos que corresponden a sonidos no estacionarios.
Según otro aspecto independiente de la invención, se actualiza en función de las muestras de síntesis generadas el contenido de las memorias utilizadas para el tratamiento de descodificación.
De esta manera, por una parte se limita la eventual desincronización del codificador y del descodificador (ver párrafo 5.1.4 más adelante), y se evitan las bruscas discontinuidades entre la zona borrada reconstruida según la invención y las muestras que siguen a esta zona.
Principalmente, se pone en práctica al menos parcialmente sobre las muestras sintetizadas una codificación análoga a la puesta en práctica en el emisor seguido eventualmente de una operación (eventualmente parcial) de descodificación, los datos obtenidos sirviendo para regenerar las memorias del descodificador.
En particular, esta operación de codificación-descodificación eventualmente parcial puede ser ventajosamente utilizada para regenerar la primera trama borrada porque permite explotar el contenido de las memorias del descodificador antes del corte, cuando estas memorias contienen informaciones no proporcionadas por las últimas muestras válidas descodificadas (por ejemplo en el caso de los codificadores por transformada en adición-recubrimiento, ver párrafo 5.2.2.2.1 punto 10).
Según un aspecto también diferente de la invención, se genera a la entrada del operador de predicción a corto plazo una señal de excitación que, en zona sonora, es la suma de una componente armónica y de una componente débilmente armónica o no armónica, y en zona sonora limitada en la componente no armónica.
Principalmente, la componente armónica es ventajosamente obtenida poniendo en práctica una filtración por medio del operador de predicción a largo plazo aplicado sobre una señal residual calculada poniendo en práctica una filtración a corto plazo inversa sobre las muestras memorizadas.
La otra componente puede ser determinada con la ayuda de un operador de predicción a largo plazo en el cual se aplican perturbaciones (por ejemplo perturbaciones de ganancia, o del período), seudo-aleatorias.
De manera particularmente preferida, para la generación de una señal de excitación sonora, la componente armónica representa las bajas frecuencias del espectro, mientras que la otra componente la parte de alta frecuencia.
Según otro aspecto más, el operador de predicción a largo plazo es determinado a partir de las muestras de tramas válidas memorizadas, con un número de muestras utilizadas para esta estimación que varía entre un valor mínimo y un valor igual a al menos dos veces el período fundamental estimado para el sonido sonoro.
Por otra parte, la señal residual es ventajosamente modificada por tratamientos de tipo no lineal para eliminar picos de amplitud.
Igualmente, según otro aspecto ventajoso, se detecta la actividad vocal estimando los parámetros de ruido cuando la señal es considerada como no activa, y se hacen tender los parámetros de la señal sintetizada hacia los del ruido estimado.
De manera preferencial también, se estima la envoltura espectral del ruido de las muestras descodificadas válidas y se genera una señal sintetizada que evoluciona hacia una señal que posee el mismo desarrollo espectral.
La invención propone igualmente un proceso de tratamiento de señales de sonido, caracterizado porque se pone en práctica una discriminación entre la palabra y los sonidos musicales y cuando se detectan sonidos musicales, se pone en práctica un proceso del tipo precipitado sin estimación de un operador de predicción a largo plazo, la señal de excitación siendo limitada a una componente no armónica obtenida por ejemplo generando un ruido blanco uniforme.
La invención concierne además a un dispositivo de disimulación de error de transmisión en una señal audio-numérica que recibe a la entrada una señal descodificada que le transmite un descodificador y que genera muestras faltantes o erróneas en esa señal descodificada, caracterizado porque comprende medios de tratamiento aptos para poner en práctica el proceso precitado.
La misma comprende igualmente un sistema de transmisión que comprende al menos un codificador, al menos un canal de transmisión, un módulo apto para detectar qué datos transmitidos se han perdido o son fuertemente erróneos, al menos un descodificador y un dispositivo de disimulación de errores que recibe la señal descodificada, caracterizado porque este dispositivo de disimulación de errores es un dispositivo del tipo precitado.
\vskip1.000000\baselineskip
4. Presentación de las figuras
Otras características y ventajas de la invención resultarán también de la descripción que sigue, la cual es puramente ilustrativa y no limitativa y debe ser leída con relación a los dibujos anexados en los cuales:
- la figura 1 es un esquema sinóptico que ilustra un sistema de transmisión conforme a un modo de realización posible de la invención;
- la figura 2 y la figura 3 son esquemas sinópticos que ilustran una puesta en práctica conforme a un modo posible de la invención;
- las figuras 4 a 6 ilustran esquemáticamente las ventanas utilizadas con el proceso de disimulación de errores conforme a un modo de puesta en práctica posible de la invención;
- las figuras 7 y 8 son representaciones esquemáticas que ilustran un modo de puesta en práctica posible de la invención en el caso de señales musicales.
\vskip1.000000\baselineskip
5. Descripción de uno o varios modos de realización posibles de la invención 5.1 Principio de un modo de realización posible
La figura 1 presenta un dispositivo de codificación y descodificación de la señal audio numérica, que comprende un codificador 1, un canal de transmisión 2, un módulo 3 que permite detectar que datos transmitidos se han perdido o son fuertemente erróneos, un descodificador 4, y un módulo 5 de disimulación de errores o paquetes perdidos conforme a un modo de realización posible de la invención.
Se notará que este módulo 5, además de la indicación de los datos borrados, recibe la señal descodificada en período válido y transmite al descodificador señales utilizadas para su actualización.
Más precisamente, el tratamiento puesto en práctica por el módulo 5 se basa en:
1.
la memorización de las muestras descodificadas cuando los datos transmitidos son válidos (tratamiento 6);
2.
durante un bloque de datos borrados, la síntesis de las muestras que corresponden a los datos perdidos (tratamiento 7);
3.
cuando la transmisión es restablecida, el lisado entre las muestras de síntesis producidas durante el período borrado y las muestras descodificadas (tratamiento 8);
4.
la actualización de las memorias del descodificador (tratamiento 9) (actualización que se efectúa ya sea durante la generación de las muestras borradas, ya sea en el momento del restablecimiento de la transmisión).
\vskip1.000000\baselineskip
5.1.1 En período válido
Después de la descodificación de los datos válidos, se actualiza la memoria de las muestras descodificadas, que contienen un número de muestras suficientes para la regeneración de eventuales períodos borrados a continuación. Típicamente, se memoriza del orden de 20 a 40 ms de señal. Se calcula igualmente la energía de las tramas válidas y se retienen en memoria las energías que corresponden a las últimas tramas válidas tratadas (típicamente del orden de 5 s).
5.1.2 Durante un bloque de datos borrados
Se efectúan las operaciones siguientes, ilustradas por la figura 3:
1. Estimación de la envoltura espectral corriente
Se calcula este desarrollo espectral a la manera de un filtro LPC [RABINER] [KLEIJN]. El análisis es efectuado por métodos clásicos ([KLEIJN]) después del ventanaje de las muestras memorizadas en período válido. Principalmente se pone en práctica un análisis LPC (etapa 10) para obtener los parámetros de un filtro A(z), cuyo inverso es utilizado para la filtración LPC (etapa 11). Como los coeficientes de esta manera calculados no son transmitidos, se puede utilizar para este análisis un orden elevado, lo que permite obtener buenas ejecuciones sobre las señales musicales.
2. Detección de los sonidos sonoros y cálculo de los parámetros LTP
Un método de detección de los sonidos sonoros (tratamiento 12 de la figura 3: detección V/NV, por "sonoro/no sonoro") es utilizado sobre los últimos datos memorizados. Por ejemplo se puede utilizar para esto la correlación normalizada ([KLEIJN]), o el criterio presentado en el ejemplo de realización que sigue.
Cuando la señal es declarada sonora, se calculan los parámetros que permitan la generación de un filtro de síntesis a largo plazo, también denominado filtro LTP ([KLEIJN]) (figura 3: análisis LTP, se define por B(z) el filtro inverso LTP calculado). Tal filtro es generalmente representado por un período que corresponde al período fundamental y una ganancia. La precisión de este filtro puede ser mejorada por el uso de pitch fraccionario o de una estructura multi-coeficientes [KROON].
Cuando la señal es declarada no sonora, un valor particular es atribuido al filtro de síntesis LTP (ver párrafo 4).
Es particularmente interesante en esta estimación del filtro de síntesis LTP restringir la zona analizada al final del período anterior al borrado. La longitud de la ventana de análisis varía entre un valor mínimo y un valor ligado al período fundamental de la señal.
3. Cálculo de la señal residual
Se calcula una señal residual por filtración inversa LPC (tratamiento 10) de las últimas muestras memorizadas. Esta señal es a continuación utilizada para generar una señal de excitación del filtro de síntesis LPC 11 (ver abajo).
4. Síntesis de las muestras faltantes
La síntesis de las muestras de reemplazo se efectúa introduciendo una señal de excitación (calculada en 13 a partir de la señal de salida del filtro LPC inverso) en el filtro de síntesis LPC 11 (1/A(z)) calculado en 1. Esta señal de excitación es engendrada de dos maneras diferentes según si la señal es sonora o no sonora:
4.1 En zona sonora
La señal de excitación es la suma de dos señales, una componente fuertemente armónica y la otra menos o nada armónica.
La componente fuertemente armónica es obtenida por filtración LTP (módulo de tratamiento 14) con la ayuda de los parámetros calculados en 2, de la señal residual mencionada en 3.
La segunda componente puede ser obtenida igualmente por filtración LTP pero hecha no periódica por modificaciones aleatorias de los parámetros, por generación de una señal seudo-aleatoria.
Es particularmente interesante limitar la banda pasante de la primera componente en las bajas frecuencias del espectro. De la misma manera será interesante limitar en las más altas frecuencias la segunda componente.
4.2 En zona no sonora
Cuando la señal es no sonora, una señal de excitación no armónica es engendrada. Es interesante utilizar un método de generación similar al utilizado para los sonidos sonoros, con variaciones de parámetros (período, ganancia, signos) que permitan hacerla no armónica.
4.3 Control de la amplitud de la señal residual
Cuando la señal es no sonora, o débilmente sonora, la señal residual utilizada para la generación de la excitación es tratada para eliminar los picos de amplitud significativamente por encima de la media.
5. Control de la energía de la señal de síntesis
La energía de la señal de síntesis es controlada con la ayuda de una ganancia calculada y adaptada muestra por muestra. En el caso donde el período de borrado es relativamente largo, es necesario hacer bajar progresivamente la energía de la señal de síntesis. La ley de adaptación de ganancia es calculada en función de diferentes parámetros: valores de energía memorizados antes del borrado (ver en 1), período fundamental, y estacionalidad local de la señal en el momento del corte.
Si el sistema comprende un módulo que permite la discriminación de los sonidos estacionarios (como la música) y no estacionarios (como la palabra), las leyes de adaptación diferentes pueden también ser utilizadas.
En el caso de codificadores por transformada con adición-recubrimiento, la primera mitad de la memoria de la última trama correctamente recibida contiene informaciones bastante precisas sobre la primera mitad de la primera trama perdida (su peso en la adición-recubrimiento es más importante que el de la trama actual). Esta información puede ser igualmente utilizada para el cálculo de la ganancia adaptativa.
6. Evolución del procedimiento de síntesis con el transcurso del tiempo
En el caso de períodos de borrado relativamente largos, se puede igualmente hacer evolucionar los parámetros de síntesis. Si el sistema está acoplado a un dispositivo de detección de actividad vocal con estimación de los parámetros de ruido (tales como [REC-G.723.1A], [SALAMI-2], [BENYASSINE]), es particularmente interesante hacer tender los parámetros de generación de la señal a reconstruir hacia aquellos del ruido estimado: en particular al nivel de la envoltura espectral (interpolación del filtro LPC con el del ruido estimado, los coeficientes de la interpolación evolucionando con el transcurso del tiempo hasta la obtención del filtro del ruido) y de la energía (nivel que evoluciona progresivamente hacia el del ruido, por ejemplo por ventanaje).
5.1.3 En el restablecimiento de la transmisión
En el restablecimiento de la transmisión, es particularmente importante evitar las rupturas brutales entre el período borrado que se ha reconstruido según las técnicas definidas en los párrafos anteriores y los períodos que siguen, en el curso de los cuales se dispone de toda la información transmitida para descodificar la señal. La presente invención efectúa una ponderación en el dominio temporal con interpolación entre las muestras de reemplazo anterior al restablecimiento de la comunicación y las muestras descodificadas válidas que siguen al período borrado. Esta operación es a priori independiente del tipo de codificador empleado.
En el caso de codificadores por transformada con adición-recubrimiento, esta operación es común con la actualización de las memorias descritas en el párrafo que sigue (ver ejemplo de realización).
5.1.4 Actualización de las memorias del descodificador
Cuando la descodificación de las muestras válidas se retoma después de un período borrado, puede haber una degradación cuando el descodificador utiliza las datos normalmente producidos en las tramas anteriores y memorizados. Es importante actualizar adecuadamente estas memorias para evitar estos artefactos.
Esto es particularmente importante para las estructuras de codificación que utilizan procesos recursivos, que para una muestra o una secuencia de muestras, se sirven de informaciones obtenidas después de la descodificación de las muestras anteriores. Estas son por ejemplo las predicciones ([KLEIJN]) que permiten extraer de la redundancia de la señal. Estas informaciones están normalmente disponibles a la vez en el codificador, que debe para esto haber efectuado para estas muestras anteriores una forma de descodificación local, y en el descodificador distante presente en la recepción. A partir de que el canal de transmisión es perturbado y que el descodificador distante no dispone más de las mismas informaciones que el descodificador local presente en la emisión, hay desincronización entre el codificador y el descodificador. En el caso de sistemas de codificación fuertemente recursivos, esta desincronización puede provocar degradaciones audibles que pueden perdurar largo tiempo incluso amplificarse con el transcurso del tiempo si existen inestabilidades en la estructura. En este caso, es entonces importante esforzarse en re-sincronizar el codificador y el descodificador, es decir, hacer una estimación de las memorias del descodificador lo más cercana posible de las del codificador. Sin embargo las técnicas de resincronización dependen de la estructura de codificación utilizada. Se
presentará una cuyo principio es general en la presente patente, pero cuya complejidad es potencialmente importante.
Un método posible consiste en introducir en el descodificador en la recepción un módulo de codificación del mismo tipo que aquel presente en la emisión, que permite efectuar la codificación-descodificación de las muestras de la señal producida por las técnicas mencionadas en el párrafo anterior durante los períodos borrados. De esta manera las memorias necesarias para descodificar las muestras siguientes, son completadas con datos a priori próximos (bajo reserva de una cierta estacionalidad durante el período borrado) de aquellos que se han perdido. En el caso donde esta hipótesis de estacionalidad no sería respetada, después de un largo período borrado por ejemplo, no se dispone de cualquier manera de informaciones suficientes para actuar mejor.
De hecho no es generalmente necesario efectuar la codificación completa de estas muestras, se limita a los módulos necesarios para actualizar las memorias.
Esta puesta en práctica puede efectuarse en el momento de la producción de las muestras de reemplazo, lo que repartió la complejidad sobre toda la zona de borrado, pero se acumula con el procedimiento de síntesis descrito anteriormente.
Cuando la estructura de codificación lo permite, se puede también limitar el procedimiento de arriba a una zona intermediaria en el principio del período de datos válidos que suceden a un período borrado, el proceso de actualización acumulándose entonces con la operación de descodificación.
5.2. Descripción de ejemplos de realización particulares
Los ejemplos particulares de puesta en práctica posibles son dados a continuación. El caso de los codificadores por transformada de tipo TDAC o TCDM ([MAHIEUX]) es en particular abordado.
5.2.1 Descripción del dispositivo
Sistema de codificación/descodificación numérico por transformada del tipo TDAC.
Codificador en banda amplificada (50-7000 Hz) a 24 kb/s o 32 kb/s.
Trama de 20 ms (320 muestras).
Ventanas de 40 ms (640 muestras) con adición-recubrimientos de 20 ms. Una trama binaria que contiene los parámetros codificados obtenidos por la transformación TDAC sobre una ventana. Después de la descodificación de estos parámetros, haciendo la transformación inversa TDAC, se obtiene una trama de salida de 20 ms que es la suma de la segunda mitad de la ventana anterior y la primera mitad de la ventana actual. Sobre la figura 4, ha sido marcado en grueso las dos partes de ventanas utilizadas para la reconstrucción de la trama n (en temporal). De esta manera, una trama binaria perdida perturba la reconstrucción de dos tramas consecutivas (la actual y la siguiente, figura 5). Por el contrario, haciendo correctamente el reemplazo de los parámetros perdidos, se pueden recuperar las partes de la información que provienen de la trama binaria anterior y siguiente (figura 6), para la reconstrucción estas dos tramas.
5.2.2 Puesta en práctica
Todas las operaciones descritas abajo son puestas en práctica en la recepción, conforme a las figuras 1 y 2, ya sea en el seno del módulo de disimulación de las tramas borradas que comunican con el descodificador, como en el descodificador mismo (actualización de las memorias del descodificador).
5.2.2.1 En período válido
En correspondencia con el párrafo 5.1.2, se actualiza la memoria de las muestras descodificadas. Esta memoria es utilizada para los análisis LPC y LTP de la señal pasada en el caso de un borrado de una trama binaria. En el ejemplo aquí presentado, el análisis LPC es hecho sobre un período de señal de 20 ms (320 muestras). En general, el análisis LTP necesita más muestras a memorizar. En nuestro ejemplo, para poder hacer el análisis LTP correctamente, el número de muestras memorizadas es igual a dos veces el valor máximo del pitch. Por ejemplo, si el valor máximo del pitch MaxPitch está fijado en 320 muestras (50 Hz, 20 ms), las últimas 640 muestras serán memorizadas (40 ms de la señal). Se calcula igualmente la energía de las tramas válidas y se almacenan en un tampón circular de longitud 5s. Cuando una trama borrada es detectada, se compara la energía de la última trama válida con el máximo y con el mínimo de este tampón circular para conocer su energía relativa.
5.2.2.2 Durante un bloque de datos borrados
Cuando una trama binaria es perdida, se distinguen dos casos diferentes:
5.2.2.2.1 Primera trama binaria perdida después de un período válido
Primero, se hace un análisis de la señal memorizada para estimar los parámetros del modelo que sirven para sintetizar la señal regenerada. Este modelo nos permite a continuación sintetizar 40 ms de señal, lo que corresponde a la ventana de 40 ms perdida. Haciendo la transformación TDAC seguida de la transformación inversa TDAC sobre esta señal sintetizada (sin codificación - descodificación de los parámetros), se obtiene la señal de salida de 20 ms. Gracias a estas operaciones TDAC - TDAC inversa, se explota la información que proviene de la ventana anterior correctamente recibida (ver figura 6). Al mismo tiempo, se actualizan las memorias del descodificador. De esta manera, la trama binaria siguiente, si es bien recibida, puede ser descodificada normalmente, y las tramas descodificadas serán automáticamente sincronizadas (figura 6).
Las operaciones a efectuar son las siguientes:
1. Ventanaje de la señal memorizada. Por ejemplo, se puede utilizar una ventana asimétrica de Hamming de 20 ms.
2. Cálculo de la función de autocorrelación sobre la señal ventaneada.
3. Determinación de los coeficientes del filtro LPC. Para esto, clásicamente se utiliza el algoritmo iterativo de Levinson-Durbin. El orden de análisis puede ser elevado, sobre todo cuando el codificador es utilizado para codificar secuencias de música.
4. Detección de sonoridad y análisis a largo plazo de la señal memorizada para la modelización de la eventual periodicidad de la señal (sonidos sonorizados). En la realización presentada, los inventores limitaron la estimación del período fundamental Tp a los valores enteros, y calcularon una estimación del grado de sonoridad bajo la forma del coeficiente de correlación MaxCorr (ver abajo) evaluado en el período seleccionado. Sea Tm = max (T, Fs/200), donde Fs es la frecuencia de muestreo, entonces Fs/200 muestras corresponden a una duración de 5 ms. Para modelizar mejor la evolución de la señal al final de la trama anterior, se calculan los coeficientes de correlación Corr(T) que corresponden a un retardo T utilizando solamente 2^{*}Tm muestras al final de la señal memorizada:
100
donde m_{0}...m_{Lmem-1} es la memoria de la señal descodificada anteriormente. De esta fórmula, se ve que la longitud de esta memoria L_{mem} debe ser al menos 2 veces el valor máximo del período fundamental (también llamado "pitch") MaxPitch.
Se ha fijado igualmente el valor mínimo del período fundamental MinPitch que corresponde a una frecuencia de 600 Hz (26 muestras con Fs = 16 kHz).
Se calcula Corr(T) para T=2, 101, MaxPitch. Si T' es el más pequeño retardo tal que Corr(T')<0 (se eliminan de esta manera las correlaciones a muy corto plazo), entonces se busca MaxCorr, máximo de Corr(T) para T'<T<=MaxPitch. Sea Tp el período que corresponde a MaxCorr (Corr(Tp) = MaxCorr). Se busca igualmente MaxCorrMP, máximo de Corr(T) para T'<T<=0.75*MinPitch. Si Tp<MinPitch o MaxCorrMP > 0.7*MaxCorr y si la energía de la última trama válida es relativamente débil, se decide que la trama es no sonora, porque utilizando la predicción LTP se arriesgaría de obtener una resonancia en las altas frecuencias muy molesta. El pitch escogido es Tp=MaxPitch/2, y el coeficiente de correlación MaxCorr fijado en un valor débil (0.25).
Se considera igualmente la trama como no-sonora cuando más del 80% de su energía se concentra en las últimas MinPitch muestras. Se trata entonces de una salida de la palabra, pero el número de muestras no es suficiente para estimar el período fundamental eventual, es mejor tratarlo como trama no sonora, incluso disminuir más rápidamente la energía de la señal sintetizada (para señalar esto, se pone DiminFlag=1).
En el caso donde MaxCorr > 0.6, se verifica que no se encontró un múltiplo (4, 3 ó 2 veces) del período fundamental. Para esto, se busca el máximo local de la correlación alrededor de Tp/4, Tp/3 y Tp/2. Se nota T_{1} la posición de este máximo, y MaxCorrL = Corr(T_{1}). Si T_{1} > MinPitch y MaxCorrL > 0.75* MaxCorr, se escoge T_{1} como nuevo período fundamental.
Si Tp es inferior a MaxPitch/2, se puede verificar si se trata realmente de una trama sonora buscando el máximo local de la correlación alrededor de 2*TP(TPP) y verificando si Corr(T_{pp})>0.4. Si Corr(T_{pp})<0.4 y si la energía de la señal disminuye, se pone DiminFlag=1 y se disminuye el valor de MaxCorr, si no se busca el máximo local siguiente entre el T_{p} actual y MaxPitch.
Otro criterio de sonorización consiste en verificar si al menos en 2/3 de los casos la señal retardada por el período fundamental tiene el mismo signo que la señal no retardada.
Se verifica esto sobre una longitud igual al máximo entre 5 ms y 2*T_{p}.
Se verifica igualmente si la energía de la señal tiene tendencia a disminuir o no. Si sí, se pone DiminFlag=1 y se hace decrecer el valor de MaxCorr en función del grado de disminución.
La decisión de sonorización tiene en cuenta igualmente la energía de la señal: si la energía es fuerte, se aumenta el valor de MaxCorr, de esta manera es más probable que la trama sea decidida sonora. Por el contrario, si la energía es muy débil, se disminuye el valor de MaxCorr.
Finalmente, se toma la decisión de sonorización en función del valor de MaxCorr: la trama es no sonora si y sólo si MaxCorr < 0.4. El período fundamental T_{p} de una trama no sonora es definido, el mismo debe ser inferior o igual a MaxPitch/2.
\vskip1.000000\baselineskip
5. Cálculo de la señal residual por filtración inversa LPC de las últimas muestras memorizadas. Esta señal residual es almacenada en la memoria ResMem.
6. Igualamiento de la energía de la señal residual. En el caso de una señal no sonora o débilmente sonora (MaxCorr< 0.7), la energía de la señal residual almacenada en ResMem puede cambiar bruscamente de una parte a la otra. La repetición de esta excitación ocasiona una perturbación periódica muy desagradable en la señal sintetizada. Para evitar esto, se asegura que ningún pico de amplitud importante se presente en la excitación de una trama débilmente sonora. Como la excitación es construida a partir de las últimas Tp muestras de la señal residual, se trata este vector de Tp muestras. El método utilizado en nuestro ejemplo es el siguiente:
\sqbullet
Se calcula la media MeanAmpl de los valores absolutos de las últimas Tp_{ }muestras de la señal residual.
\sqbullet
Si el vector de las muestras a tratar contiene n pasajes en cero, se corta en n+1 sub-vectores, el signo de la señal en cada sub-vector siendo entonces invariable.
\sqbullet
Se busca la amplitud máxima MaxAmplSv de cada sub-vector. Si MaxAmplSv>1.5*MeanAmpl, se multiplica el sub-vector por 1.5*MeanAmpl/MaxAmplSv.
\vskip1.000000\baselineskip
7. Preparación de la señal de excitación de una longitud de 640 muestras que corresponde a la longitud de la ventana TDAC. Se distinguen 2 casos según la sonorización:
101 La señal de excitación es la suma de dos señales, una componente fuertemente armónica limitada en banda en las bajas frecuencias del espectro excb y otra menos armónica limitada en las más altas frecuencias exch.
La componente fuertemente armónica es obtenida por filtración LTP del orden 3 de la señal residual:
excb(i) = 0.15*exc(i-Tp-1)+0.7*exc(i-Tp)+0.15*exc(i-Tp+1)
Los coeficientes [0.15, 0.7, 0.15] corresponden a un filtro FIR paso-bajo de 3 dB de atenuación a Fs/4.
La segunda componente es obtenida igualmente por una filtración LTP hecha no periódica por la modificación aleatoria de su período fundamental Tph. Tph es escogido como la parte entera de un valor real aleatorio Tpa. El valor inicial de Tpa es igual a Tp y después el mismo es modificado muestra por muestra adicionándole un valor aleatorio en [-0.5, 0.5]. Además, esta filtración LTP es combinada con una filtración IIR paso alto:
\vskip1.000000\baselineskip
102
\vskip1.000000\baselineskip
La excitación sonora es entonces la suma de estas dos componentes:
Exc(i)=excb(i)+exch(i)
\sqbullet
En el caso de una trama no sonora, la señal de excitación exc es obtenida igualmente por filtración LTP de orden 3 con los coeficientes [0.15, 0.7, 0.15] pero es hecha no periódica por aumento del período fundamental de un valor igual a 1 todas las 10 muestras, e inversión de la señal con una probabilidad de 0.2.
\vskip1.000000\baselineskip
8. Síntesis de las muestras de reemplazo introduciendo la señal de excitación exc en el filtro LPC calculado en 3.
9. Control del nivel de la energía de la señal de síntesis. La energía tiende progresivamente hacia un nivel fijado por adelantado desde la primera trama de reemplazo sintetizado. Este nivel puede ser definido, por ejemplo, como la energía de la trama de salida más débil encontrada durante los últimos 5 segundos anteriores al borrado. Se definen dos leyes de adaptación de la ganancia que son escogidas en función de la bandera DiminFlag calculada en 4. La velocidad de disminución de la energía depende igualmente del período fundamental. Existe una tercera ley de adaptación más radical que es utilizada cuando se detecta que el principio de la señal generada no corresponde bien a la señal original, como es explicado posteriormente (ver punto 11).
\newpage
10. Transformación TDAC sobre la señal sintetizada en 8, como se explica en el principio de este capítulo. Los coeficientes TDAC obtenidos reemplazan los coeficientes TDAC perdidos. A continuación, haciendo la transformación inversa TDAC, se obtiene la trama de salida. Estas operaciones tienen tres objetivos:
\sqbullet
En el caso de la primera ventana perdida, de esta manera se explota la información de la ventana anterior correctamente recibida que contiene la mitad de los datos necesarios para reconstruir la primera trama perturbada (figura 6).
\sqbullet
Se actualiza la memoria del descodificador para la descodificación de la trama siguiente (sincronización del codificador y del descodificador, ver párrafo 5.1.4).
\sqbullet
Se asegura automáticamente la transición continua (sin ruptura) de la señal de salida cuando la primera trama binaria correctamente recibida llega después de un período borrado que se ha reconstruido según las técnicas presentadas arriba (ver párrafo 5.1.3).
11. La técnica de adición-recubrimiento permite verificar si la señal sonora sintetizada corresponde bien a la señal de origen o no porque para la primera mitad de la primera trama perdida el peso de la memoria de la última ventana correctamente recibida es más importante (figura 6). Entonces tomando la correlación entre la primera mitad de la primera trama sintetizada y la primera mitad de la trama obtenida después de las operaciones TDAC 101 TDAC inversa, se puede estimar la similitud entre la trama perdida y la trama de reemplazo. Una correlación débil (<0.65) señala que la señal original es bastante diferente de la obtenida por el método de reemplazo, es mejor disminuir la energía de esta última rápidamente hacia el nivel mínimo.
5.2.2.2.2 Tramas perdidas según la primera trama de una zona borrada
En el párrafo anterior, los puntos 1-6 concernientes al análisis de la señal descodificada que anteceden a la primera trama borrada y que permiten la construcción de un modelo de síntesis (LPC y eventualmente LTP) de esta señal. Para las tramas borradas siguientes, no se rehace el análisis, el reemplazo de la señal perdida está basada sobre los parámetros (coeficientes LPC, pitch, MaxCorr, ResMem) calculados durante la primera trama borrada. Se hacen entonces únicamente las operaciones que corresponden a la síntesis de la señal y a la sincronización del descodificador, con las modificaciones siguientes con relación a la primera trama borrada:
\sqbullet
En la parte de síntesis (puntos 7 y 8), se generan únicamente 320 nuevas muestras, porque la ventana de la transformación TDAC cubre las últimas 320 muestras generadas durante la trama borrada anterior y estas nuevas 320 muestras.
\sqbullet
En el caso donde el período de borrado fuera relativamente largo, es importante hacer evolucionar los parámetros de síntesis hacia los parámetros de un ruido blanco o hacia aquellos con ruido de fondo (ver punto 5 en el párrafo 3.2.2.2). Como el sistema presente en este ejemplo no comprende VAD/CNG, se tiene, por ejemplo, la posibilidad de hacer una o varias de las modificaciones siguientes:
\sqbullet
Interpolación progresiva del filtro LPC con un filtro plano para hacer la señal sintetizada menos coloreada.
\sqbullet
Aumento progresivo del valor del pitch.
\sqbullet
En modo sonoro, se oscila en modo no-sonoro después de un cierto tiempo (por ejemplo cuando la energía mínima es alcanzada).
5.3 Tratamiento específico para las señales musicales
Si el sistema comprende un módulo que permite la discriminación palabra/música, se puede entonces, después de la selección de un modo de síntesis de música poner en práctica un tratamiento específico para las señales musicales. En la figura 7, el módulo de síntesis de música ha sido referenciado por 15, el de la síntesis de palabra por 16 y el conmutador palabra/música por 17.
Tal tratamiento pone en práctica por ejemplo para el modelo de síntesis de música las etapas siguientes, ilustradas en la figura 8:
1. Estimación de la envoltura espectral corriente
Se calcula esta envoltura espectral bajo la forma de un filtro LPC [RABINER][KLEIJN]. El análisis es efectuado por los métodos clásicos ([KLEIJN]). Después del ventanaje de las muestras memorizadas en período válido, se pone en práctica un análisis LPC para calcular un filtro LPC A(z) (etapa 19). Se utiliza para este análisis un orden elevado (>100) con el fin de obtener buenas ejecuciones sobre las señales musicales.
2. Síntesis de las muestras faltantes
La síntesis de las muestras de reemplazo se efectúa introduciendo una señal de excitación en el filtro de síntesis LPC (1/A(z)) calculado en la etapa 19. Esta señal de excitación - calculada en una etapa 20 - es un ruido blanco cuya amplitud es escogida para obtener una señal que tiene la misma energía de las últimas N muestras memorizadas en período válido. En la figura 8, la etapa de filtración es referenciada por 21.
Ejemplo del control de la amplitud de la señal residual
Si la excitación se presenta como un ruido blanco uniforme multiplicado por una ganancia, se puede calcular esta ganancia G como sigue:
Estimación de la ganancia del filtro LPC
El algoritmo de Durbin da la energía de la señal residual. Conociendo igualmente la energía de la señal a modelizar se estima la ganancia G_{LPC} del filtro LPC como la relación de estas dos energías.
Cálculo de la energía objetivo
Se estima la energía objetivo igual a la energía de las últimas N muestras memorizadas en período válido (N es típicamente < la longitud de la señal utilizada para el análisis LPC).
La energía de la señal sintetizada es el producto de la energía del ruido blanco por G^{2} y G_{LPC}. Se escoge G para que esta energía sea igual a la energía objetivo.
3. Control de la energía de la señal de síntesis
Como para las señales de palabra, salvo que la velocidad de disminución de la energía de la señal de síntesis es mucho más lenta, y que la misma no depende del período fundamental (inexistente):
La energía de la señal de síntesis es controlada con la ayuda de una ganancia calculada y adaptada muestra por muestra. En el caso donde el período de borrado es relativamente largo, es necesario hacer bajar progresivamente la energía de la señal de síntesis. La ley de adaptación de la ganancia puede ser calculada en función de diferentes parámetros como los valores de las energías memorizadas antes del borrado, y estacionalidad local de la señal en el momento del corte.
6. Evolución del procedimiento de síntesis con el transcurso del tiempo
Como para las señales de palabra:
En el caso de períodos de borrado relativamente largos, se puede igualmente hacer evolucionar los parámetros de síntesis. Si el sistema es acoplado a un dispositivo de detección de actividad vocal o de señales musicales con estimación de los parámetros de ruido (tal como [REC-G.723.1A], [SALAMI-2], [BENYASSINE]), será particularmente interesante hacer tender los parámetros de generación de la señal a reconstruir hacia aquellos del ruido estimado: en particular al nivel de la envoltura espectral (interpolación del filtro LPC con el del ruido estimado, los coeficientes de la interpolación evolucionando con el transcurso del tiempo hasta obtención del filtro del ruido) y de la energía (nivel que evoluciona progresivamente hacia el del ruido, por ejemplo por ventanaje).
6. Observación general
Como se habrá comprendido, la técnica que acaba de ser descrita presenta la ventaja de ser utilizable con cualquier tipo de codificador; en particular la misma permite remediar los problemas de los paquetes de bits perdidos por los codificadores temporales o por transformada, sobre las señales de palabra y música con buenas ejecuciones: en efecto, en la presente técnica, las únicas señales memorizadas durante los períodos donde los datos transmitidos son válidos, son las muestras salidas del descodificador, información que está disponible cualquiera que sea la estructura de codificación utilizada.
7. Referencias bibliográficas
[AT&T] AT&T (D.A. Kapilow, R.V. Cox) "A high quality low-complexity algorithm for frame erasure concealment (FEC) with G.711". Delayed Contribution D.249 (WP 3/16), ITU, mayo 1999.
[ATAL] B.S. Atal y M.R. Schroeder. "Predictive coding of speech signal and subjectives error criteria". IEEE Trans. on Acoustics, Speech and Signal Processing, 27:247-254, junio 1979.
[BENYASSINE] A. Benyassine, E. Shlomot y H.Y. Su. "ITU-T recommendation G.729 Annex B: A silence compression scheme for use with G.729 optimized for V.70 digital simultaneous voice and data applications". IEEE Communication Magazine, Septiembre 97, PP. 56-63.
[BRANDENBURG] K. H. Brandenburg y M. Bossi. "Overview of MPEG audio: current and future standards for low-bit-rate audio coding". Journal of Audio Eng. Soc., Vol.45-1/2, enero/febrero 1997, PP.4-21.
[CHEN] J. H. Chen, R. V. Cox, Y. C. Lin, N. Jayant y M. J. Melchner. "A low-delay CELP coder for the CCITT 16 kb/s speech coding standard". IEEE Journal on Selected Areas on Communications, Vol.10-5, junio 1992, PP.830-849.
[CHEN-2] J. H. Chen, C. R. Watkins. "Linear prediction coefficient generation during frame erasure or packet loss". Patente US5574825, EP0673018.
[CHEN-3] J. H. Chen, C. R. Watkins. "Linear prediction coefficient generation during frame erasure or packet loss". Patente 884010.
[CHEN-4] J. H. Chen, C. R. Watkins. "Frame erasure or packet loss compensation method". Patente US5550543, EP0707308.
[CHEN-5] J. H. Chen. "Excitation signal synthesis during frame erasure or packet loss". Patente US5615298, EP0673017.
[CHEN-6] J. H. Chen. "Computational complexity reduction during frame erasure of packet loss". Patente
US5717822.
[CHEN-7] J. H. Chen. "Computational complexity reduction during frame erasure or packet loss". Patente
US940212435, EP0673015.
[COX] R. V. Cox. "Three new speech coders from the ITU cover a range of applications". IEEE Communication Magazine, septiembre 97, PP.40-47.
[COX-2] R. V. Cox. "An improved frame erasure concealment method for ITU-T Rec. G728". Delayed contribution D.107 (WP 3/16), ITU-T, enero 1998.
[COMBESCURE] P. Combescure, J. Schnitzler, K. Ficher, R. Kirchherr, C. Lamblin, A. Le Guyader, D. Massaloux, C. Quinquis, J. Stegmann, P. Vary. "A 16,24,32 kbit/s Wideband Speech Codec Based on ATCELP". Proc. of ICASSP conference, 1998.
[DAUMER] W. R. Daumer, P. Mermelstein, X. Maître y I. Tokizawa. "Overview of the ADPCM coding algorithm". Proc. of GLOBECOM 1984, PP.23.1.1-23.1.4.
[ERDÖL] N. Erdöl, C. Castelluccia, A. Zilouchian. "Recovery of Missing Speech Packets Using the Short-Time Energy and Zero-Crossing Measurements" IEEE Trans. on Speech and Audio Processing, Vol.1-3, julio 1993, PP. 295-303.
[FINGSCHEIDT] T. Fingscheidt, P. Vary, "Robust speech decoding: a universal approach to bit error concealment", Proc. of ICASSP conference, 1997, pp.1667-1670.
[GOODMAN] D. J. Goodman, G. B. Lockhart, O. J. Wasem, W. C. Wong. "Waveform Substitution Techniques for Recovering Missing Speech Segments in Packet Voice Communications". IEEE Trans. on Acoustics, Speech and Signal Processing, Vol. ASSP-34, diciembre 1986, PP. 1440-1448.
[GSM-FR] Recommendation GSM 06.11. "Substitution and muting of lost frames for full rate speech traffic channels". ETSI/TC SMG, ver.:3.0.1., febrero 1992.
[HARDWICK] J. C. Hardwick y J. S. Lim. "The application of the IMBE speech coder to mobile communications". Proc. of ICASSP conference, 1991, PP.249-252.
[HELLWIG] K. Hellwig, P. Vary, D. Massaloux, J. P. Petit, C. Galand y M. Rosso. "Speech codec for the European mobile radio system". GLOBECOM conference, 1989, PP. 1065-1069.
[HONKANEN] T. Honkanen, J. Vainio, P. Kapanen, P. Haavisto, R. Salami, C. Laflamme y J. P. Adoul. "GSM enhanced full rate speech codec". Proc. of ICASSP conference, 1997, PP.771-774.
[KROON] P. Kroon, B. S. Atal. "On the use of pitch predictors with high temporal resolution". IEEE Trans. on Signal Processing, Vol. 39-3, marzo. 1991, PP. 733-735.
[KROON-2] P. Kroon. "Linear prediction coefficient generation during frame erasure or packet loss". Patente US5450449, EP0673016.
\newpage
[MAHIEUX] Y. Mahieux, J. P. Petit. "High quality audio transform coding at 64 kbit/s". IEEE Trans. on Com., Vol. 42-11, nov. 1994, PP.3010-3019.
[MAHIEUX-2] Y. Mahieux, "Dissimulation erreurs de transmission", Patente 92 06720 depositada el 3 de junio 1992.
[MAITRE] X. Maitre. "7 kHz audio coding within 64 kbit/s". IEEE Journal on Selected Areas on Communications, Vol. 6-2, febrero 1988, PP. 283-298.
[PARIKH] V. N. Parikh, J. H. Chen, G. Aguilar. "Frame Erasure Concealment Using Sinusoidal Analysis-Synthesis and Its Application to MDCT-Based Codecs". Proc. of ICASSP conference, 2000.
[PICTEL] PictureTel Corporation, "Detailed Description of the PTC (PictureTel Transform Coder)", Contribution ITU-T, SG15/WP2/Q6, 8-9 Octubre 1996 Baltimore meeting, TD7.
[RABINER] L. R. Rabiner, R. W. Schafer. "Digital processing of speech signals". Bell Laboratoires Inc., 1978.
[REC G.723.1A] ITU-T Annex A to recommendation G.723.1 "Silence compression scheme for dual rate speech coder for multimedia communications transmitting at 5.3 & 6.3 kbit/s".
[SALAMI] R. Salami, C. Laflamme, J. P. Adoul, A. Kataoka, S. Hayashi, T. Moriya, C. Lamblin, D. Massaloux, S. Proust, P. Kroon y Y. Shoham. "Design and description of CS-ACELP: a toll quality 8kb/s speech coder". IEEE Trans. on Speech and Audio Processing, Vol. 6-2, marzo 1998, PP. 116-130.
[SALAMI-2] R. Salami, C. Laflamme, J. P. Adoul. "ITU-T G.729 Annex A: Reduced complexity 8 kb/s CS-ACELP codec for digital simultaneous voice and data". IEEE Communication Magazine, septiembre 97, PP. 56-63.
[TREMAIN] T. E. Tremain. "The government standard linear predictive coding algorithm: LPC 10". Speech technology, abril 1982, PP. 40-49.
[WATKINS] C. R. Watkins, J. H. Chen. "Improving 16 kb/s G.728 LD-CELP Speech Coder for Frame Erasure Channels". Proc. of ICASSP conference, 1995, PP. 241-244.

Claims (18)

1. Proceso de disimulación de error de transmisión en una señal audio-numérica en la cual en la detección (3) de muestras faltantes o erróneas en una señal, se generan muestras de síntesis (5) con la ayuda de al menos un operador de predicción a corto plazo y al menos para los sonidos sonoros un operador de predicción a largo plazo estimado en función de muestras descodificadas de una señal descodificada pasada, dichas muestras descodificadas siendo memorizadas (6) anteriormente cuando los datos transmitidos de dicha señal pasada son válidos, caracterizado porque se controla la energía de la señal de síntesis generada de esta manera con la ayuda de una ganancia calculada y adaptada muestra por muestra según una ley de adaptación que depende de al menos un parámetro de dichas muestras descodificadas memorizadas.
2. Proceso según la reivindicación 1, caracterizado porque la ganancia para el control de la señal de síntesis es calculada en función de al menos uno de los parámetros siguientes: valores de energía previamente memorizados para las muestras que corresponden a los datos válidos, período fundamental para los sonidos sonoros, o cualquier parámetro que caracteriza el espectro de frecuencias.
3. Proceso según una de las reivindicaciones anteriores, caracterizado porque la ganancia aplicada a la señal de síntesis decrece progresivamente en función de la duración durante la cual las muestras de síntesis son generadas.
4. Proceso según una de las reivindicaciones anteriores, caracterizado porque se discrimina en los datos válidos los sonidos estacionarios y los sonidos no estacionarios y se ponen en práctica las leyes de adaptación de la ganancia que permiten controlar la señal de síntesis diferentes por una parte para las muestras generadas a continuación de datos válidos que corresponden a sonidos estacionarios y por otra parte para las muestras generadas a continuación de datos válidos que corresponden a sonidos no estacionarios.
5. Proceso según una de las reivindicaciones anteriores, caracterizado porque se actualiza en función de las muestras de síntesis generadas el contenido de memorias utilizadas para el tratamiento de descodificación.
6. Proceso según la reivindicación 5, caracterizado porque se pone en práctica al menos parcialmente sobre las muestras sintetizadas una codificación análoga a aquella puesta en práctica en el emisor seguida eventualmente de una operación de descodificación al menos parcial, los datos obtenidos sirviendo para regenerar las memorias del descodificador.
7. Proceso según la reivindicación 6, caracterizado porque se regenera la primera trama borrada por medio de esta operación de codificación-descodificación, explotando el contenido de las memorias del descodificador antes del corte, cuando dichas memorias contienen informaciones explotables en esta operación.
8. Proceso según una de las reivindicaciones anteriores caracterizado porque se genera a la entrada del operador de predicción a corto plazo una señal de excitación que, en zona sonora, es la suma de una componente armónica y de una componente débilmente armónica o no armónica, y en zona no sonora, limitada por una componente no armónica.
9. Proceso según la reivindicación 8, caracterizado porque la componente armónica es obtenida poniendo en práctica una filtración por medio del operador de predicción a largo plazo aplicado sobre una señal residual calculada poniendo en práctica una filtración a corto plazo inversa sobre las muestras memorizadas.
10. Proceso según la reivindicación 9, caracterizado porque la otra componente es determinada con la ayuda de un operador de predicción a largo plazo en el cual se aplican perturbaciones seudo-aleatorias.
11. Proceso según una de las reivindicaciones 8 a 10, caracterizado porque para la generación de una señal de excitación sonora, la componente armónica está limitada a bajas frecuencias del espectro, mientras que, la otra componente está limitada a altas frecuencias.
12. Proceso según una de las reivindicaciones anteriores, caracterizado porque el operador de predicción a largo plazo es determinado a partir de muestras de tramas válidas memorizadas, con un número de muestras utilizadas para esta estimación que varía entre un valor mínimo y un valor igual a al menos dos veces el período fundamental estimado para el sonido sonoro.
13. Proceso según una de las reivindicaciones anteriores, caracterizado porque la señal residual es tratada de manera no lineal para eliminar los picos de amplitud.
14. Proceso según una de las reivindicaciones anteriores, caracterizado porque detecta la actividad vocal estimando los parámetros de ruido y porque se hacen tender los parámetros de la señal sintetizada hacia los del ruido estimado.
15. Proceso según la reivindicación 14, caracterizado porque se estima la envoltura espectral del ruido de las muestras descodificadas válidas y se genera una señal sintetizada que evoluciona hacia una señal que posee la misma envoltura espectral.
16. Proceso de tratamiento de señales de sonidos, caracterizado porque se pone en práctica una discriminación entre los sonidos sonoros y los sonidos musicales y cuando se detectan los sonidos musicales, se pone en práctica un proceso según una de las reivindicaciones anteriores sin estimación de un operador de predicción a largo plazo.
17. Dispositivo de disimulación de error de transmisión en una señal audio-numérica que recibe a la entrada una señal descodificada que le transmite un descodificador y que genera muestras faltantes o erróneas en esta señal descodificada, caracterizado porque comprende medios de tratamiento aptos para poner en práctica el proceso según una de las reivindicaciones anteriores.
18. Sistema de transmisión que comprende al menos un codificador, al menos un canal de transmisión, un módulo apto para detectar qué datos transmitidos se han perdido o son fuertemente erróneos, al menos un descodificador y un dispositivo de disimulación de errores que recibe la señal descodificada, caracterizado porque este dispositivo de disimulación de errores es un dispositivo según la reivindicación 17.
ES01969857T 2000-09-05 2001-09-05 Disimulacion de errores de transmision en una señal de audio. Expired - Lifetime ES2298261T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0011285 2000-09-05
FR0011285A FR2813722B1 (fr) 2000-09-05 2000-09-05 Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif

Publications (1)

Publication Number Publication Date
ES2298261T3 true ES2298261T3 (es) 2008-05-16

Family

ID=8853973

Family Applications (1)

Application Number Title Priority Date Filing Date
ES01969857T Expired - Lifetime ES2298261T3 (es) 2000-09-05 2001-09-05 Disimulacion de errores de transmision en una señal de audio.

Country Status (11)

Country Link
US (2) US7596489B2 (es)
EP (1) EP1316087B1 (es)
JP (1) JP5062937B2 (es)
AT (1) ATE382932T1 (es)
AU (1) AU2001289991A1 (es)
DE (1) DE60132217T2 (es)
ES (1) ES2298261T3 (es)
FR (1) FR2813722B1 (es)
HK (1) HK1055346A1 (es)
IL (2) IL154728A0 (es)
WO (1) WO2002021515A1 (es)

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030163304A1 (en) * 2002-02-28 2003-08-28 Fisseha Mekuria Error concealment for voice transmission system
FR2849727B1 (fr) * 2003-01-08 2005-03-18 France Telecom Procede de codage et de decodage audio a debit variable
EP1589330B1 (en) * 2003-01-30 2009-04-22 Fujitsu Limited Audio packet vanishment concealing device, audio packet vanishment concealing method, reception terminal, and audio communication system
US7835916B2 (en) * 2003-12-19 2010-11-16 Telefonaktiebolaget Lm Ericsson (Publ) Channel signal concealment in multi-channel audio systems
KR100587953B1 (ko) * 2003-12-26 2006-06-08 한국전자통신연구원 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템
JP4761506B2 (ja) * 2005-03-01 2011-08-31 国立大学法人北陸先端科学技術大学院大学 音声処理方法と装置及びプログラム並びに音声システム
DK1869671T3 (da) * 2005-04-28 2009-10-19 Siemens Ag Fremgangsmåde og anordning til stöjundertrykkelse
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US8620644B2 (en) * 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
US7805297B2 (en) 2005-11-23 2010-09-28 Broadcom Corporation Classification-based frame loss concealment for audio signals
US8417185B2 (en) 2005-12-16 2013-04-09 Vocollect, Inc. Wireless headset and method for robust voice data communication
JP5142727B2 (ja) * 2005-12-27 2013-02-13 パナソニック株式会社 音声復号装置および音声復号方法
US7885419B2 (en) * 2006-02-06 2011-02-08 Vocollect, Inc. Headset terminal with speech functionality
US7773767B2 (en) 2006-02-06 2010-08-10 Vocollect, Inc. Headset terminal with rear stability strap
MX2009000054A (es) * 2006-07-27 2009-01-23 Nec Corp Dispositivo de descodificacion de datos de audio.
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
EP2080194B1 (fr) 2006-10-20 2011-12-07 France Telecom Attenuation du survoisement, notamment pour la generation d'une excitation aupres d'un decodeur, en absence d'information
EP1921608A1 (en) * 2006-11-13 2008-05-14 Electronics And Telecommunications Research Institute Method of inserting vector information for estimating voice data in key re-synchronization period, method of transmitting vector information, and method of estimating voice data in key re-synchronization using vector information
KR100862662B1 (ko) 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
JP4504389B2 (ja) * 2007-02-22 2010-07-14 富士通株式会社 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
ES2642091T3 (es) * 2007-03-02 2017-11-15 Iii Holdings 12, Llc Dispositivo de codificación de audio y dispositivo de decodificación de audio
US7853450B2 (en) * 2007-03-30 2010-12-14 Alcatel-Lucent Usa Inc. Digital voice enhancement
US20080249767A1 (en) * 2007-04-05 2008-10-09 Ali Erdem Ertan Method and system for reducing frame erasure related error propagation in predictive speech parameter coding
WO2008146466A1 (ja) * 2007-05-24 2008-12-04 Panasonic Corporation オーディオ復号装置、オーディオ復号方法、プログラム及び集積回路
KR100906766B1 (ko) * 2007-06-18 2009-07-09 한국전자통신연구원 키 재동기 구간의 음성 데이터 예측을 위한 음성 데이터송수신 장치 및 방법
KR101450297B1 (ko) * 2007-09-21 2014-10-13 오렌지 복잡성 분배를 이용하는 디지털 신호에서의 전송 에러 위장
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
CN101588341B (zh) * 2008-05-22 2012-07-04 华为技术有限公司 一种丢帧隐藏的方法及装置
KR20090122143A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
USD605629S1 (en) 2008-09-29 2009-12-08 Vocollect, Inc. Headset
JP2010164859A (ja) * 2009-01-16 2010-07-29 Sony Corp オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム
CN101609677B (zh) * 2009-03-13 2012-01-04 华为技术有限公司 一种预处理方法、装置及编码设备
US8160287B2 (en) 2009-05-22 2012-04-17 Vocollect, Inc. Headset with adjustable headband
US8438659B2 (en) 2009-11-05 2013-05-07 Vocollect, Inc. Portable computing device and headset interface
PL3364411T3 (pl) * 2009-12-14 2022-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie do kwantyzacji wektorowej, urządzenie do kodowania głosu, sposób kwantyzacji wektorowej i sposób kodowania głosu
PT2676270T (pt) 2011-02-14 2017-05-02 Fraunhofer Ges Forschung Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade
KR101424372B1 (ko) 2011-02-14 2014-08-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 랩핑 변환을 이용한 정보 신호 표현
BR112013020324B8 (pt) * 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
PT3239978T (pt) 2011-02-14 2019-04-02 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
AR085794A1 (es) 2011-02-14 2013-10-30 Fraunhofer Ges Forschung Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral
US8849663B2 (en) * 2011-03-21 2014-09-30 The Intellisis Corporation Systems and methods for segmenting and/or classifying an audio signal from transformed audio information
US9142220B2 (en) 2011-03-25 2015-09-22 The Intellisis Corporation Systems and methods for reconstructing an audio signal from transformed audio information
US9026434B2 (en) * 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
US8620646B2 (en) 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
CN104011793B (zh) * 2011-10-21 2016-11-23 三星电子株式会社 帧错误隐藏方法和设备以及音频解码方法和设备
EP2830062B1 (en) * 2012-03-21 2019-11-20 Samsung Electronics Co., Ltd. Method and apparatus for high-frequency encoding/decoding for bandwidth extension
US9123328B2 (en) * 2012-09-26 2015-09-01 Google Technology Holdings LLC Apparatus and method for audio frame loss recovery
US20150302892A1 (en) * 2012-11-27 2015-10-22 Nokia Technologies Oy A shared audio scene apparatus
US9437203B2 (en) * 2013-03-07 2016-09-06 QoSound, Inc. Error concealment for speech decoder
FR3004876A1 (fr) * 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
FR3011408A1 (fr) 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
ES2805744T3 (es) 2013-10-31 2021-02-15 Fraunhofer Ges Forschung Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo
KR101940740B1 (ko) 2013-10-31 2019-01-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
US9437211B1 (en) * 2013-11-18 2016-09-06 QoSound, Inc. Adaptive delay for enhanced speech processing
EP2922056A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
EP2922055A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
EP2922054A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
CN107004417B (zh) * 2014-12-09 2021-05-07 杜比国际公司 Mdct域错误掩盖
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
US9922668B2 (en) 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
US9870785B2 (en) 2015-02-06 2018-01-16 Knuedge Incorporated Determining features of harmonic signals
MX2018010756A (es) * 2016-03-07 2019-01-14 Fraunhofer Ges Forschung Unidad de ocultamiento de error, decodificador de audio, y método relacionado y programa de computadora que usa características de una representación decodificada de una trama de audio decodificada apropiadamente.
ES2874629T3 (es) * 2016-03-07 2021-11-05 Fraunhofer Ges Forschung Unidad de ocultación de error, decodificador de audio y método y programa informático relacionados que desvanecen una trama de audio ocultada según factores de amortiguamiento diferentes para bandas de frecuencia diferentes
EP3553777B1 (en) * 2018-04-09 2022-07-20 Dolby Laboratories Licensing Corporation Low-complexity packet loss concealment for transcoded audio signals
US10763885B2 (en) 2018-11-06 2020-09-01 Stmicroelectronics S.R.L. Method of error concealment, and associated device
WO2020164751A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment
CN111063362B (zh) * 2019-12-11 2022-03-22 中国电子科技集团公司第三十研究所 一种数字语音通信噪音消除和语音恢复方法及装置
CN111554309A (zh) * 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 一种语音处理方法、装置、设备及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2746033B2 (ja) * 1992-12-24 1998-04-28 日本電気株式会社 音声復号化装置
CA2142391C (en) * 1994-03-14 2001-05-29 Juin-Hwey Chen Computational complexity reduction during frame erasure or packet loss
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
CA2177413A1 (en) * 1995-06-07 1996-12-08 Yair Shoham Codebook gain attenuation during frame erasures
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
EP1686563A3 (en) * 1997-12-24 2007-02-07 Mitsubishi Denki Kabushiki Kaisha Method and apparatus for speech decoding
FR2774827B1 (fr) * 1998-02-06 2000-04-14 France Telecom Procede de decodage d'un flux binaire representatif d'un signal audio
US6449590B1 (en) * 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6556966B1 (en) * 1998-08-24 2003-04-29 Conexant Systems, Inc. Codebook structure for changeable pulse multimode speech coding
JP3365360B2 (ja) * 1999-07-28 2003-01-08 日本電気株式会社 音声信号復号方法および音声信号符号化復号方法とその装置
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform

Also Published As

Publication number Publication date
AU2001289991A1 (en) 2002-03-22
DE60132217T2 (de) 2009-01-29
WO2002021515A1 (fr) 2002-03-14
DE60132217D1 (de) 2008-02-14
HK1055346A1 (en) 2004-01-02
EP1316087B1 (fr) 2008-01-02
FR2813722A1 (fr) 2002-03-08
EP1316087A1 (fr) 2003-06-04
IL154728A (en) 2008-07-08
US20100070271A1 (en) 2010-03-18
IL154728A0 (en) 2003-10-31
JP5062937B2 (ja) 2012-10-31
US20040010407A1 (en) 2004-01-15
JP2004508597A (ja) 2004-03-18
US7596489B2 (en) 2009-09-29
FR2813722B1 (fr) 2003-01-24
ATE382932T1 (de) 2008-01-15
US8239192B2 (en) 2012-08-07

Similar Documents

Publication Publication Date Title
ES2298261T3 (es) Disimulacion de errores de transmision en una señal de audio.
KR101290425B1 (ko) 소거된 스피치 프레임을 복원하는 시스템 및 방법
JP4967054B2 (ja) 受信器において実行される方法および受信器
ES2625895T3 (es) Método y dispositivo para la ocultación eficiente del borrado de tramas en códecs de voz basados en la predicción lineal
KR101092267B1 (ko) 프레임 삭제 복구를 위한 시스템, 방법, 및 장치
ES2434947T3 (es) Procedimiento y dispositivo para la ocultación eficiente de un borrado de trama en códecs de voz
JP3432082B2 (ja) フレーム消失の間のピッチ遅れ修正方法
EP2026330B1 (en) Device and method for lost frame concealment
ES2865099T3 (es) Procedimiento y aparato de ocultación de errores de trama y procedimiento y aparato de decodificación que usa los mismos
Geiser et al. High rate data hiding in ACELP speech codecs
US20120232889A1 (en) Method and apparatus for performing packet loss or frame erasure concealment
JPH09120298A (ja) フレーム消失の間の音声復号に使用する音声の有声/無声分類
ES2378972T3 (es) Atenuación de la sobresonorización, en particular para la generación de una excitación en un decodificador, en ausencia de información
BRPI0718422B1 (pt) Método para sintetizar um sinal de áudio digital, memória de um dispositivo de síntese de sinal de áudio digital, dispositivo de síntese de sinal de áudio digital e decodificador de um sinal de áudio digital
RU2741518C1 (ru) Кодирование и декодирование аудиосигналов
JPH09120297A (ja) フレーム消失の間のコードブック利得減衰