ES2217772T3 - Tecnicas mejoradas de recuperacion de tramas perdidas para sistemas parametricos de codificacion predictiva de voz. - Google Patents

Tecnicas mejoradas de recuperacion de tramas perdidas para sistemas parametricos de codificacion predictiva de voz.

Info

Publication number
ES2217772T3
ES2217772T3 ES99930163T ES99930163T ES2217772T3 ES 2217772 T3 ES2217772 T3 ES 2217772T3 ES 99930163 T ES99930163 T ES 99930163T ES 99930163 T ES99930163 T ES 99930163T ES 2217772 T3 ES2217772 T3 ES 2217772T3
Authority
ES
Spain
Prior art keywords
frame
lost
frames
plot
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES99930163T
Other languages
English (en)
Inventor
Grant Ian Ho
Marion Baraniecki
Suat Yeldener
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Comsat Corp
Original Assignee
Comsat Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Comsat Corp filed Critical Comsat Corp
Application granted granted Critical
Publication of ES2217772T3 publication Critical patent/ES2217772T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

Método para recuperar una trama perdida para un sistema del tipo en el que se transmite información en tramas sucesivas de señales codificadas y en el que la información se reconstruye a partir de dichas señales codificadas en un receptor, comprendiendo dicho método: almacenar las señales codificadas de una primera trama anterior a dicha trama perdida; almacenar las señales codificadas de una segunda trama posterior a dicha trama perdida; interpolar entre las señales codificadas de dichas primera y segunda trama para obtener unas señales codificadas correspondientes a dicha trama perdida; calcular un periodo fundamental de la voz (pitch lag) estimado y una ganancia de predicción para la primera trama; caracterizado por la etapa de clasificar dicha trama perdida como trama vocal o no vocal en base a dicha ganancia de predicción y periodo fundamental estimado de la primera trama.

Description

Técnicas mejoradas de recuperación de tramas perdidas para sistemas paramétricos de codificación predictiva de voz.
Antecedentes de la invención
La transmisión de voz comprimida sobre redes móviles y de conmutación de paquetes implica dos sistemas importantes. El sistema fuente de voz codifica la señal de voz por tramas, empaqueta la voz comprimida en octetos de bits de información, o en paquetes, y envía estos paquetes por la red. Después de alcanzar el sistema de voz de destino, los octetos de bits de información son desempaquetados resultando en tramas y decodificados. El codificador de voz de tasa dual G.723.1, descrito en la recomendación de la ITU-T G.723.1, "Dual Rate Speech Coder for Multimedia Communications Transmitting at 5.3 and 6.3 kbits/s," de marzo de 1996 (de aquí en adelante "Referencia 1") fue ratificado por la ITU-T en 1996 y ha sido utilizado desde entonces para incorporar servicios de voz sobre varias redes de conmutación de paquetes al igual que sobre redes de comunicaciones móviles. Con una puntuación de opinión promedio de 3,98 sobre 5,0 (véase, Thryft, A.R., "Voice over IP Looms for Intranets in '98," Electronic Engineering Times, agosto de 1997, ejemplar 967, páginas 79, 102, indicado como "Referencia 2" de aquí en adelante), la calidad de conexión telefónica interurbana de corta distancia de la recomendación G.723.1 es ideal para aplicaciones multimedia en tiempo real sobre redes privadas y de área local (LANs) donde la pérdida de paquetes es mínima. Sin embargo, en redes de área extensa (WANs), redes de área global (GANs), y redes de comunicaciones móviles, la congestión puede ser grave, y la pérdida de paquetes puede resultar en una voz fuertemente degradada si no se trata al respecto. Por tanto, es necesario desarrollar técnicas para reconstruir en el receptor las tramas de voz perdidas para minimizar la distorsión y mantener una inteligibilidad de la salida.
La siguiente exposición del codificador de tasa dual G.273.1 y su ocultación de errores facilitará una mayor comprensión de la invención.
El codificador de tasa dual G.273.1 codifica voz modulada según modulación por impulsos codificados (PCM) lineal de 16 bits, muestreada a una frecuencia de 8 KHz, utilizando codificación predictiva lineal de análisis por síntesis. La señal de excitación para el codificador de tasa alta resulta de una Cuantificación por Máxima Probabilidad de Impulsos Múltiples (MP-MLQ) mientras que la señal de excitación para el codificador de tasa baja resulta de una Predicción Lineal con Excitación por Código Algebraico (ACELP). El codificador funciona con una duración de trama de 30 ms, lo que equivale a una longitud de trama de 240 muestras, y divide cada trama en cuatro subtramas de 60 muestras cada una. Para cada trama de voz de 30 ms, se calcula un filtro de codificación de predicción lineal (LPC) de orden 10 y sus coeficientes son cuantificados en forma de parámetros de un par de líneas espectrales (LSP) para ser transmitidos al decodificador. Finalmente, la señal de excitación, que consiste en la ganancia de libro de código fijo, las posiciones de los pulsos, los signos de los pulsos y el índice de cuadrícula, es aproximada utilizando o bien MP-MLQ para el codificador de tasa alta o ACELP para el codificador de tasa baja, y se transmite al decodificador. En suma, el tren de bits enviado desde el codificador al decodificador consiste en los parámetros LSP, los retardos de libro de código adaptativo, las ganancias de libro de código fijo y adaptativos, las posiciones de los pulsos, los signos de los pulsos y el índice de cuadrícula.
En el decodificador, se decodifican los parámetros LSP y el filtro de síntesis LPC genera la voz reconstruida. Para cada subtrama, las contribuciones del libro de código fijo y del libro de código adaptativo se envían a un postfiltro de tono fundamental de la voz (pitch postfilter), cuya salida entra en el filtro de síntesis LPC. La salida del filtro de síntesis se envía entonces a un postfiltro conformador y a un sistema de escalado de ganancia para generar la salida sintetizada. En el caso de que se indiquen borrados de trama, se aporta una estrategia de ocultación de errores, descrita en la siguiente subsección. La figura 1 muestra un diagrama de bloques del decodificador G.723.1.
Si tiene lugar una pérdida de paquetes, la ocultación de errores de la actual recomendación G.723.1 implica dos etapas principales. La primera etapa es la recuperación de un vector LSP y la segunda etapa es la recuperación de la señal de excitación. En la primera etapa, se recupera el vector LSP de la trama perdida aplicando un predictor lineal fijo sobre el vector LSP decodificado previamente. En la segunda etapa, la señal de excitación de la trama perdida se recupera utilizando sólo la información reciente disponible en el decodificador. Esto se logra configurando en primer lugar el clasificador de trama vocal/no-vocal respecto la trama anterior utilizando una función de maximización de la correlación cruzada y comprobando después la ganancia de predicción para el mejor vector. Si la ganancia es mayor que 0,58 dB, la trama es declarada trama vocal, y en el caso contrario, se declara la trama como trama de no vocal. Entonces el clasificador devuelve un valor de 0 si la trama previa es no vocal, o retorna el periodo fundamental de la voz (pitch lag) si la trama previa es vocal. En el caso de que no sea vocal, entonces se genera la excitación de la trama perdida utilizando un generador de números aleatorios de distribución uniforme y se escala según el promedio de las ganancias de las subtramas 2 y 3 de la trama previa. Si no, en el caso de que sea vocal, se atenúa la trama vocal en 2,5 dB y se regenera con una excitación periódica que tiene un periodo igual al periodo fundamental estimado. Si se siguen perdiendo paquetes de las dos tramas siguientes, la excitación regenerada se atenúa en unos 2,5 dB adicionales para cada trama, pero después de tres tramas interpoladas, la salida es silenciada completamente, tal como se describe en la Referencia 1.
La estrategia de ocultación de errores de la recomendación G.723.1 fue comprobada enviando varios segmentos de voz sobre una red con niveles de pérdida de paquetes de 1%, 3%, 6%, 10% y 15%. Para cada nivel se simuló tanto pérdidas múltiples como pérdidas individuales. Mediante una serie de pruebas informales de escucha, se demostró que aunque la calidad global de salida fue muy buena en el caso de niveles bajos de pérdida de paquetes, un cierto número de problemas persistieron y se hicieron progresivamente graves a todos los niveles a medida que la pérdida de paquetes aumentaba.
En primer lugar, algunas partes del segmento de salida sonaron poco naturales y contenían muchos efectos molestos de sonido metálico. La calidad de sonido poco natural de la salida puede atribuirse a la recuperación del vector LSP en base a un predictor fijo como se ha descrito previamente. Ya que el vector LSP de la trama perdida se recupera aplicando un predictor fijo sobre el vector LSP de las tramas previas, los cambios espectrales entre las tramas previas y las tramas reconstruidas no son suaves. Como resultado del fracaso en la generación de cambios espectrales suaves para las tramas perdidas, se obtiene una calidad sonido poco natural, que aumenta la ininteligibilidad cuando se dan altos niveles de pérdida de paquetes. Además, se escucharon muchos efectos indeseados de sonido metálico en la salida. Estos efectos de sonido metálico tenían lugar principalmente en las regiones consideradas no vocales de la salida, y se deben a la estimación incorrecta de la trama previa durante la recuperación de la señal de excitación. En otras palabras, ya que un trama perdida considerada no vocal puede ser clasificada como vocal, entonces el cambio hacia la trama perdida generará un transitorio de alta frecuencia, o efecto de sonido metálico, debido a la aplicación del periodo fundamental calculado para la trama previa. A medida que la pérdida de paquetes aumenta, este problema se hace más grave, debido a que la estimación incorrecta de la voz genera una distorsión mayor.
Otro problema al utilizar la ocultación de errores de la recomendación G.723.1 fue la presencia de picos de alta energía en la salida. Estos picos de alta energía, que son especialmente molestos al oído, se deben a la estimación incorrecta de los coeficientes LPC durante el postfiltrado conformador, debido a la predicción pobre de los parámetros LSP o de ganancia, utilizando las predicciones fijas del G.273.1 de parámetros LSP y de recuperación de excitación. Una vez más, a medida que la pérdida de paquetes aumenta, el número de picos de alta energía también aumenta, comportando una mayor distorsión e incomodidad para el oyente.
Finalmente, la voz entrecortada que resulta de silenciar completamente la salida fue evidente. Ya que la ocultación de errores de la recomendación G.723.1 no reconstruye más de tres tramas perdidas consecutivas, todas las tramas restantes son simplemente silenciadas, conduciendo por tanto a fragmentos de silencio en la salida o voz entrecortada. Cuando aumenta la pérdida de paquetes, ya que la probabilidad de que se produzca pérdida en una red de más de tres paquetes consecutivos es alta, aumentará la voz entrecortada y con ello disminuye la inteligibilidad y la distorsión a la salida.
Debe hacerse referencia al documento EP-A-0.459.358 que describe un decodificador de voz cuyo objetivo es obtener una voz reproducida de alta calidad con sólo una ligera deterioración de la calidad de sonido. Para recuperar parámetros de una trama perdida, un circuito interpolador interpola entre parámetros de tramas pasadas y de tramas futuras adecuadas.
Sumario de la invención
Es un objetivo de la presente invención eliminar los problemas anteriores y mejorar la estrategia de ocultación de errores definida en la Referencia 1. Estos y otros objetivos se logran mediante una técnica mejorada de recuperación de trama perdida que emplea interpolación lineal, atenuación de energía selectiva y ponderación de energía.
Según la presente invención, se proporciona un método para recuperar una trama perdida para un sistema del tipo en el que se transmite información en tramas sucesivas de señales codificadas y en el que la información se reconstruye a partir de dichas señales codificadas en un receptor, comprendiendo dicho método:
almacenar las señales codificadas de una primera trama anterior a dicha trama perdida;
almacenar las señales codificadas de una segunda trama posterior a dicha trama perdida;
interpolar entre las señales codificadas de dichas primera y segunda trama para obtener unas señales codificadas correspondientes a dicha trama perdida;
calcular un periodo fundamental estimado y una ganancia de predicción para la primera trama; y
clasificar dicha trama perdida como trama vocal o no vocal en base a dicha ganancia de predicción y periodo fundamental estimado de la primera trama.
La interpolación lineal de los parámetros del modelo de voz es una técnica diseñada para obtener cambios suaves de espectro según se producen borrados de trama, eliminando por tanto de la salida cualquier sonido poco natural o efectos de sonido metálico en la voz. La interpolación lineal funciona de la siguiente forma: 1) En el decodificador, se incorpora una memoria provisional para almacenar la trama o paquete de voz futuro. La información previa o futura que se almacena en la memoria provisional se utiliza para interpolar los parámetros del modelo de voz de la trama perdida, generando por tanto cambios más suaves en el espectro según se producen las sucesivas tramas perdidas que si tan sólo se utilizase un predictor fijo, tal como ocurre en la ocultación de errores de la recomendación G.723.1; 2) La clasificación de la naturaleza vocal o no vocal de los paquetes se basa entonces tanto en el valor de periodo fundamental estimado como en la ganancia de predicción de la trama previa, en oposición al simple uso de la ganancia de predicción en la ocultación de errores de la recomendación G.723.1; esto mejora la probabilidad de estimación correcta de la naturaleza vocal de la trama perdida. Aplicando la primera parte de la técnica de interpolación lineal se logra un sonido de voz más natural; aplicando la segunda parte de la técnica de interpolación lineal, casi todos los efectos indeseados de sonido metálico son enmascarados de forma efectiva.
Para eliminar los efectos de los picos de alta energía, se desarrolló una técnica selectiva de atenuación de energía. Esta técnica compara la energía de señal para cada subtrama sintetizada respecto a un valor umbral, y si se supera el umbral, atenúa todas las energías de señal de toda la trama a un nivel aceptable. Combinada con la interpolación lineal, esta técnica de atenuación selectiva de la energía elimina de forma efectiva de la salida todas las apariciones de picos de alta energía.
Finalmente, se diseñó una técnica de ponderación de energía para eliminar los efectos de voz "entrecortada". Siempre que se pierdan en exceso múltiples paquetes de una trama, esta técnica simplemente repite la trama válida anterior para cada trama perdida, reduciendo gradualmente la energía de señal de la trama repetida. Al emplear esta técnica, la energía de la señal de salida es gradualmente suavizada o ponderada durante las pérdidas de múltiples paquetes, eliminando de ese modo cualquier fragmento de silencio o efecto de voz "entrecortada" evidente en la ocultación de errores de la recomendación G.723.1. Otra ventaja de la ponderación de energía es la relativamente pequeña cantidad de tiempo de cálculo requerido para la reconstrucción de los paquetes perdidos. En comparación con la ocultación de errores de la recomendación G.723.1, debido a que esta técnica sólo implica una atenuación gradual de las energías de señal de las tramas repetidas, frente a la realización de la predicción fija de parámetros LSP y la recuperación de la excitación de la recomendación G.723.1, el retardo algorítmico total es considerablemente inferior.
Breve descripción de los dibujos
La invención se comprenderá con mayor claridad a partir de la siguiente descripción, considerada conjuntamente con los dibujos adjuntos, en los que:
La figura 1 es un diagrama de bloques que muestra el funcionamiento del decodificador G.723.1;
La figura 2 es un diagrama de bloques que ilustra el uso de las memorias provisionales Futuro, Actual y Copia en la técnica de interpolación según la presente invención;
Las figuras 3a a 3c son formas de onda que ilustran la eliminación de picos de alta energía mediante la técnica de ocultación de errores de la presente invención; y
Las figuras 4a a 4c son formas de onda que ilustran la eliminación del silenciado de la salida mediante la técnica de ocultación de errores según la presente invención.
Descripción detallada de la invención
La presente invención comprende tres técnicas utilizadas para eliminar los problemas expuestos anteriormente que provienen de la ocultación de errores de la recomendación G.723.1, principalmente, voz que suena poco natural, efectos de sonido metálico, picos de alta energía y voz "entrecortada". Nótese que las técnicas de ocultación de errores descritas se pueden aplicar sobre diferentes tipos de Codificación Predictiva Lineal paramétrica (LPC) basada en codificadores de voz (por ejemplo, APC, RELP, RPE-LPC, MPE-LPC, CELP, SELF, CELB-BB, LD-CELP y VSELP) al igual que sobre diferentes redes de conmutación de paquetes (por ejemplo, la red Internet, una red de Modo de Transferencia Asíncrono (ATM) y una red de Retransmisión de Trama (FR)) y de comunicaciones móviles (por ejemplo, vía satélite y celulares digitales). De ese modo, aunque la invención se describirá en el contexto del codificador G.273.1 MP-MLQ de 6,3 Kbps sobre Internet, utilizando terminología asociada a este codificador de voz concreto y a esta red concreta, la invención no queda limitada por ello, si no que se puede aplicar a otros codificadores de voz basados en LPC (por ejemplo, el codificador ACELP de tasa baja, al igual que otros codificadores similares) y a redes diferentes.
Interpolación lineal
La interpolación lineal de los parámetros del modelo de voz se desarrolló para suavizar los cambios espectrales según un único borrado de trama (por ejemplo, una trama perdida entre dos tramas válidas) y por tanto, generar una salida con un sonido más natural eliminando de la misma efectos de sonido metálico. La configuración del sistema de interpolación lineal se ilustra en la figura 2. La interpolación lineal requiere tres memorias provisionales - la memoria "Futuro", la memoria "Actual" y la memoria "Copia", siendo el tamaño de cada una equivalente a la longitud de una trama de 30 ms. Estas memorias provisionales son colocadas en el receptor antes de que tenga lugar la decodificación y la síntesis. Antes de describir esta técnica, es necesario primero definir los siguientes términos según se aplican a la interpolación lineal:
Trama previa, es la última trama válida que fue procesada por el decodificador, y se almacena en la memoria Copia.
Trama actual, es un trama válida o perdida, que está siendo procesada actualmente por el decodificador, y se almacena en la memoria Actual.
Trama futura, es una trama válida o perdida inmediatamente posterior a la trama actual, y se almacena en la memoria Futuro.
La interpolación lineal es un procedimiento de múltiples etapas que funciona como sigue:
1. La memoria Actual almacena la trama válida actual que va a ser procesada mientras la memoria Futuro almacena la trama futura de la secuencia de voz codificada. Se realiza una copia de los parámetros del modelo de voz de la trama actual y se almacena en la memoria Copia.
2. Se determina el estado, o bien válida o bien perdida, de la trama futura. Si la trama futura es válida, no es necesaria la interpolación lineal; y el indicador de interpolación lineal se pone a cero. Si la trama futura es una trama perdida, será necesaria la interpolación lineal; y el indicador de interpolación lineal se pone provisionalmente a 1. (En un sistema en tiempo real, se detecta una trama perdida o bien por expiración de temporización o por fallo de la Prueba de Redundancia Cíclica (CRC), en el receptor. Sin embargo, estos algoritmos de detección de trama perdida no forman parte de la invención, pero deben tenerse en cuenta y ser incorporados en el decodificador para facilitar el adecuado funcionamiento de cualquier estrategia de reconstrucción de paquetes.)
3. La trama actual es descodificada y sintetizada. Se realiza una copia del filtro de síntesis LPC y de la excitación postfiltrada del periodo fundamental correspondientes a la trama actual.
4. La trama futura, originalmente almacenada en la memoria Futuro, pasa a ser la trama actual y se almacena en la memoria Actual. La siguiente trama de la secuencia de voz codificada llega como trama futura a la memoria Futuro.
5. Se comprueba el valor del indicador de interpolación lineal. Si el indicador está a 0, el proceso retrocede a la etapa (1). Si el indicador está a 1, el proceso pasa a la etapa (6).
6. Se determina el estado de la trama futura. Si la trama futura es válida, se aplica interpolación lineal; el indicador de interpolación lineal se mantiene a 1 y el proceso pasa a la etapa (7). Si la trama futura es una trama perdida, se aplica ponderación de energía; el indicador de ponderación de energía se pone a 1 y el indicador de interpolación lineal se pone a cero. (Nota: La técnica de ponderación de energía se aplica sólo en el caso de múltiples tramas perdidas y se describirá más tarde en esta memoria).
7. Se realiza la recuperación de los parámetros LSP. Aquí, se promedian los vectores LSP de orden 10 correspondientes a las tramas válidas previa y futura, almacenadas en la memoria Copia y en la memoria Futuro respectivamente, para obtener el vector LSP de la trama actual.
8. Se realiza la recuperación de la señal de excitación. Aquí, se promedian las ganancias de libro de código fijo correspondientes a las tramas previa y futura, almacenadas en las memorias Copia y Futuro, para obtener la ganancia de libro de código fijo correspondiente a la trama perdida. El resto de parámetros del modelo de voz se toman de la trama previa.
9. Se realiza la estimación del periodo fundamental y de la ganancia de predicción de la trama previa, almacenada en la memoria Copia, con el mismo procedimiento idéntico de la ocultación de errores de la recomendación G.723.1.
10. Si la ganancia de predicción es menor que 0,58 dB, se declara la trama como trama no vocal, y la señal de excitación correspondiente a la trama actual se genera utilizando un generador de números aleatorios y se escala mediante la ganancia de libro de código fijo calculada en la etapa (8).
11. Si la ganancia de predicción es mayor que 0,58 dB y el periodo fundamental estimado supera un cierto valor umbral P_{umbral}, la trama es declarada como trama vocal, y la señal de excitación correspondiente a la trama actual se genera atenuando primero la señal de excitación previa en 1,25 dB cada dos subtramas, y regenerando luego esta señal de excitación con un periodo igual al periodo fundamental estimado. En caso contrario, la trama se declara como trama vocal y la señal de excitación se recupera del mismo modo que en la etapa (10).
12. Después de la recuperación de los parámetros LSP y de la señal de excitación, se decodifica y se sintetiza la trama actual con sus parámetros LSP y de ganancias recién interpolados, y el procedimiento retrocede a la etapa (13).
13. La trama futura, originalmente en la memoria Futuro pasa a ser la trama actual y se almacena en la memoria Actual. La siguiente trama de la secuencia de voz codificada llega a modo de trama futura a la memoria Futuro. El procedimiento vuelve entonces a la etapa (1).
Existen al menos dos ventajas importantes de la interpolación lineal frente a la ocultación de errores de la recomendación G.723.1. La primera ventaja tiene lugar en la etapa (7), durante la recuperación de los parámetros LSP. En la etapa (7), debido a que la interpolación lineal determina los parámetros LSP de la trama perdida en base a las tramas previa y futura, esto proporciona una mejor estimación de los parámetros LSP de la trama perdida, permitiendo por tanto suavizar más los cambios espectrales durante la trama perdida que si se utilizase predicción fija de parámetros LSP, como es el caso de la ocultación de errores de la recomendación G.723.1. Como resultado se genera una voz con sonido más natural e inteligible, aumentando por tanto la comodidad para el oyente.
La segunda ventaja de la interpolación lineal ocurre en las etapas (8) a (11), durante la recuperación de excitación. En primer lugar, en la etapa (8), ya que la interpolación lineal genera los parámetros de ganancia de la trama perdida promediando las ganancias de libro de código fijo entre las tramas previa y futura, proporciona una mejor estimación de la ganancia de trama perdida, al contrario de la técnica descrita en la ocultación de errores de la recomendación G.723.1. Esta ganancia interpolada, que se aplica entonces a las tramas vocales en la etapa (10), genera por tanto unas transiciones de ganancia más suaves, de sonido más agradable durante el borrado de tramas. En segundo lugar, en la etapa (11), la clasificación según la naturaleza vocal de la trama se basa tanto en la ganancia de predicción como en el periodo fundamental estimado, al contrario de sólo basarse en la ganancia de predicción tal como ocurre en la ocultación de errores de la recomendación G.723.1. Es decir, las tramas cuya ganancia de predicción es mayor que 0,58 dB también se comparan con un valor umbral de periodo fundamental, P_{umbral}. Debido a que las tramas no vocales están compuestas de componentes espectrales principalmente de alta frecuencia, aquellas tramas que tienen unos periodos fundamentales estimados pequeños, y por tanto frecuencias fundamentales estimadas altas, tienen por tanto una alta probabilidad de ser tramas no vocales. Así pues, aquellas tramas cuyos periodos fundamentales estimados caen por debajo de P_{umbral} son declaradas tramas no vocales y todas aquellas cuyos periodos fundamentales estimados superan P_{umbral} son declaradas tramas vocales. En resumen, mediante la determinación selectiva de la clasificación de la naturaleza vocal de una trama en base tanto a la ganancia de predicción como al periodo fundamental estimado, la técnica de esta invención enmascara de forma efectiva todas las apariciones de efectos de alta frecuencia de sonido metálico que tienen lugar en la salida. Como resultado, se aumenta globalmente la inteligibilidad y la comodidad del oyente.
Atenuación selectiva de energía
La atenuación selectiva de energía se desarrolló para eliminar la aparición de picos de alta energía que se escuchan cuando se utiliza la ocultación de errores de la recomendación G.723.1. En referencia a la figura 1, estos picos de alta energía se generan debido a una estimación incorrecta de los coeficientes LPC durante el postfiltrado conformador, debido a la predicción pobre de los parámetros LSP o de ganancia de la ocultación de errores de la recomendación G.723.1. Para proporcionar mejores estimadores de los parámetros LSP y de ganancia de una trama perdida, se desarrolló la interpolación lineal tal como se ha descrito anteriormente. Además, la energía de señal para cada subtrama sintetizada, después del postfiltrado conformador, se compara con un valor umbral de energía S_{umbral}. Si la energía de señal para cualquiera de las cuatro subtramas supera S_{umbral}, entonces las energías de señal de todas las subtramas restantes son atenuadas a un nivel de energía aceptable S_{max}. Esta técnica de atenuación selectiva de energía, combinada con la interpolación lineal elimina todas las apariciones de picos de alta energía, sin degradar notablemente la salida. Se aumenta globalmente la inteligibilidad de la voz y la comodidad del oyente. La figura 3b muestra la presencia de un pico de alta energía debido a la ocultación de errores de la recomendación G.723.1; la figura 3c muestra la eliminación del pico de alta energía debido a atenuación selectiva de energía e interpolación lineal.
Ponderación de energía
La ponderación de energía se desarrolló para eliminar los efectos de voz "entrecortada" generados por la ocultación de errores de la recomendación G.723.1. Como ya se ha citado, la voz "entrecortada" se produce cuando la ocultación de errores de la recomendación G.723.1 silencia completamente la salida después de recuperar tres tramas perdidas. Como resultado, se generan fragmentos de silencio en la salida, reduciendo por tanto la inteligibilidad y produciendo voz "entrecortada". Para eliminar este problema se diseñó una técnica de ponderación de energía de múltiples etapas. En relación a la figura 2, está técnica funciona como sigue:
1. La memoria provisional Actual almacena la trama válida actual que va a ser procesada mientras la memoria provisional Futuro almacena la trama futura de la secuencia de voz codificada. Se realiza una copia de los parámetros del modelo de voz de la trama actual y se almacenan en la memoria provisional Copia.
2. Se determina el estado, o bien válida o bien perdida, de la trama futura. Si la trama futura es válida, no es necesaria la interpolación lineal; y el indicador de interpolación lineal se pone a cero. Si la trama futura es una trama perdida, será necesaria la interpolación lineal; y el indicador de interpolación lineal se pone provisionalmente a 1.
3. La trama actual es descodificada y sintetizada. Se realiza una copia del filtro de síntesis LPC y de la excitación postfiltrada correspondiente al periodo fundamental de la trama actual.
4. La trama futura, originalmente almacenada en la memoria Futuro, pasa a ser la trama actual y se almacena en la memoria Actual. La siguiente trama de la secuencia de voz codificada llega como trama futura a la memoria Futuro.
5. Se comprueba el valor del indicador de interpolación lineal. Si el indicador está a 0, el proceso retrocede a la etapa (1). Si el indicador está a 1, el proceso pasa a la etapa (6).
6. Se determina el estado de la trama futura. Si la trama futura es válida, se aplica interpolación lineal tal como se ha descrito en el apartado 3.1. Si la trama futura es una trama perdida, se aplica ponderación de energía; el indicador de ponderación de energía se pone a 1, el indicador de interpolación lineal se pone a 0, y el procedimiento pasa a la etapa (7).
7. La copia de la señal de excitación postfiltrada correspondiente al periodo fundamental de la trama previa, de la etapa (3), es atenuada en (0,5 x valor del indicador de ponderación de energía) dB.
8. La copia del filtro de síntesis LPC de la trama previa, de la etapa (3), se utiliza para sintetizar la trama actual utilizando la señal de excitación atenuada de la etapa (7).
9. La trama futura, originalmente en la memoria Futuro pasa a ser la trama actual y se almacena en la memoria Actual. La siguiente trama de la secuencia de voz codificada llega a modo de trama futura a la memoria Futuro.
10. Se sintetiza la trama actual utilizando las etapas (7) a (9), pasando entonces a la etapa (11).
11. Se determina el estado de la trama futura. Si la trama futura es válida, no se aplica ponderación de energía adicional; el indicador de ponderación de energía se pone a 0, y el procedimiento pasa a la etapa (12). Si la trama futura es una trama perdida, se aplica ponderación de energía adicional; se incrementa en 1 el indicador de ponderación de energía y el procedimiento pasa a la etapa (11).
12. La trama futura, originalmente en la memoria Futuro pasa a ser la trama actual y se almacena en la memoria Actual. La siguiente trama de la secuencia de voz codificada llega a modo de trama futura a la memoria Futuro. El procedimiento vuelve entonces a la etapa (1).
Empleando esta técnica, la energía de la señal de salida es ponderada gradualmente a medida que se producen pérdidas de paquetes, y por tanto, elimina el efecto de voz "entrecortada" que se debe al silenciado total de la salida. La figura 4b muestra la presencia de silenciado total de la salida debido a la ocultación de errores de la recomendación G.723.1; la figura 4c muestra la eliminación del silenciado debido a ponderación de energía. Tal como ilustra la figura 4c, la salida es ponderada gradualmente a medida que se producen pérdidas de paquetes, eliminando por tanto todos los segmentos de silencio puro en la salida y generando una mayor inteligibilidad para el oyente.
Tal como se discute arriba, una de las ventajas claras de la ponderación de energía frente la ocultación de errores de la recomendación G.723.1, a parte de la inteligibilidad mejorada de la salida, es el tiempo de cálculo requerido relativamente menor. Debido a que la ponderación de energía sólo repite el filtro de síntesis LPC de la trama previa y atenúa la ganancia postfiltrada correspondiente al periodo fundamental de la trama previa, el retardo algorítmico total es considerablemente menor comparado con realizar una recuperación de la excitación y de los parámetros LSP a escala completa, como en el caso de la ocultación de errores de la recomendación G.723.1. Esta aproximación minimiza el retardo global con el propósito de proporcionar al usuario un sistema de comunicaciones en tiempo real más robusto.
Resultados mejorados de la invención
Las tres técnicas de ocultación de errores descritas fueron puestas a prueba con varios altavoces bajo niveles de pérdida de paquetes idénticos a los tratados utilizando la ocultación de errores de la recomendación G.723.1. Una serie de pruebas informales de escucha indicaron que para todos los niveles de pérdida de paquetes, la calidad del segmento de voz de salida mejoró significativamente de las siguientes formas: En primer lugar, se logró una voz con sonido más natural y un enmascaramiento efectivo de los efectos de sonido metálico debido a transiciones de espectro más suaves entre tramas perdidas basadas en interpolación lineal y a una clasificación mejorada de la naturaleza vocal. En segundo lugar, se eliminaron todos los picos de alta energía debido a la atenuación selectiva de energía y a la interpolación lineal. Finalmente, se eliminaron todas las apariciones de voz "entrecortada" debido a la ponderación de energía. Es importante darse cuenta de que a medida que aumentan los niveles de congestión de la red, el nivel de pérdidas de paquete también aumenta. Así pues, con el propósito de mantener inteligibilidad de voz en tiempo real, es esencial desarrollar técnicas que oculten con éxito los borrados de trama minimizando a la vez el nivel de degradación a la salida. Las estrategias desarrolladas por los autores representan técnicas que proporcionan una calidad de voz mejorada a la salida, son más robustas en presencia de borrados de trama en comparación con las técnicas descritas en la Referencia 1, y pueden aplicarse fácilmente sobre cualquier codificador de voz paramétrico basado en LPC sobre cualquier red de conmutación de paquetes o de comunicaciones móviles.
Se apreciará que pueden realizarse varios cambios y modificaciones respecto a las formas de realización específicas descritas anteriormente, sin apartarse por ello del alcance de la invención tal como se define en las reivindicaciones adjuntas.

Claims (5)

1. Método para recuperar una trama perdida para un sistema del tipo en el que se transmite información en tramas sucesivas de señales codificadas y en el que la información se reconstruye a partir de dichas señales codificadas en un receptor, comprendiendo dicho método:
almacenar las señales codificadas de una primera trama anterior a dicha trama perdida;
almacenar las señales codificadas de una segunda trama posterior a dicha trama perdida;
interpolar entre las señales codificadas de dichas primera y segunda trama para obtener unas señales codificadas correspondientes a dicha trama perdida;
calcular un periodo fundamental de la voz (pitch lag) estimado y una ganancia de predicción para la primera trama;
caracterizado por la etapa de clasificar dicha trama perdida como trama vocal o no vocal en base a dicha ganancia de predicción y periodo fundamental estimado de la primera trama.
2. Método según la reivindicación 1, en el que dichas señales codificadas incluyen una pluralidad de parámetros de Par de Líneas Espectrales (LSP) correspondiente a cada trama, y dicha etapa de interpolación comprende interpolar entre los parámetros LSP de dicha primera trama y los parámetros LSP de dicha segunda trama.
3. Método según la reivindicación 1, en el que cada trama incluye una pluralidad de subtramas, comprendiendo dicho método la etapa de comparar una energía de señal para cada subtrama de una trama particular con un umbral, y atenuar las energías de señal de todas las subtramas de dicha trama particular si la energía de señal de cualquier subtrama supera dicho umbral.
4. Método según la reivindicación 1, en el que en el caso de producirse una pérdida de múltiples tramas sucesivas, dicho método comprende la etapa de repetir las señales codificadas de una trama inmediatamente precedente a dichas múltiples tramas sucesivas mientras se reduce gradualmente la energía de señal de cada trama recuperada.
5. Método según la reivindicación 2, en el que dichas señales codificadas incluyen dichos parámetros LSP, unas ganancias de libro de código fijo y unas señales adicionales de excitación, comprendiendo dicho método interpolar dicha ganancia fija de libro de código de dicha trama perdida a partir de las ganancias de libro de código fijo de dichas primera y segunda trama, y adoptar dichas señales adicionales de excitación de dicha primera trama como señales adicionales de excitación de dicha trama per-
dida.
ES99930163T 1998-06-19 1999-06-16 Tecnicas mejoradas de recuperacion de tramas perdidas para sistemas parametricos de codificacion predictiva de voz. Expired - Lifetime ES2217772T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US99952 1993-07-30
US09/099,952 US6810377B1 (en) 1998-06-19 1998-06-19 Lost frame recovery techniques for parametric, LPC-based speech coding systems

Publications (1)

Publication Number Publication Date
ES2217772T3 true ES2217772T3 (es) 2004-11-01

Family

ID=22277389

Family Applications (1)

Application Number Title Priority Date Filing Date
ES99930163T Expired - Lifetime ES2217772T3 (es) 1998-06-19 1999-06-16 Tecnicas mejoradas de recuperacion de tramas perdidas para sistemas parametricos de codificacion predictiva de voz.

Country Status (8)

Country Link
US (1) US6810377B1 (es)
EP (1) EP1088205B1 (es)
AT (1) ATE262723T1 (es)
AU (1) AU755258B2 (es)
CA (1) CA2332596C (es)
DE (1) DE69915830T2 (es)
ES (1) ES2217772T3 (es)
WO (1) WO1999066494A1 (es)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6661793B1 (en) * 1999-01-19 2003-12-09 Vocaltec Communications Ltd. Method and apparatus for reconstructing media
US7047190B1 (en) * 1999-04-19 2006-05-16 At&Tcorp. Method and apparatus for performing packet loss or frame erasure concealment
CA2335005C (en) * 1999-04-19 2005-10-11 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US7117156B1 (en) * 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US6959274B1 (en) 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
US20020075857A1 (en) * 1999-12-09 2002-06-20 Leblanc Wilfrid Jitter buffer and lost-frame-recovery interworking
GB2373964A (en) * 2000-01-24 2002-10-02 Nokia Inc System for lost packet recovery in voice over internet protocol based on time domain interpolation
FR2804813B1 (fr) * 2000-02-03 2002-09-06 Cit Alcatel Procede de codage facilitant la restitution sonore des signaux de parole numerises transmis a un terminal d'abonne lors d'une communication telephonique par transmission de paquets et equipement mettant en oeuvre ce procede
EP1168705A1 (fr) * 2000-06-30 2002-01-02 Koninklijke Philips Electronics N.V. Procédé et système pour la détection de trames de parole erronées
EP1199711A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Encoding of audio signal using bandwidth expansion
EP1199709A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
US7031926B2 (en) 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
EP1235203B1 (en) * 2001-02-27 2009-08-12 Texas Instruments Incorporated Method for concealing erased speech frames and decoder therefor
JP2002268697A (ja) * 2001-03-13 2002-09-20 Nec Corp パケット誤り耐性付き音声復号装置、音声符号化復号装置、及びその方法
US7590525B2 (en) 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7711563B2 (en) 2001-08-17 2010-05-04 Broadcom Corporation Method and system for frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7308406B2 (en) 2001-08-17 2007-12-11 Broadcom Corporation Method and system for a waveform attenuation technique for predictive speech coding based on extrapolation of speech waveform
EP1433164B1 (en) * 2001-08-17 2007-11-14 Broadcom Corporation Improved frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
FR2830970B1 (fr) * 2001-10-12 2004-01-30 France Telecom Procede et dispositif de synthese de trames de substitution, dans une succession de trames representant un signal de parole
US20040064308A1 (en) * 2002-09-30 2004-04-01 Intel Corporation Method and apparatus for speech packet loss recovery
US7363218B2 (en) * 2002-10-25 2008-04-22 Dilithium Networks Pty. Ltd. Method and apparatus for fast CELP parameter mapping
US20040122680A1 (en) * 2002-12-18 2004-06-24 Mcgowan James William Method and apparatus for providing coder independent packet replacement
DE60327371D1 (de) 2003-01-30 2009-06-04 Fujitsu Ltd EINRICHTUNG UND VERFAHREN ZUM VERBERGEN DES VERSCHWINDENS VON AUDIOPAKETEN, EMPFANGSENDGERuT UND AUDIOKOMMUNIKAITONSSYSTEM
US7411985B2 (en) * 2003-03-21 2008-08-12 Lucent Technologies Inc. Low-complexity packet loss concealment method for voice-over-IP speech transmission
JP2004361731A (ja) * 2003-06-05 2004-12-24 Nec Corp オーディオ復号装置及びオーディオ復号方法
KR100546758B1 (ko) * 2003-06-30 2006-01-26 한국전자통신연구원 음성의 상호부호화시 전송률 결정 장치 및 방법
JP2005027051A (ja) * 2003-07-02 2005-01-27 Alps Electric Co Ltd リアルタイムデータの補正方法及びブルートゥースモジュール
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
US20050091041A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for speech coding
JP2006145712A (ja) * 2004-11-18 2006-06-08 Pioneer Electronic Corp オーディオデータ補間装置
KR100708123B1 (ko) * 2005-02-04 2007-04-16 삼성전자주식회사 자동으로 오디오 볼륨을 조절하는 방법 및 장치
KR100612889B1 (ko) 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
US7930176B2 (en) 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
KR100723409B1 (ko) * 2005-07-27 2007-05-30 삼성전자주식회사 프레임 소거 은닉장치 및 방법, 및 이를 이용한 음성복호화 방법 및 장치
WO2007077841A1 (ja) * 2005-12-27 2007-07-12 Matsushita Electric Industrial Co., Ltd. 音声復号装置および音声復号方法
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
US7877253B2 (en) * 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
CN100578618C (zh) * 2006-12-04 2010-01-06 华为技术有限公司 一种解码方法及装置
CN101226744B (zh) * 2007-01-19 2011-04-13 华为技术有限公司 语音解码器中实现语音解码的方法及装置
WO2008139515A1 (ja) * 2007-04-27 2008-11-20 Fujitsu Limited 信号出力装置、情報機器、信号出力方法および信号出力プログラム
WO2009088257A2 (ko) * 2008-01-09 2009-07-16 Lg Electronics Inc. 프레임 타입 식별 방법 및 장치
CN101221765B (zh) * 2008-01-29 2011-02-02 北京理工大学 一种基于语音前向包络预测的差错隐藏方法
KR100998396B1 (ko) * 2008-03-20 2010-12-03 광주과학기술원 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치
KR101228165B1 (ko) * 2008-06-13 2013-01-30 노키아 코포레이션 프레임 에러 은폐 방법, 장치 및 컴퓨터 판독가능한 저장 매체
CN102648493B (zh) * 2009-11-24 2016-01-20 Lg电子株式会社 音频信号处理方法和设备
US9787501B2 (en) 2009-12-23 2017-10-10 Pismo Labs Technology Limited Methods and systems for transmitting packets through aggregated end-to-end connection
US9531508B2 (en) * 2009-12-23 2016-12-27 Pismo Labs Technology Limited Methods and systems for estimating missing data
US10218467B2 (en) 2009-12-23 2019-02-26 Pismo Labs Technology Limited Methods and systems for managing error correction mode
US9584414B2 (en) * 2009-12-23 2017-02-28 Pismo Labs Technology Limited Throughput optimization for bonded variable bandwidth connections
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
WO2015134579A1 (en) 2014-03-04 2015-09-11 Interactive Intelligence Group, Inc. System and method to correct for packet loss in asr systems
WO2016170399A1 (en) * 2015-04-24 2016-10-27 Pismo Labs Technology Ltd. Methods and systems for estimating missing data
JP6516099B2 (ja) * 2015-08-05 2019-05-22 パナソニックIpマネジメント株式会社 音声信号復号装置および音声信号復号方法
US10595025B2 (en) 2015-09-08 2020-03-17 Microsoft Technology Licensing, Llc Video coding
US10313685B2 (en) 2015-09-08 2019-06-04 Microsoft Technology Licensing, Llc Video coding
CN108011686B (zh) * 2016-10-31 2020-07-14 腾讯科技(深圳)有限公司 信息编码帧丢失恢复方法和装置

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5359696A (en) * 1988-06-28 1994-10-25 Motorola Inc. Digital speech coder having improved sub-sample resolution long-term predictor
US4975956A (en) 1989-07-26 1990-12-04 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US5163136A (en) * 1989-11-13 1992-11-10 Archive Corporation System for assembling playback data frames using indexed frame buffer group according to logical frame numbers in valid subcode or frame header
US5073940A (en) * 1989-11-24 1991-12-17 General Electric Company Method for protecting multi-pulse coders from fading and random pattern bit errors
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
JP3102015B2 (ja) * 1990-05-28 2000-10-23 日本電気株式会社 音声復号化方法
BR9206143A (pt) * 1991-06-11 1995-01-03 Qualcomm Inc Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
US5255343A (en) 1992-06-26 1993-10-19 Northern Telecom Limited Method for detecting and masking bad frames in coded speech signals
JP3343965B2 (ja) * 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
JP2746033B2 (ja) * 1992-12-24 1998-04-28 日本電気株式会社 音声復号化装置
SE501340C2 (sv) 1993-06-11 1995-01-23 Ericsson Telefon Ab L M Döljande av transmissionsfel i en talavkodare
SE502244C2 (sv) 1993-06-11 1995-09-25 Ericsson Telefon Ab L M Sätt och anordning för avkodning av ljudsignaler i ett system för mobilradiokommunikation
US5491719A (en) 1993-07-02 1996-02-13 Telefonaktiebolaget Lm Ericsson System for handling data errors on a cellular communications system PCM link
US5485522A (en) * 1993-09-29 1996-01-16 Ericsson Ge Mobile Communications, Inc. System for adaptively reducing noise in speech signals
US5502713A (en) * 1993-12-07 1996-03-26 Telefonaktiebolaget Lm Ericsson Soft error concealment in a TDMA radio system
US5699477A (en) * 1994-11-09 1997-12-16 Texas Instruments Incorporated Mixed excitation linear prediction with fractional pitch
FR2729244B1 (fr) * 1995-01-06 1997-03-28 Matra Communication Procede de codage de parole a analyse par synthese
US5699478A (en) * 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5918205A (en) * 1996-01-30 1999-06-29 Lsi Logic Corporation Audio decoder employing error concealment technique
US5778335A (en) * 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
US5859664A (en) * 1997-01-31 1999-01-12 Ericsson Inc. Method and apparatus for line or frame-synchronous frequency hopping of video transmissions
US5907822A (en) * 1997-04-04 1999-05-25 Lincom Corporation Loss tolerant speech decoder for telecommunications
US5924062A (en) * 1997-07-01 1999-07-13 Nokia Mobile Phones ACLEP codec with modified autocorrelation matrix storage and search
US6347081B1 (en) * 1997-08-25 2002-02-12 Telefonaktiebolaget L M Ericsson (Publ) Method for power reduced transmission of speech inactivity
AU4201100A (en) * 1999-04-05 2000-10-23 Hughes Electronics Corporation Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder

Also Published As

Publication number Publication date
EP1088205B1 (en) 2004-03-24
DE69915830T2 (de) 2005-02-10
CA2332596A1 (en) 1999-12-23
CA2332596C (en) 2006-03-14
US6810377B1 (en) 2004-10-26
WO1999066494A1 (en) 1999-12-23
AU4675999A (en) 2000-01-05
ATE262723T1 (de) 2004-04-15
EP1088205A4 (en) 2001-10-10
DE69915830D1 (de) 2004-04-29
EP1088205A1 (en) 2001-04-04
AU755258B2 (en) 2002-12-05

Similar Documents

Publication Publication Date Title
ES2217772T3 (es) Tecnicas mejoradas de recuperacion de tramas perdidas para sistemas parametricos de codificacion predictiva de voz.
ES2625895T3 (es) Método y dispositivo para la ocultación eficiente del borrado de tramas en códecs de voz basados en la predicción lineal
US5907822A (en) Loss tolerant speech decoder for telecommunications
ES2266003T3 (es) Suavizador de la ganancia en un descodificador de señal de habla y audio de banda ancha.
US8423358B2 (en) Method and apparatus for performing packet loss or frame erasure concealment
ES2212642T3 (es) Dispositivo de codificacion perceptual y metodo para la codificacion eficaz de señales de banda ancha.
US7881925B2 (en) Method and apparatus for performing packet loss or frame erasure concealment
ES2266312T3 (es) Indexacion de posiciones y señales de pulso en codigos de cifrado y descifrado algebraicos para la codificacion de señales de banda ancha.
JP3566669B2 (ja) フレームエラーをマスクする方法および装置
EP1086451B1 (en) Method for performing frame erasure concealment
JP3432082B2 (ja) フレーム消失の間のピッチ遅れ修正方法
JP3241961B2 (ja) 線形予測係数信号生成方法
ES2401171T3 (es) Procedimiento, aparato y producto de programa de ordenador para reconstruir una trama de voz borrada
JPH07311597A (ja) 音声信号合成方法
JP5289319B2 (ja) 隠蔽フレーム(パケット)を生成するための方法、プログラムおよび装置
US7302385B2 (en) Speech restoration system and method for concealing packet losses
KR100792209B1 (ko) 디지털 오디오 패킷 손실을 복구하기 위한 방법 및 장치
JPH09120297A (ja) フレーム消失の間のコードブック利得減衰
JP2003249957A (ja) パケット構成方法及び装置、パケット構成プログラム、並びにパケット分解方法及び装置、パケット分解プログラム
Mouy et al. Voice transmission at a very low bit rate on a noisy channel: 800 bps vocoder with error protection to 1200 bps
Ong Source reliant error control for low bit rate speech communications
Woodard Digital coding of speech using code excited linear prediction
Viswanathan et al. Medium and low bit rate speech transmission
Yaghmaie Prototype waveform interpolation based low bit rate speech coding