ES2217772T3 - Tecnicas mejoradas de recuperacion de tramas perdidas para sistemas parametricos de codificacion predictiva de voz. - Google Patents
Tecnicas mejoradas de recuperacion de tramas perdidas para sistemas parametricos de codificacion predictiva de voz.Info
- Publication number
- ES2217772T3 ES2217772T3 ES99930163T ES99930163T ES2217772T3 ES 2217772 T3 ES2217772 T3 ES 2217772T3 ES 99930163 T ES99930163 T ES 99930163T ES 99930163 T ES99930163 T ES 99930163T ES 2217772 T3 ES2217772 T3 ES 2217772T3
- Authority
- ES
- Spain
- Prior art keywords
- frame
- lost
- frames
- plot
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000011084 recovery Methods 0.000 title abstract description 16
- 230000001755 vocal effect Effects 0.000 claims description 27
- 230000005284 excitation Effects 0.000 claims description 25
- 230000003595 spectral effect Effects 0.000 claims description 7
- 230000015654 memory Effects 0.000 description 35
- 230000000694 effects Effects 0.000 description 15
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 230000008901 benefit Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000002238 attenuated effect Effects 0.000 description 4
- 230000009977 dual effect Effects 0.000 description 4
- 230000008030 elimination Effects 0.000 description 4
- 238000003379 elimination reaction Methods 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101001096074 Homo sapiens Regenerating islet-derived protein 4 Proteins 0.000 description 1
- 102100037889 Regenerating islet-derived protein 4 Human genes 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000030279 gene silencing Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Time-Division Multiplex Systems (AREA)
Abstract
Método para recuperar una trama perdida para un sistema del tipo en el que se transmite información en tramas sucesivas de señales codificadas y en el que la información se reconstruye a partir de dichas señales codificadas en un receptor, comprendiendo dicho método: almacenar las señales codificadas de una primera trama anterior a dicha trama perdida; almacenar las señales codificadas de una segunda trama posterior a dicha trama perdida; interpolar entre las señales codificadas de dichas primera y segunda trama para obtener unas señales codificadas correspondientes a dicha trama perdida; calcular un periodo fundamental de la voz (pitch lag) estimado y una ganancia de predicción para la primera trama; caracterizado por la etapa de clasificar dicha trama perdida como trama vocal o no vocal en base a dicha ganancia de predicción y periodo fundamental estimado de la primera trama.
Description
Técnicas mejoradas de recuperación de tramas
perdidas para sistemas paramétricos de codificación predictiva de
voz.
La transmisión de voz comprimida sobre redes
móviles y de conmutación de paquetes implica dos sistemas
importantes. El sistema fuente de voz codifica la señal de voz por
tramas, empaqueta la voz comprimida en octetos de bits de
información, o en paquetes, y envía estos paquetes por la red.
Después de alcanzar el sistema de voz de destino, los octetos de
bits de información son desempaquetados resultando en tramas y
decodificados. El codificador de voz de tasa dual G.723.1, descrito
en la recomendación de la ITU-T G.723.1,
"Dual Rate Speech Coder for Multimedia Communications Transmitting
at 5.3 and 6.3 kbits/s," de marzo de 1996 (de aquí en adelante
"Referencia 1") fue ratificado por la ITU-T en
1996 y ha sido utilizado desde entonces para incorporar servicios de
voz sobre varias redes de conmutación de paquetes al igual que sobre
redes de comunicaciones móviles. Con una puntuación de opinión
promedio de 3,98 sobre 5,0 (véase, Thryft, A.R., "Voice over IP
Looms for Intranets in '98," Electronic Engineering Times,
agosto de 1997, ejemplar 967, páginas 79, 102, indicado como
"Referencia 2" de aquí en adelante), la calidad de conexión
telefónica interurbana de corta distancia de la recomendación
G.723.1 es ideal para aplicaciones multimedia en tiempo real sobre
redes privadas y de área local (LANs) donde la pérdida de paquetes
es mínima. Sin embargo, en redes de área extensa (WANs), redes de
área global (GANs), y redes de comunicaciones móviles, la congestión
puede ser grave, y la pérdida de paquetes puede resultar en una voz
fuertemente degradada si no se trata al respecto. Por tanto, es
necesario desarrollar técnicas para reconstruir en el receptor las
tramas de voz perdidas para minimizar la distorsión y mantener una
inteligibilidad de la salida.
La siguiente exposición del codificador de tasa
dual G.273.1 y su ocultación de errores facilitará una mayor
comprensión de la invención.
El codificador de tasa dual G.273.1 codifica voz
modulada según modulación por impulsos codificados (PCM) lineal de
16 bits, muestreada a una frecuencia de 8 KHz, utilizando
codificación predictiva lineal de análisis por síntesis. La señal de
excitación para el codificador de tasa alta resulta de una
Cuantificación por Máxima Probabilidad de Impulsos Múltiples
(MP-MLQ) mientras que la señal de excitación para el
codificador de tasa baja resulta de una Predicción Lineal con
Excitación por Código Algebraico (ACELP). El codificador funciona
con una duración de trama de 30 ms, lo que equivale a una longitud
de trama de 240 muestras, y divide cada trama en cuatro subtramas de
60 muestras cada una. Para cada trama de voz de 30 ms, se calcula un
filtro de codificación de predicción lineal (LPC) de orden 10 y sus
coeficientes son cuantificados en forma de parámetros de un par de
líneas espectrales (LSP) para ser transmitidos al decodificador.
Finalmente, la señal de excitación, que consiste en la ganancia de
libro de código fijo, las posiciones de los pulsos, los signos de
los pulsos y el índice de cuadrícula, es aproximada utilizando o
bien MP-MLQ para el codificador de tasa alta o ACELP
para el codificador de tasa baja, y se transmite al decodificador.
En suma, el tren de bits enviado desde el codificador al
decodificador consiste en los parámetros LSP, los retardos de libro
de código adaptativo, las ganancias de libro de código fijo y
adaptativos, las posiciones de los pulsos, los signos de los pulsos
y el índice de cuadrícula.
En el decodificador, se decodifican los
parámetros LSP y el filtro de síntesis LPC genera la voz
reconstruida. Para cada subtrama, las contribuciones del libro de
código fijo y del libro de código adaptativo se envían a un
postfiltro de tono fundamental de la voz (pitch postfilter),
cuya salida entra en el filtro de síntesis LPC. La salida del filtro
de síntesis se envía entonces a un postfiltro conformador y a un
sistema de escalado de ganancia para generar la salida sintetizada.
En el caso de que se indiquen borrados de trama, se aporta una
estrategia de ocultación de errores, descrita en la siguiente
subsección. La figura 1 muestra un diagrama de bloques del
decodificador G.723.1.
Si tiene lugar una pérdida de paquetes, la
ocultación de errores de la actual recomendación G.723.1 implica dos
etapas principales. La primera etapa es la recuperación de un vector
LSP y la segunda etapa es la recuperación de la señal de excitación.
En la primera etapa, se recupera el vector LSP de la trama perdida
aplicando un predictor lineal fijo sobre el vector LSP decodificado
previamente. En la segunda etapa, la señal de excitación de la trama
perdida se recupera utilizando sólo la información reciente
disponible en el decodificador. Esto se logra configurando en primer
lugar el clasificador de trama vocal/no-vocal
respecto la trama anterior utilizando una función de maximización de
la correlación cruzada y comprobando después la ganancia de
predicción para el mejor vector. Si la ganancia es mayor que 0,58
dB, la trama es declarada trama vocal, y en el caso contrario, se
declara la trama como trama de no vocal. Entonces el clasificador
devuelve un valor de 0 si la trama previa es no vocal, o retorna el
periodo fundamental de la voz (pitch lag) si la trama previa
es vocal. En el caso de que no sea vocal, entonces se genera la
excitación de la trama perdida utilizando un generador de números
aleatorios de distribución uniforme y se escala según el promedio de
las ganancias de las subtramas 2 y 3 de la trama previa. Si no, en
el caso de que sea vocal, se atenúa la trama vocal en 2,5 dB y se
regenera con una excitación periódica que tiene un periodo igual al
periodo fundamental estimado. Si se siguen perdiendo paquetes de las
dos tramas siguientes, la excitación regenerada se atenúa en unos
2,5 dB adicionales para cada trama, pero después de tres tramas
interpoladas, la salida es silenciada completamente, tal como se
describe en la Referencia 1.
La estrategia de ocultación de errores de la
recomendación G.723.1 fue comprobada enviando varios segmentos de
voz sobre una red con niveles de pérdida de paquetes de 1%, 3%, 6%,
10% y 15%. Para cada nivel se simuló tanto pérdidas múltiples como
pérdidas individuales. Mediante una serie de pruebas informales de
escucha, se demostró que aunque la calidad global de salida fue muy
buena en el caso de niveles bajos de pérdida de paquetes, un cierto
número de problemas persistieron y se hicieron progresivamente
graves a todos los niveles a medida que la pérdida de paquetes
aumentaba.
En primer lugar, algunas partes del segmento de
salida sonaron poco naturales y contenían muchos efectos molestos de
sonido metálico. La calidad de sonido poco natural de la salida
puede atribuirse a la recuperación del vector LSP en base a un
predictor fijo como se ha descrito previamente. Ya que el vector LSP
de la trama perdida se recupera aplicando un predictor fijo sobre el
vector LSP de las tramas previas, los cambios espectrales entre las
tramas previas y las tramas reconstruidas no son suaves. Como
resultado del fracaso en la generación de cambios espectrales suaves
para las tramas perdidas, se obtiene una calidad sonido poco
natural, que aumenta la ininteligibilidad cuando se dan altos
niveles de pérdida de paquetes. Además, se escucharon muchos efectos
indeseados de sonido metálico en la salida. Estos efectos de sonido
metálico tenían lugar principalmente en las regiones consideradas no
vocales de la salida, y se deben a la estimación incorrecta de la
trama previa durante la recuperación de la señal de excitación. En
otras palabras, ya que un trama perdida considerada no vocal puede
ser clasificada como vocal, entonces el cambio hacia la trama
perdida generará un transitorio de alta frecuencia, o efecto de
sonido metálico, debido a la aplicación del periodo fundamental
calculado para la trama previa. A medida que la pérdida de paquetes
aumenta, este problema se hace más grave, debido a que la estimación
incorrecta de la voz genera una distorsión mayor.
Otro problema al utilizar la ocultación de
errores de la recomendación G.723.1 fue la presencia de picos de
alta energía en la salida. Estos picos de alta energía, que son
especialmente molestos al oído, se deben a la estimación incorrecta
de los coeficientes LPC durante el postfiltrado conformador, debido
a la predicción pobre de los parámetros LSP o de ganancia,
utilizando las predicciones fijas del G.273.1 de parámetros LSP y de
recuperación de excitación. Una vez más, a medida que la pérdida de
paquetes aumenta, el número de picos de alta energía también
aumenta, comportando una mayor distorsión e incomodidad para el
oyente.
Finalmente, la voz entrecortada que resulta de
silenciar completamente la salida fue evidente. Ya que la ocultación
de errores de la recomendación G.723.1 no reconstruye más de tres
tramas perdidas consecutivas, todas las tramas restantes son
simplemente silenciadas, conduciendo por tanto a fragmentos de
silencio en la salida o voz entrecortada. Cuando aumenta la pérdida
de paquetes, ya que la probabilidad de que se produzca pérdida en
una red de más de tres paquetes consecutivos es alta, aumentará la
voz entrecortada y con ello disminuye la inteligibilidad y la
distorsión a la salida.
Debe hacerse referencia al documento
EP-A-0.459.358 que describe un
decodificador de voz cuyo objetivo es obtener una voz reproducida de
alta calidad con sólo una ligera deterioración de la calidad de
sonido. Para recuperar parámetros de una trama perdida, un circuito
interpolador interpola entre parámetros de tramas pasadas y de
tramas futuras adecuadas.
Es un objetivo de la presente invención eliminar
los problemas anteriores y mejorar la estrategia de ocultación de
errores definida en la Referencia 1. Estos y otros objetivos se
logran mediante una técnica mejorada de recuperación de trama
perdida que emplea interpolación lineal, atenuación de energía
selectiva y ponderación de energía.
Según la presente invención, se proporciona un
método para recuperar una trama perdida para un sistema del tipo en
el que se transmite información en tramas sucesivas de señales
codificadas y en el que la información se reconstruye a partir de
dichas señales codificadas en un receptor, comprendiendo dicho
método:
- almacenar las señales codificadas de una primera trama anterior a dicha trama perdida;
- almacenar las señales codificadas de una segunda trama posterior a dicha trama perdida;
- interpolar entre las señales codificadas de dichas primera y segunda trama para obtener unas señales codificadas correspondientes a dicha trama perdida;
- calcular un periodo fundamental estimado y una ganancia de predicción para la primera trama; y
- clasificar dicha trama perdida como trama vocal o no vocal en base a dicha ganancia de predicción y periodo fundamental estimado de la primera trama.
La interpolación lineal de los parámetros del
modelo de voz es una técnica diseñada para obtener cambios suaves de
espectro según se producen borrados de trama, eliminando por tanto
de la salida cualquier sonido poco natural o efectos de sonido
metálico en la voz. La interpolación lineal funciona de la siguiente
forma: 1) En el decodificador, se incorpora una memoria provisional
para almacenar la trama o paquete de voz futuro. La información
previa o futura que se almacena en la memoria provisional se utiliza
para interpolar los parámetros del modelo de voz de la trama
perdida, generando por tanto cambios más suaves en el espectro según
se producen las sucesivas tramas perdidas que si tan sólo se
utilizase un predictor fijo, tal como ocurre en la ocultación de
errores de la recomendación G.723.1; 2) La clasificación de la
naturaleza vocal o no vocal de los paquetes se basa entonces tanto
en el valor de periodo fundamental estimado como en la ganancia de
predicción de la trama previa, en oposición al simple uso de la
ganancia de predicción en la ocultación de errores de la
recomendación G.723.1; esto mejora la probabilidad de estimación
correcta de la naturaleza vocal de la trama perdida. Aplicando la
primera parte de la técnica de interpolación lineal se logra un
sonido de voz más natural; aplicando la segunda parte de la técnica
de interpolación lineal, casi todos los efectos indeseados de sonido
metálico son enmascarados de forma efectiva.
Para eliminar los efectos de los picos de alta
energía, se desarrolló una técnica selectiva de atenuación de
energía. Esta técnica compara la energía de señal para cada subtrama
sintetizada respecto a un valor umbral, y si se supera el umbral,
atenúa todas las energías de señal de toda la trama a un nivel
aceptable. Combinada con la interpolación lineal, esta técnica de
atenuación selectiva de la energía elimina de forma efectiva de la
salida todas las apariciones de picos de alta energía.
Finalmente, se diseñó una técnica de ponderación
de energía para eliminar los efectos de voz "entrecortada".
Siempre que se pierdan en exceso múltiples paquetes de una trama,
esta técnica simplemente repite la trama válida anterior para cada
trama perdida, reduciendo gradualmente la energía de señal de la
trama repetida. Al emplear esta técnica, la energía de la señal de
salida es gradualmente suavizada o ponderada durante las pérdidas de
múltiples paquetes, eliminando de ese modo cualquier fragmento de
silencio o efecto de voz "entrecortada" evidente en la
ocultación de errores de la recomendación G.723.1. Otra ventaja de
la ponderación de energía es la relativamente pequeña cantidad de
tiempo de cálculo requerido para la reconstrucción de los paquetes
perdidos. En comparación con la ocultación de errores de la
recomendación G.723.1, debido a que esta técnica sólo implica una
atenuación gradual de las energías de señal de las tramas repetidas,
frente a la realización de la predicción fija de parámetros LSP y la
recuperación de la excitación de la recomendación G.723.1, el
retardo algorítmico total es considerablemente inferior.
La invención se comprenderá con mayor claridad a
partir de la siguiente descripción, considerada conjuntamente con
los dibujos adjuntos, en los que:
La figura 1 es un diagrama de bloques que muestra
el funcionamiento del decodificador G.723.1;
La figura 2 es un diagrama de bloques que ilustra
el uso de las memorias provisionales Futuro, Actual y Copia en la
técnica de interpolación según la presente invención;
Las figuras 3a a 3c son formas de onda que
ilustran la eliminación de picos de alta energía mediante la técnica
de ocultación de errores de la presente invención; y
Las figuras 4a a 4c son formas de onda que
ilustran la eliminación del silenciado de la salida mediante la
técnica de ocultación de errores según la presente invención.
La presente invención comprende tres técnicas
utilizadas para eliminar los problemas expuestos anteriormente que
provienen de la ocultación de errores de la recomendación G.723.1,
principalmente, voz que suena poco natural, efectos de sonido
metálico, picos de alta energía y voz "entrecortada". Nótese
que las técnicas de ocultación de errores descritas se pueden
aplicar sobre diferentes tipos de Codificación Predictiva Lineal
paramétrica (LPC) basada en codificadores de voz (por ejemplo, APC,
RELP, RPE-LPC, MPE-LPC, CELP, SELF,
CELB-BB, LD-CELP y VSELP) al igual
que sobre diferentes redes de conmutación de paquetes (por ejemplo,
la red Internet, una red de Modo de Transferencia Asíncrono (ATM) y
una red de Retransmisión de Trama (FR)) y de comunicaciones móviles
(por ejemplo, vía satélite y celulares digitales). De ese modo,
aunque la invención se describirá en el contexto del
codificador G.273.1 MP-MLQ de 6,3 Kbps sobre
Internet, utilizando terminología asociada a este codificador de voz
concreto y a esta red concreta, la invención no queda limitada por
ello, si no que se puede aplicar a otros codificadores de voz
basados en LPC (por ejemplo, el codificador ACELP de tasa baja, al
igual que otros codificadores similares) y a redes diferentes.
La interpolación lineal de los parámetros del
modelo de voz se desarrolló para suavizar los cambios espectrales
según un único borrado de trama (por ejemplo, una trama perdida
entre dos tramas válidas) y por tanto, generar una salida con un
sonido más natural eliminando de la misma efectos de sonido
metálico. La configuración del sistema de interpolación lineal se
ilustra en la figura 2. La interpolación lineal requiere tres
memorias provisionales - la memoria "Futuro", la memoria
"Actual" y la memoria "Copia", siendo el tamaño de cada
una equivalente a la longitud de una trama de 30 ms. Estas memorias
provisionales son colocadas en el receptor antes de que tenga lugar
la decodificación y la síntesis. Antes de describir esta técnica, es
necesario primero definir los siguientes términos según se aplican a
la interpolación lineal:
Trama previa, es la última trama válida que fue
procesada por el decodificador, y se almacena en la memoria
Copia.
Trama actual, es un trama válida o perdida, que
está siendo procesada actualmente por el decodificador, y se
almacena en la memoria Actual.
Trama futura, es una trama válida o perdida
inmediatamente posterior a la trama actual, y se almacena en la
memoria Futuro.
La interpolación lineal es un procedimiento de
múltiples etapas que funciona como sigue:
1. La memoria Actual almacena la trama válida
actual que va a ser procesada mientras la memoria Futuro almacena la
trama futura de la secuencia de voz codificada. Se realiza una copia
de los parámetros del modelo de voz de la trama actual y se almacena
en la memoria Copia.
2. Se determina el estado, o bien válida o bien
perdida, de la trama futura. Si la trama futura es válida, no es
necesaria la interpolación lineal; y el indicador de interpolación
lineal se pone a cero. Si la trama futura es una trama perdida, será
necesaria la interpolación lineal; y el indicador de interpolación
lineal se pone provisionalmente a 1. (En un sistema en tiempo real,
se detecta una trama perdida o bien por expiración de temporización
o por fallo de la Prueba de Redundancia Cíclica (CRC), en el
receptor. Sin embargo, estos algoritmos de detección de trama
perdida no forman parte de la invención, pero deben tenerse en
cuenta y ser incorporados en el decodificador para facilitar el
adecuado funcionamiento de cualquier estrategia de reconstrucción de
paquetes.)
3. La trama actual es descodificada y
sintetizada. Se realiza una copia del filtro de síntesis LPC y de la
excitación postfiltrada del periodo fundamental correspondientes a
la trama actual.
4. La trama futura, originalmente almacenada en
la memoria Futuro, pasa a ser la trama actual y se almacena en la
memoria Actual. La siguiente trama de la secuencia de voz codificada
llega como trama futura a la memoria Futuro.
5. Se comprueba el valor del indicador de
interpolación lineal. Si el indicador está a 0, el proceso retrocede
a la etapa (1). Si el indicador está a 1, el proceso pasa a la etapa
(6).
6. Se determina el estado de la trama futura. Si
la trama futura es válida, se aplica interpolación lineal; el
indicador de interpolación lineal se mantiene a 1 y el proceso pasa
a la etapa (7). Si la trama futura es una trama perdida, se aplica
ponderación de energía; el indicador de ponderación de energía se
pone a 1 y el indicador de interpolación lineal se pone a cero.
(Nota: La técnica de ponderación de energía se aplica sólo en el
caso de múltiples tramas perdidas y se describirá más tarde en esta
memoria).
7. Se realiza la recuperación de los parámetros
LSP. Aquí, se promedian los vectores LSP de orden 10
correspondientes a las tramas válidas previa y futura, almacenadas
en la memoria Copia y en la memoria Futuro respectivamente, para
obtener el vector LSP de la trama actual.
8. Se realiza la recuperación de la señal de
excitación. Aquí, se promedian las ganancias de libro de código fijo
correspondientes a las tramas previa y futura, almacenadas en las
memorias Copia y Futuro, para obtener la ganancia de libro de código
fijo correspondiente a la trama perdida. El resto de parámetros del
modelo de voz se toman de la trama previa.
9. Se realiza la estimación del periodo
fundamental y de la ganancia de predicción de la trama previa,
almacenada en la memoria Copia, con el mismo procedimiento idéntico
de la ocultación de errores de la recomendación G.723.1.
10. Si la ganancia de predicción es menor que
0,58 dB, se declara la trama como trama no vocal, y la señal de
excitación correspondiente a la trama actual se genera utilizando un
generador de números aleatorios y se escala mediante la ganancia de
libro de código fijo calculada en la etapa (8).
11. Si la ganancia de predicción es mayor que
0,58 dB y el periodo fundamental estimado supera un cierto valor
umbral P_{umbral}, la trama es declarada como trama vocal, y la
señal de excitación correspondiente a la trama actual se genera
atenuando primero la señal de excitación previa en 1,25 dB cada dos
subtramas, y regenerando luego esta señal de excitación con un
periodo igual al periodo fundamental estimado. En caso contrario, la
trama se declara como trama vocal y la señal de excitación se
recupera del mismo modo que en la etapa (10).
12. Después de la recuperación de los parámetros
LSP y de la señal de excitación, se decodifica y se sintetiza la
trama actual con sus parámetros LSP y de ganancias recién
interpolados, y el procedimiento retrocede a la etapa (13).
13. La trama futura, originalmente en la memoria
Futuro pasa a ser la trama actual y se almacena en la memoria
Actual. La siguiente trama de la secuencia de voz codificada llega a
modo de trama futura a la memoria Futuro. El procedimiento vuelve
entonces a la etapa (1).
Existen al menos dos ventajas importantes de la
interpolación lineal frente a la ocultación de errores de la
recomendación G.723.1. La primera ventaja tiene lugar en la etapa
(7), durante la recuperación de los parámetros LSP. En la etapa (7),
debido a que la interpolación lineal determina los parámetros LSP de
la trama perdida en base a las tramas previa y futura, esto
proporciona una mejor estimación de los parámetros LSP de la trama
perdida, permitiendo por tanto suavizar más los cambios espectrales
durante la trama perdida que si se utilizase predicción fija de
parámetros LSP, como es el caso de la ocultación de errores de la
recomendación G.723.1. Como resultado se genera una voz con sonido
más natural e inteligible, aumentando por tanto la comodidad para el
oyente.
La segunda ventaja de la interpolación lineal
ocurre en las etapas (8) a (11), durante la recuperación de
excitación. En primer lugar, en la etapa (8), ya que la
interpolación lineal genera los parámetros de ganancia de la trama
perdida promediando las ganancias de libro de código fijo entre las
tramas previa y futura, proporciona una mejor estimación de la
ganancia de trama perdida, al contrario de la técnica descrita en la
ocultación de errores de la recomendación G.723.1. Esta ganancia
interpolada, que se aplica entonces a las tramas vocales en la etapa
(10), genera por tanto unas transiciones de ganancia más suaves, de
sonido más agradable durante el borrado de tramas. En segundo lugar,
en la etapa (11), la clasificación según la naturaleza vocal de la
trama se basa tanto en la ganancia de predicción como en el periodo
fundamental estimado, al contrario de sólo basarse en la ganancia de
predicción tal como ocurre en la ocultación de errores de la
recomendación G.723.1. Es decir, las tramas cuya ganancia de
predicción es mayor que 0,58 dB también se comparan con un valor
umbral de periodo fundamental, P_{umbral}. Debido a que las tramas
no vocales están compuestas de componentes espectrales
principalmente de alta frecuencia, aquellas tramas que tienen unos
periodos fundamentales estimados pequeños, y por tanto frecuencias
fundamentales estimadas altas, tienen por tanto una alta
probabilidad de ser tramas no vocales. Así pues, aquellas tramas
cuyos periodos fundamentales estimados caen por debajo de
P_{umbral} son declaradas tramas no vocales y todas aquellas cuyos
periodos fundamentales estimados superan P_{umbral} son declaradas
tramas vocales. En resumen, mediante la determinación selectiva de
la clasificación de la naturaleza vocal de una trama en base tanto a
la ganancia de predicción como al periodo fundamental estimado, la
técnica de esta invención enmascara de forma efectiva todas las
apariciones de efectos de alta frecuencia de sonido metálico que
tienen lugar en la salida. Como resultado, se aumenta globalmente la
inteligibilidad y la comodidad del oyente.
La atenuación selectiva de energía se desarrolló
para eliminar la aparición de picos de alta energía que se escuchan
cuando se utiliza la ocultación de errores de la recomendación
G.723.1. En referencia a la figura 1, estos picos de alta energía se
generan debido a una estimación incorrecta de los coeficientes LPC
durante el postfiltrado conformador, debido a la predicción pobre de
los parámetros LSP o de ganancia de la ocultación de errores de la
recomendación G.723.1. Para proporcionar mejores estimadores de los
parámetros LSP y de ganancia de una trama perdida, se desarrolló la
interpolación lineal tal como se ha descrito anteriormente. Además,
la energía de señal para cada subtrama sintetizada, después del
postfiltrado conformador, se compara con un valor umbral de energía
S_{umbral}. Si la energía de señal para cualquiera de las cuatro
subtramas supera S_{umbral}, entonces las energías de señal de
todas las subtramas restantes son atenuadas a un nivel de energía
aceptable S_{max}. Esta técnica de atenuación selectiva de
energía, combinada con la interpolación lineal elimina todas las
apariciones de picos de alta energía, sin degradar notablemente la
salida. Se aumenta globalmente la inteligibilidad de la voz y la
comodidad del oyente. La figura 3b muestra la presencia de un pico
de alta energía debido a la ocultación de errores de la
recomendación G.723.1; la figura 3c muestra la eliminación del pico
de alta energía debido a atenuación selectiva de energía e
interpolación lineal.
La ponderación de energía se desarrolló para
eliminar los efectos de voz "entrecortada" generados por la
ocultación de errores de la recomendación G.723.1. Como ya se ha
citado, la voz "entrecortada" se produce cuando la ocultación
de errores de la recomendación G.723.1 silencia completamente la
salida después de recuperar tres tramas perdidas. Como resultado, se
generan fragmentos de silencio en la salida, reduciendo por tanto la
inteligibilidad y produciendo voz "entrecortada". Para eliminar
este problema se diseñó una técnica de ponderación de energía de
múltiples etapas. En relación a la figura 2, está técnica funciona
como sigue:
1. La memoria provisional Actual almacena la
trama válida actual que va a ser procesada mientras la memoria
provisional Futuro almacena la trama futura de la secuencia de voz
codificada. Se realiza una copia de los parámetros del modelo de voz
de la trama actual y se almacenan en la memoria provisional
Copia.
2. Se determina el estado, o bien válida o bien
perdida, de la trama futura. Si la trama futura es válida, no es
necesaria la interpolación lineal; y el indicador de interpolación
lineal se pone a cero. Si la trama futura es una trama perdida, será
necesaria la interpolación lineal; y el indicador de interpolación
lineal se pone provisionalmente a 1.
3. La trama actual es descodificada y
sintetizada. Se realiza una copia del filtro de síntesis LPC y de la
excitación postfiltrada correspondiente al periodo fundamental de la
trama actual.
4. La trama futura, originalmente almacenada en
la memoria Futuro, pasa a ser la trama actual y se almacena en la
memoria Actual. La siguiente trama de la secuencia de voz codificada
llega como trama futura a la memoria Futuro.
5. Se comprueba el valor del indicador de
interpolación lineal. Si el indicador está a 0, el proceso retrocede
a la etapa (1). Si el indicador está a 1, el proceso pasa a la etapa
(6).
6. Se determina el estado de la trama futura. Si
la trama futura es válida, se aplica interpolación lineal tal como
se ha descrito en el apartado 3.1. Si la trama futura es una trama
perdida, se aplica ponderación de energía; el indicador de
ponderación de energía se pone a 1, el indicador de interpolación
lineal se pone a 0, y el procedimiento pasa a la etapa (7).
7. La copia de la señal de excitación
postfiltrada correspondiente al periodo fundamental de la trama
previa, de la etapa (3), es atenuada en (0,5 x valor del indicador
de ponderación de energía) dB.
8. La copia del filtro de síntesis LPC de la
trama previa, de la etapa (3), se utiliza para sintetizar la trama
actual utilizando la señal de excitación atenuada de la etapa
(7).
9. La trama futura, originalmente en la memoria
Futuro pasa a ser la trama actual y se almacena en la memoria
Actual. La siguiente trama de la secuencia de voz codificada llega a
modo de trama futura a la memoria Futuro.
10. Se sintetiza la trama actual utilizando las
etapas (7) a (9), pasando entonces a la etapa (11).
11. Se determina el estado de la trama futura. Si
la trama futura es válida, no se aplica ponderación de energía
adicional; el indicador de ponderación de energía se pone a 0, y el
procedimiento pasa a la etapa (12). Si la trama futura es una trama
perdida, se aplica ponderación de energía adicional; se incrementa
en 1 el indicador de ponderación de energía y el procedimiento pasa
a la etapa (11).
12. La trama futura, originalmente en la memoria
Futuro pasa a ser la trama actual y se almacena en la memoria
Actual. La siguiente trama de la secuencia de voz codificada llega a
modo de trama futura a la memoria Futuro. El procedimiento vuelve
entonces a la etapa (1).
Empleando esta técnica, la energía de la señal de
salida es ponderada gradualmente a medida que se producen pérdidas
de paquetes, y por tanto, elimina el efecto de voz
"entrecortada" que se debe al silenciado total de la salida. La
figura 4b muestra la presencia de silenciado total de la salida
debido a la ocultación de errores de la recomendación G.723.1; la
figura 4c muestra la eliminación del silenciado debido a ponderación
de energía. Tal como ilustra la figura 4c, la salida es ponderada
gradualmente a medida que se producen pérdidas de paquetes,
eliminando por tanto todos los segmentos de silencio puro en la
salida y generando una mayor inteligibilidad para el oyente.
Tal como se discute arriba, una de las ventajas
claras de la ponderación de energía frente la ocultación de errores
de la recomendación G.723.1, a parte de la inteligibilidad mejorada
de la salida, es el tiempo de cálculo requerido relativamente menor.
Debido a que la ponderación de energía sólo repite el filtro de
síntesis LPC de la trama previa y atenúa la ganancia postfiltrada
correspondiente al periodo fundamental de la trama previa, el
retardo algorítmico total es considerablemente menor comparado con
realizar una recuperación de la excitación y de los parámetros LSP a
escala completa, como en el caso de la ocultación de errores de la
recomendación G.723.1. Esta aproximación minimiza el retardo global
con el propósito de proporcionar al usuario un sistema de
comunicaciones en tiempo real más robusto.
Las tres técnicas de ocultación de errores
descritas fueron puestas a prueba con varios altavoces bajo niveles
de pérdida de paquetes idénticos a los tratados utilizando la
ocultación de errores de la recomendación G.723.1. Una serie de
pruebas informales de escucha indicaron que para todos los niveles
de pérdida de paquetes, la calidad del segmento de voz de salida
mejoró significativamente de las siguientes formas: En primer lugar,
se logró una voz con sonido más natural y un enmascaramiento
efectivo de los efectos de sonido metálico debido a transiciones de
espectro más suaves entre tramas perdidas basadas en interpolación
lineal y a una clasificación mejorada de la naturaleza vocal. En
segundo lugar, se eliminaron todos los picos de alta energía debido
a la atenuación selectiva de energía y a la interpolación lineal.
Finalmente, se eliminaron todas las apariciones de voz
"entrecortada" debido a la ponderación de energía. Es
importante darse cuenta de que a medida que aumentan los niveles de
congestión de la red, el nivel de pérdidas de paquete también
aumenta. Así pues, con el propósito de mantener inteligibilidad de
voz en tiempo real, es esencial desarrollar técnicas que oculten con
éxito los borrados de trama minimizando a la vez el nivel de
degradación a la salida. Las estrategias desarrolladas por los
autores representan técnicas que proporcionan una calidad de voz
mejorada a la salida, son más robustas en presencia de borrados de
trama en comparación con las técnicas descritas en la Referencia 1,
y pueden aplicarse fácilmente sobre cualquier codificador de voz
paramétrico basado en LPC sobre cualquier red de conmutación de
paquetes o de comunicaciones móviles.
Se apreciará que pueden realizarse varios cambios
y modificaciones respecto a las formas de realización específicas
descritas anteriormente, sin apartarse por ello del alcance de la
invención tal como se define en las reivindicaciones adjuntas.
Claims (5)
1. Método para recuperar una trama perdida para
un sistema del tipo en el que se transmite información en tramas
sucesivas de señales codificadas y en el que la información se
reconstruye a partir de dichas señales codificadas en un receptor,
comprendiendo dicho método:
- almacenar las señales codificadas de una primera trama anterior a dicha trama perdida;
- almacenar las señales codificadas de una segunda trama posterior a dicha trama perdida;
- interpolar entre las señales codificadas de dichas primera y segunda trama para obtener unas señales codificadas correspondientes a dicha trama perdida;
- calcular un periodo fundamental de la voz (pitch lag) estimado y una ganancia de predicción para la primera trama;
caracterizado por la etapa de clasificar
dicha trama perdida como trama vocal o no vocal en base a dicha
ganancia de predicción y periodo fundamental estimado de la primera
trama.
2. Método según la reivindicación 1, en el que
dichas señales codificadas incluyen una pluralidad de parámetros de
Par de Líneas Espectrales (LSP) correspondiente a cada trama, y
dicha etapa de interpolación comprende interpolar entre los
parámetros LSP de dicha primera trama y los parámetros LSP de dicha
segunda trama.
3. Método según la reivindicación 1, en el que
cada trama incluye una pluralidad de subtramas, comprendiendo dicho
método la etapa de comparar una energía de señal para cada subtrama
de una trama particular con un umbral, y atenuar las energías de
señal de todas las subtramas de dicha trama particular si la energía
de señal de cualquier subtrama supera dicho umbral.
4. Método según la reivindicación 1, en el que en
el caso de producirse una pérdida de múltiples tramas sucesivas,
dicho método comprende la etapa de repetir las señales codificadas
de una trama inmediatamente precedente a dichas múltiples tramas
sucesivas mientras se reduce gradualmente la energía de señal de
cada trama recuperada.
5. Método según la reivindicación 2, en el que
dichas señales codificadas incluyen dichos parámetros LSP, unas
ganancias de libro de código fijo y unas señales adicionales de
excitación, comprendiendo dicho método interpolar dicha ganancia
fija de libro de código de dicha trama perdida a partir de las
ganancias de libro de código fijo de dichas primera y segunda trama,
y adoptar dichas señales adicionales de excitación de dicha primera
trama como señales adicionales de excitación de dicha trama
per-
dida.
dida.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US99952 | 1993-07-30 | ||
US09/099,952 US6810377B1 (en) | 1998-06-19 | 1998-06-19 | Lost frame recovery techniques for parametric, LPC-based speech coding systems |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2217772T3 true ES2217772T3 (es) | 2004-11-01 |
Family
ID=22277389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES99930163T Expired - Lifetime ES2217772T3 (es) | 1998-06-19 | 1999-06-16 | Tecnicas mejoradas de recuperacion de tramas perdidas para sistemas parametricos de codificacion predictiva de voz. |
Country Status (8)
Country | Link |
---|---|
US (1) | US6810377B1 (es) |
EP (1) | EP1088205B1 (es) |
AT (1) | ATE262723T1 (es) |
AU (1) | AU755258B2 (es) |
CA (1) | CA2332596C (es) |
DE (1) | DE69915830T2 (es) |
ES (1) | ES2217772T3 (es) |
WO (1) | WO1999066494A1 (es) |
Families Citing this family (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6661793B1 (en) * | 1999-01-19 | 2003-12-09 | Vocaltec Communications Ltd. | Method and apparatus for reconstructing media |
US7047190B1 (en) * | 1999-04-19 | 2006-05-16 | At&Tcorp. | Method and apparatus for performing packet loss or frame erasure concealment |
CA2335005C (en) * | 1999-04-19 | 2005-10-11 | At&T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
US7117156B1 (en) * | 1999-04-19 | 2006-10-03 | At&T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
US6959274B1 (en) | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
US6636829B1 (en) * | 1999-09-22 | 2003-10-21 | Mindspeed Technologies, Inc. | Speech communication system and method for handling lost frames |
US20020075857A1 (en) * | 1999-12-09 | 2002-06-20 | Leblanc Wilfrid | Jitter buffer and lost-frame-recovery interworking |
GB2373964A (en) * | 2000-01-24 | 2002-10-02 | Nokia Inc | System for lost packet recovery in voice over internet protocol based on time domain interpolation |
FR2804813B1 (fr) * | 2000-02-03 | 2002-09-06 | Cit Alcatel | Procede de codage facilitant la restitution sonore des signaux de parole numerises transmis a un terminal d'abonne lors d'une communication telephonique par transmission de paquets et equipement mettant en oeuvre ce procede |
EP1168705A1 (fr) * | 2000-06-30 | 2002-01-02 | Koninklijke Philips Electronics N.V. | Procédé et système pour la détection de trames de parole erronées |
EP1199711A1 (en) * | 2000-10-20 | 2002-04-24 | Telefonaktiebolaget Lm Ericsson | Encoding of audio signal using bandwidth expansion |
EP1199709A1 (en) * | 2000-10-20 | 2002-04-24 | Telefonaktiebolaget Lm Ericsson | Error Concealment in relation to decoding of encoded acoustic signals |
US7031926B2 (en) | 2000-10-23 | 2006-04-18 | Nokia Corporation | Spectral parameter substitution for the frame error concealment in a speech decoder |
EP1235203B1 (en) * | 2001-02-27 | 2009-08-12 | Texas Instruments Incorporated | Method for concealing erased speech frames and decoder therefor |
JP2002268697A (ja) * | 2001-03-13 | 2002-09-20 | Nec Corp | パケット誤り耐性付き音声復号装置、音声符号化復号装置、及びその方法 |
US7590525B2 (en) | 2001-08-17 | 2009-09-15 | Broadcom Corporation | Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
US7711563B2 (en) | 2001-08-17 | 2010-05-04 | Broadcom Corporation | Method and system for frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
US7308406B2 (en) | 2001-08-17 | 2007-12-11 | Broadcom Corporation | Method and system for a waveform attenuation technique for predictive speech coding based on extrapolation of speech waveform |
EP1433164B1 (en) * | 2001-08-17 | 2007-11-14 | Broadcom Corporation | Improved frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
FR2830970B1 (fr) * | 2001-10-12 | 2004-01-30 | France Telecom | Procede et dispositif de synthese de trames de substitution, dans une succession de trames representant un signal de parole |
US20040064308A1 (en) * | 2002-09-30 | 2004-04-01 | Intel Corporation | Method and apparatus for speech packet loss recovery |
US7363218B2 (en) * | 2002-10-25 | 2008-04-22 | Dilithium Networks Pty. Ltd. | Method and apparatus for fast CELP parameter mapping |
US20040122680A1 (en) * | 2002-12-18 | 2004-06-24 | Mcgowan James William | Method and apparatus for providing coder independent packet replacement |
DE60327371D1 (de) | 2003-01-30 | 2009-06-04 | Fujitsu Ltd | EINRICHTUNG UND VERFAHREN ZUM VERBERGEN DES VERSCHWINDENS VON AUDIOPAKETEN, EMPFANGSENDGERuT UND AUDIOKOMMUNIKAITONSSYSTEM |
US7411985B2 (en) * | 2003-03-21 | 2008-08-12 | Lucent Technologies Inc. | Low-complexity packet loss concealment method for voice-over-IP speech transmission |
JP2004361731A (ja) * | 2003-06-05 | 2004-12-24 | Nec Corp | オーディオ復号装置及びオーディオ復号方法 |
KR100546758B1 (ko) * | 2003-06-30 | 2006-01-26 | 한국전자통신연구원 | 음성의 상호부호화시 전송률 결정 장치 및 방법 |
JP2005027051A (ja) * | 2003-07-02 | 2005-01-27 | Alps Electric Co Ltd | リアルタイムデータの補正方法及びブルートゥースモジュール |
US20050091044A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
US20050091041A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for speech coding |
JP2006145712A (ja) * | 2004-11-18 | 2006-06-08 | Pioneer Electronic Corp | オーディオデータ補間装置 |
KR100708123B1 (ko) * | 2005-02-04 | 2007-04-16 | 삼성전자주식회사 | 자동으로 오디오 볼륨을 조절하는 방법 및 장치 |
KR100612889B1 (ko) | 2005-02-05 | 2006-08-14 | 삼성전자주식회사 | 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치 |
US7930176B2 (en) | 2005-05-20 | 2011-04-19 | Broadcom Corporation | Packet loss concealment for block-independent speech codecs |
KR100723409B1 (ko) * | 2005-07-27 | 2007-05-30 | 삼성전자주식회사 | 프레임 소거 은닉장치 및 방법, 및 이를 이용한 음성복호화 방법 및 장치 |
WO2007077841A1 (ja) * | 2005-12-27 | 2007-07-12 | Matsushita Electric Industrial Co., Ltd. | 音声復号装置および音声復号方法 |
US8332216B2 (en) * | 2006-01-12 | 2012-12-11 | Stmicroelectronics Asia Pacific Pte., Ltd. | System and method for low power stereo perceptual audio coding using adaptive masking threshold |
KR100900438B1 (ko) * | 2006-04-25 | 2009-06-01 | 삼성전자주식회사 | 음성 패킷 복구 장치 및 방법 |
US7877253B2 (en) * | 2006-10-06 | 2011-01-25 | Qualcomm Incorporated | Systems, methods, and apparatus for frame erasure recovery |
CN100578618C (zh) * | 2006-12-04 | 2010-01-06 | 华为技术有限公司 | 一种解码方法及装置 |
CN101226744B (zh) * | 2007-01-19 | 2011-04-13 | 华为技术有限公司 | 语音解码器中实现语音解码的方法及装置 |
WO2008139515A1 (ja) * | 2007-04-27 | 2008-11-20 | Fujitsu Limited | 信号出力装置、情報機器、信号出力方法および信号出力プログラム |
WO2009088257A2 (ko) * | 2008-01-09 | 2009-07-16 | Lg Electronics Inc. | 프레임 타입 식별 방법 및 장치 |
CN101221765B (zh) * | 2008-01-29 | 2011-02-02 | 北京理工大学 | 一种基于语音前向包络预测的差错隐藏方法 |
KR100998396B1 (ko) * | 2008-03-20 | 2010-12-03 | 광주과학기술원 | 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치 |
KR101228165B1 (ko) * | 2008-06-13 | 2013-01-30 | 노키아 코포레이션 | 프레임 에러 은폐 방법, 장치 및 컴퓨터 판독가능한 저장 매체 |
CN102648493B (zh) * | 2009-11-24 | 2016-01-20 | Lg电子株式会社 | 音频信号处理方法和设备 |
US9787501B2 (en) | 2009-12-23 | 2017-10-10 | Pismo Labs Technology Limited | Methods and systems for transmitting packets through aggregated end-to-end connection |
US9531508B2 (en) * | 2009-12-23 | 2016-12-27 | Pismo Labs Technology Limited | Methods and systems for estimating missing data |
US10218467B2 (en) | 2009-12-23 | 2019-02-26 | Pismo Labs Technology Limited | Methods and systems for managing error correction mode |
US9584414B2 (en) * | 2009-12-23 | 2017-02-28 | Pismo Labs Technology Limited | Throughput optimization for bonded variable bandwidth connections |
US9842598B2 (en) * | 2013-02-21 | 2017-12-12 | Qualcomm Incorporated | Systems and methods for mitigating potential frame instability |
WO2015134579A1 (en) | 2014-03-04 | 2015-09-11 | Interactive Intelligence Group, Inc. | System and method to correct for packet loss in asr systems |
WO2016170399A1 (en) * | 2015-04-24 | 2016-10-27 | Pismo Labs Technology Ltd. | Methods and systems for estimating missing data |
JP6516099B2 (ja) * | 2015-08-05 | 2019-05-22 | パナソニックIpマネジメント株式会社 | 音声信号復号装置および音声信号復号方法 |
US10595025B2 (en) | 2015-09-08 | 2020-03-17 | Microsoft Technology Licensing, Llc | Video coding |
US10313685B2 (en) | 2015-09-08 | 2019-06-04 | Microsoft Technology Licensing, Llc | Video coding |
CN108011686B (zh) * | 2016-10-31 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 信息编码帧丢失恢复方法和装置 |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5359696A (en) * | 1988-06-28 | 1994-10-25 | Motorola Inc. | Digital speech coder having improved sub-sample resolution long-term predictor |
US4975956A (en) | 1989-07-26 | 1990-12-04 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
US5163136A (en) * | 1989-11-13 | 1992-11-10 | Archive Corporation | System for assembling playback data frames using indexed frame buffer group according to logical frame numbers in valid subcode or frame header |
US5073940A (en) * | 1989-11-24 | 1991-12-17 | General Electric Company | Method for protecting multi-pulse coders from fading and random pattern bit errors |
US5307441A (en) * | 1989-11-29 | 1994-04-26 | Comsat Corporation | Wear-toll quality 4.8 kbps speech codec |
JP3102015B2 (ja) * | 1990-05-28 | 2000-10-23 | 日本電気株式会社 | 音声復号化方法 |
BR9206143A (pt) * | 1991-06-11 | 1995-01-03 | Qualcomm Inc | Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados |
US5765127A (en) * | 1992-03-18 | 1998-06-09 | Sony Corp | High efficiency encoding method |
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
US5255343A (en) | 1992-06-26 | 1993-10-19 | Northern Telecom Limited | Method for detecting and masking bad frames in coded speech signals |
JP3343965B2 (ja) * | 1992-10-31 | 2002-11-11 | ソニー株式会社 | 音声符号化方法及び復号化方法 |
JP2746033B2 (ja) * | 1992-12-24 | 1998-04-28 | 日本電気株式会社 | 音声復号化装置 |
SE501340C2 (sv) | 1993-06-11 | 1995-01-23 | Ericsson Telefon Ab L M | Döljande av transmissionsfel i en talavkodare |
SE502244C2 (sv) | 1993-06-11 | 1995-09-25 | Ericsson Telefon Ab L M | Sätt och anordning för avkodning av ljudsignaler i ett system för mobilradiokommunikation |
US5491719A (en) | 1993-07-02 | 1996-02-13 | Telefonaktiebolaget Lm Ericsson | System for handling data errors on a cellular communications system PCM link |
US5485522A (en) * | 1993-09-29 | 1996-01-16 | Ericsson Ge Mobile Communications, Inc. | System for adaptively reducing noise in speech signals |
US5502713A (en) * | 1993-12-07 | 1996-03-26 | Telefonaktiebolaget Lm Ericsson | Soft error concealment in a TDMA radio system |
US5699477A (en) * | 1994-11-09 | 1997-12-16 | Texas Instruments Incorporated | Mixed excitation linear prediction with fractional pitch |
FR2729244B1 (fr) * | 1995-01-06 | 1997-03-28 | Matra Communication | Procede de codage de parole a analyse par synthese |
US5699478A (en) * | 1995-03-10 | 1997-12-16 | Lucent Technologies Inc. | Frame erasure compensation technique |
US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
US5699485A (en) * | 1995-06-07 | 1997-12-16 | Lucent Technologies Inc. | Pitch delay modification during frame erasures |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US5918205A (en) * | 1996-01-30 | 1999-06-29 | Lsi Logic Corporation | Audio decoder employing error concealment technique |
US5778335A (en) * | 1996-02-26 | 1998-07-07 | The Regents Of The University Of California | Method and apparatus for efficient multiband celp wideband speech and music coding and decoding |
JPH1091194A (ja) * | 1996-09-18 | 1998-04-10 | Sony Corp | 音声復号化方法及び装置 |
US5960389A (en) * | 1996-11-15 | 1999-09-28 | Nokia Mobile Phones Limited | Methods for generating comfort noise during discontinuous transmission |
US5859664A (en) * | 1997-01-31 | 1999-01-12 | Ericsson Inc. | Method and apparatus for line or frame-synchronous frequency hopping of video transmissions |
US5907822A (en) * | 1997-04-04 | 1999-05-25 | Lincom Corporation | Loss tolerant speech decoder for telecommunications |
US5924062A (en) * | 1997-07-01 | 1999-07-13 | Nokia Mobile Phones | ACLEP codec with modified autocorrelation matrix storage and search |
US6347081B1 (en) * | 1997-08-25 | 2002-02-12 | Telefonaktiebolaget L M Ericsson (Publ) | Method for power reduced transmission of speech inactivity |
AU4201100A (en) * | 1999-04-05 | 2000-10-23 | Hughes Electronics Corporation | Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system |
US7031926B2 (en) * | 2000-10-23 | 2006-04-18 | Nokia Corporation | Spectral parameter substitution for the frame error concealment in a speech decoder |
-
1998
- 1998-06-19 US US09/099,952 patent/US6810377B1/en not_active Expired - Fee Related
-
1999
- 1999-06-16 CA CA002332596A patent/CA2332596C/en not_active Expired - Fee Related
- 1999-06-16 AT AT99930163T patent/ATE262723T1/de not_active IP Right Cessation
- 1999-06-16 ES ES99930163T patent/ES2217772T3/es not_active Expired - Lifetime
- 1999-06-16 AU AU46759/99A patent/AU755258B2/en not_active Ceased
- 1999-06-16 WO PCT/US1999/012804 patent/WO1999066494A1/en active IP Right Grant
- 1999-06-16 EP EP99930163A patent/EP1088205B1/en not_active Expired - Lifetime
- 1999-06-16 DE DE69915830T patent/DE69915830T2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1088205B1 (en) | 2004-03-24 |
DE69915830T2 (de) | 2005-02-10 |
CA2332596A1 (en) | 1999-12-23 |
CA2332596C (en) | 2006-03-14 |
US6810377B1 (en) | 2004-10-26 |
WO1999066494A1 (en) | 1999-12-23 |
AU4675999A (en) | 2000-01-05 |
ATE262723T1 (de) | 2004-04-15 |
EP1088205A4 (en) | 2001-10-10 |
DE69915830D1 (de) | 2004-04-29 |
EP1088205A1 (en) | 2001-04-04 |
AU755258B2 (en) | 2002-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2217772T3 (es) | Tecnicas mejoradas de recuperacion de tramas perdidas para sistemas parametricos de codificacion predictiva de voz. | |
ES2625895T3 (es) | Método y dispositivo para la ocultación eficiente del borrado de tramas en códecs de voz basados en la predicción lineal | |
US5907822A (en) | Loss tolerant speech decoder for telecommunications | |
ES2266003T3 (es) | Suavizador de la ganancia en un descodificador de señal de habla y audio de banda ancha. | |
US8423358B2 (en) | Method and apparatus for performing packet loss or frame erasure concealment | |
ES2212642T3 (es) | Dispositivo de codificacion perceptual y metodo para la codificacion eficaz de señales de banda ancha. | |
US7881925B2 (en) | Method and apparatus for performing packet loss or frame erasure concealment | |
ES2266312T3 (es) | Indexacion de posiciones y señales de pulso en codigos de cifrado y descifrado algebraicos para la codificacion de señales de banda ancha. | |
JP3566669B2 (ja) | フレームエラーをマスクする方法および装置 | |
EP1086451B1 (en) | Method for performing frame erasure concealment | |
JP3432082B2 (ja) | フレーム消失の間のピッチ遅れ修正方法 | |
JP3241961B2 (ja) | 線形予測係数信号生成方法 | |
ES2401171T3 (es) | Procedimiento, aparato y producto de programa de ordenador para reconstruir una trama de voz borrada | |
JPH07311597A (ja) | 音声信号合成方法 | |
JP5289319B2 (ja) | 隠蔽フレーム(パケット)を生成するための方法、プログラムおよび装置 | |
US7302385B2 (en) | Speech restoration system and method for concealing packet losses | |
KR100792209B1 (ko) | 디지털 오디오 패킷 손실을 복구하기 위한 방법 및 장치 | |
JPH09120297A (ja) | フレーム消失の間のコードブック利得減衰 | |
JP2003249957A (ja) | パケット構成方法及び装置、パケット構成プログラム、並びにパケット分解方法及び装置、パケット分解プログラム | |
Mouy et al. | Voice transmission at a very low bit rate on a noisy channel: 800 bps vocoder with error protection to 1200 bps | |
Ong | Source reliant error control for low bit rate speech communications | |
Woodard | Digital coding of speech using code excited linear prediction | |
Viswanathan et al. | Medium and low bit rate speech transmission | |
Yaghmaie | Prototype waveform interpolation based low bit rate speech coding |