ES2276839T3 - Sustitucion mejorada de parametros espectrales para la ocultacion de errores de trama en un decodificador de voz. - Google Patents
Sustitucion mejorada de parametros espectrales para la ocultacion de errores de trama en un decodificador de voz. Download PDFInfo
- Publication number
- ES2276839T3 ES2276839T3 ES01978706T ES01978706T ES2276839T3 ES 2276839 T3 ES2276839 T3 ES 2276839T3 ES 01978706 T ES01978706 T ES 01978706T ES 01978706 T ES01978706 T ES 01978706T ES 2276839 T3 ES2276839 T3 ES 2276839T3
- Authority
- ES
- Spain
- Prior art keywords
- lsf
- frame
- mean
- isf
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000003595 spectral effect Effects 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 claims abstract description 45
- 230000003044 adaptive effect Effects 0.000 claims abstract description 22
- 238000004891 communication Methods 0.000 claims abstract description 12
- 230000000694 effects Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 54
- 230000002950 deficient Effects 0.000 claims description 29
- NSMXQKNUPPXBRG-UHFFFAOYSA-N 1-(5-hydroxyhexyl)-3,7-dimethyl-3,7-dihydro-1H-purine-2,6-dione Chemical compound O=C1N(CCCCC(O)C)C(=O)N(C)C2=C1N(C)C=N2 NSMXQKNUPPXBRG-UHFFFAOYSA-N 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000006467 substitution reaction Methods 0.000 claims description 7
- 230000007774 longterm Effects 0.000 claims description 6
- 230000006978 adaptation Effects 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims 2
- 238000003786 synthesis reaction Methods 0.000 claims 2
- 230000032258 transport Effects 0.000 claims 1
- 230000005284 excitation Effects 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 5
- 206010011878 Deafness Diseases 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000030279 gene silencing Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
Abstract
Método para ocultar los efectos de errores de trama en tramas a decodificar por un decodificador al proporcionar voz sintetizada, proporcionándose las tramas al decodificador a través de un canal de comunicaciones, proporcionando cada trama parámetros usados por el decodificador en la síntesis de la voz, comprendiendo el método la etapa en la que se determina si una trama es defectuosa, estando caracterizado el método por la etapa en la que se proporciona una sustitución de los parámetros espectrales de la trama defectuosa basándose únicamente en parámetros espectrales correspondientes a tramas buenas recibidas de forma previa y reciente e incluyendo una media por lo menos parcialmente adaptativa de los parámetros espectrales de un número predeterminado de las tramas buenas recibidas previamente y más recientemente.
Description
Sustitución mejorada de parámetros espectrales
para la ocultación de errores de trama en un decodificador de
voz.
La presente invención se refiere a
decodificadores de voz, y más particularmente a métodos usados para
el tratamiento de tramas defectuosas recibidas por decodificadores
de voz.
En los sistemas celulares digitales, se dice que
un flujo continuo de bits se transmite a través de un canal de
comunicaciones que conecta una estación móvil con una estación base
a través de la interfaz aérea. El flujo continuo de bits está
organizado en tramas, que incluyen tramas de voz. El hecho de que
durante la transmisión se produzca o no un error depende de las
condiciones predominantes del canal. A una trama de voz en la que
se detecta que contiene errores se le denomina simplemente trama
defectuosa. Según la técnica anterior, en el caso de una trama
defectuosa, los parámetros de voz de la trama defectuosa se
sustituyen por parámetros de voz obtenidos a partir de parámetros
correctos antiguos (de tramas de voz no erróneas). La finalidad del
tratamiento de las tramas defectuosas al realizar dicha sustitución
es ocultar los parámetros de voz dañados de la trama de voz errónea
sin provocar un deterioro perceptible en la calidad de la voz.
Los códecs de voz actuales funcionan procesando
una señal de voz en segmentos cortos, es decir, las tramas antes
mencionadas. Una longitud de trama típica de un códec de voz es 20
ms, lo cual se corresponde con 160 muestras de voz, considerando
una frecuencia de muestreo de 8 kHz. En los denominados códecs de
banda ancha, la longitud de la trama puede ser nuevamente 20 ms,
aunque la misma se puede corresponder con 320 muestras de voz,
considerando una frecuencia de muestreo de 16 kHz. Una trama se
puede dividir adicionalmente en una serie de subtramas.
Para cada trama, un codificador determina una
representación paramétrica de la señal de entrada. Los parámetros
se cuantifican y a continuación se transmiten a través de un canal
de comunicaciones en formato digital. Un decodificador produce una
señal de voz sintetizada basándose en los parámetros recibidos (ver
Fig. 1).
Uno de los conjuntos típicos de parámetros de
codificación extraídos incluye parámetros espectrales (los
denominados parámetros de codificación predictiva lineal, o
parámetros LPC) usados en la predicción a corto plazo, parámetros
usados para la predicción a largo plazo de la señal (los denominados
parámetros de predicción a largo plazo o parámetros LTP), diversos
parámetros de ganancia, y finalmente, parámetros de excitación.
Lo que se denomina codificación predictiva
lineal es un método ampliamente usado y exitoso para codificar voz
con vistas a su transmisión a través de un canal de comunicaciones;
representa los atributos de conformación de las frecuencias del
tracto vocal. La parametrización LPC caracteriza la forma del
espectro de un segmento corto de voz. Los parámetros LPC se pueden
representar bien como frecuencias LSF (Frecuencias de Rayas
Espectrales) o bien, de forma equivalente, como pares ISP (Pares
Espectrales de Inmitancia). Los pares ISP se obtienen
descomponiendo la función inversa de transferencia del filtro
A(z) en un conjunto de dos funciones de transferencia,
presentando una de ellas una simetría par y presentando la otra una
simetría impar. Los pares ISP, denominados también Frecuencias
Espectrales de Inmitancia (Frecuencias ISF), son las raíces de estos
polinomios en el círculo unitario del plano z. Los Pares de Rayas
Espectrales (denominados también Frecuencias de Rayas Espectrales)
se pueden definir de la misma manera que los Pares Espectrales de
Inmitancia; la diferencia entre estas representaciones es el
algoritmo de conversión, el cual transforma los coeficientes del
filtro LP en otra representación de parámetros LPC (LSP o ISP).
En ocasiones la condición del canal de
comunicaciones a través del cual se transmiten los parámetros de voz
codificados es deficiente, provocando errores en el flujo continuo
de bits, es decir, provocando errores de trama (y por lo tanto
provocando tramas defectuosas). Existen dos tipos de errores de
trama: tramas perdidas y tramas dañadas. En una trama dañada, están
dañados solamente algunos de los parámetros que describen un
segmento de voz específico (típicamente de 20 ms de duración). En un
tipo de error de trama de trama perdida, una trama bien está dañada
en su totalidad o bien no se recibe en absoluto.
En un sistema de transmisión basado en paquetes
para comunicar voz (un sistema en el cual una trama se transporta
habitualmente en forma de un único paquete), tal como se obtiene en
ocasiones por medio de una conexión común de Internet, es posible
que un paquete de datos (o trama) no llegue nunca al receptor
deseado o que un paquete de datos (o trama) llegue tan tarde que no
se pueda usar debido a la naturaleza de tiempo real de la voz en
conversación. A una trama de este tipo se le denomina trama perdida.
Una trama dañada en dicha situación es una trama que sí llega
(habitualmente en un solo paquete) al receptor pero que contiene
algunos parámetros con errores, indicados por ejemplo mediante una
comprobación de redundancia cíclica (CRC). Esta es la situación que
se produce habitualmente en una conexión por conmutación de
circuitos, tal como una conexión en un sistema de la conexión
correspondiente al sistema global para comunicaciones móviles (GSM),
en el que el índice de errores de bit (BER) en una trama dañada
está típicamente por debajo del 5%.
De este modo, puede observarse que la respuesta
correctiva óptima a una incidencia de una trama defectuosa es
diferente para los dos casos de tramas defectuosas (la trama dañada
y la trama perdida). Se producen respuestas diferentes debido a que
en el caso de las tramas dañadas, existe una información no fiable
sobre los parámetros, y en el caso de las tramas perdidas, no hay
ninguna información disponible.
Según la técnica anterior, cuando en una trama
de voz recibida se detecta un error, se da inicio a un procedimiento
de sustitución y silenciamiento; los parámetros de voz de la trama
defectuosa se sustituyen por valores atenuados o modificados de la
trama buena anterior, aunque se usan algunos de los parámetros menos
importantes de la trama errónea, por ejemplo, los parámetros de
predicción lineal con excitación por código (predicción CELP), o,
simplificando, los parámetros de excitación.
En algunos métodos según la técnica anterior,
(en el receptor) se usa una memoria intermedia denominada historial
de parámetros, en la que se almacenan los últimos parámetros de voz
recibidos sin error. Cuando se recibe una trama sin errores, se
actualiza el historial de parámetros y los parámetros de voz
transportados por las tramas se usan para la decodificación. Cuando
se detecta una trama defectuosa, a través de una comprobación CRC o
algún otro método de detección de errores, un indicador de trama
defectuosa (BFI) se fija a valor verdadero y a continuación se da
inicio a una ocultación de parámetros (sustitución y silenciamiento
de las tramas defectuosas correspondientes); los métodos de la
técnica anterior para la ocultación de parámetros usan el historial
de los parámetros para ocultar tramas dañadas. El documento US nº
5.502.713 da a conocer, por ejemplo, el uso de una combinación
ponderada de tramas recibidas previamente. Tal como se ha mencionado
anteriormente, cuando una trama recibida se clasifica como trama
defectuosa (BFI fijado a valor verdadero), se pueden usar algunos
parámetros de voz de la trama defectuosa; por ejemplo, en la
solución ilustrativa correspondiente a la sustitución de tramas
dañadas de un códec de voz AMR (multivelocidad adaptativa) GSM
proporcionado en la especificación 06.91 de ETSI (Instituto Europeo
de Normas de Telecomunicación), se usa siempre el vector de
excitación del canal. Cuando se pierde una trama de voz (incluyendo
la situación en la que una trama llega demasiado tarde como para
ser usada, tal como por ejemplo en algunos sistemas de transmisión
basados en IP), evidentemente no hay parámetros de la trama perdida
disponibles para ser usados.
En algunos sistemas de la técnica anterior, los
parámetros espectrales de una trama defectuosa se sustituyen por
los últimos parámetros espectrales recibidos buenos, después de
desplazarlos ligeramente hacia una media predeterminada constante.
Según la especificación ETSI 06.91 del GSM, la ocultación se realiza
en formato LSF, y viene dada por el siguiente algoritmo,
en el que \alpha = 0,95 y
N es el orden del filtro de predicción lineal (LP) que se
está usando. La magnitud LSF_q1 es el vector LSF cuantificado de la
segunda subtrama, y la magnitud LSF_q2 es el vector LSF cuantificado
de la cuarta subtrama. Los vectores LSF de la primera y tercera
subtramas se interpolan a partir de estos dos vectores. (El vector
LSF correspondiente a la primera subtrama en la trama n se interpola
a partir del vector LSF de la cuarta subtrama en la trama
n-1, es decir, la trama anterior). La magnitud
past_LSF_q es la magnitud LSF_q2 de la trama anterior. La magnitud
mean_LSF es un vector cuyos componentes son constantes
predeterminadas; los componentes no dependen de una secuencia de voz
decodificada. La magnitud mean_LSF con componentes constantes
genera un espectro de voz
constante.
Dichos sistemas de la técnica anterior desplazan
siempre los coeficientes espectrales hacia unas magnitudes
constantes, indicadas en este caso como mean_LSF(i). Las
magnitudes constantes se elaboran promediando durante un periodo de
tiempo prolongado y con varios hablantes sucesivos. Por lo tanto
dichos sistemas ofrecen únicamente una solución de compromiso, no
una solución que sea óptima para cualquier comunicante o situación
específicos; la concesión del compromiso se encuentra entre el
hecho de dejar perturbaciones molestas en la voz sintetizada, y
conseguir que la voz sea más natural en su sonido (es decir, la
calidad de la voz sintetizada).
Se requiere una mejora de la sustitución de los
parámetros espectrales en el caso de una trama de voz dañada,
posiblemente una sustitución basada tanto en un análisis del
historial de los parámetros de voz como en la trama errónea. Una
sustitución adecuada de las tramas de voz erróneas tiene un efecto
significativo sobre la calidad de la voz sintetizada producida a
partir del flujo de bits continuo.
La invención queda definida por las
reivindicaciones.
Los anteriores objetivos, características y
ventajas de la invención y otros diferentes se pondrán de manifiesto
al considerar la siguiente descripción detallada, presentada en
relación con los dibujos adjuntos, en los cuales:
la Fig. 1 es un diagrama de bloques de
componentes de un sistema según la técnica anterior para transmitir
o almacenar señales de voz y audio;
la Fig. 2 es un gráfico que ilustra coeficientes
LSF [0...4 kHz] de tramas adyacentes en un caso de voz de tipo
estacionario, siendo el eje Y la frecuencia y siendo el eje X las
tramas;
la Fig. 3 es un gráfico que ilustra coeficientes
LSF [0...4 kHz] de tramas adyacentes en un caso de voz de tipo no
estacionario, siendo el eje Y la frecuencia y siendo el eje X las
tramas;
la Fig. 4 es un gráfico que ilustra el error
absoluto de desviación espectral en el método de la técnica
anterior;
la Fig. 5 es un gráfico que ilustra el error
absoluto de desviación espectral en la presente invención (mostrando
que la presente invención proporciona una sustitución de los
parámetros espectrales mejor que la del método de la técnica
anterior), en la que la barra más alta del gráfico (que indica el
residuo más probable) es aproximadamente cero;
la Fig. 6 es un diagrama de flujo esquemático
que ilustra cómo se clasifican los bits según una de las técnicas
anteriores cuando se detecta una trama defectuosa;
la Fig. 7 es un diagrama de flujo del método de
la invención en conjunto; y
la Fig. 8 es un conjunto de dos gráficos que
ilustran aspectos de los criterios usados para determinar si una
LSF de una trama de la cual se ha indicado que presenta errores es o
no aceptable.
Según la invención, cuando un decodificador
detecta una trama defectuosa después de la transmisión de una señal
de voz a través de un canal de comunicaciones (Fig. 1), los
parámetros espectrales dañados de la señal de voz se ocultan
(sustituyéndolos por otros parámetros espectrales) sobre la base de
un análisis de los parámetros espectrales que se han comunicado
recientemente a través del canal de comunicaciones. Es importante
ocultar eficazmente los parámetros espectrales dañados de una trama
defectuosa no solamente debido a que los parámetros espectrales
dañados pueden provocar perturbaciones (sonidos audibles que es
evidente que no son voz), sino también debido a que se reduce la
calidad subjetiva de las subsiguientes tramas de voz exentas de
errores (por lo menos cuando se usa la cuantificación predictiva
lineal).
Uno de los análisis según la invención hace uso
también de la naturaleza localizada del impacto espectral de los
parámetros espectrales, tales como las frecuencias de rayas
espectrales (frecuencias LSF). Se dice que el impacto espectral de
las LSF está localizado por cuanto si un parámetro LSF se ve
modificado negativamente por un proceso de cuantificación y
codificación, el espectro LP cambiará únicamente en las proximidades
de la frecuencia representada por el parámetro LSF, dejando el
resto del espectro sin variaciones.
Según la invención, un analizador determina la
ocultación de los parámetros espectrales en el caso de una trama
defectuosa basándose en el historial de parámetros de voz recibidos
anteriormente. El analizador determina el tipo de la señal de voz
decodificada (es decir, si es de tipo estacionario o no
estacionario). El historial de los parámetros de voz se usa para
clasificar la señal de voz decodificada (como de tipo estacionario o
no, y más específicamente, como sonora o no); el historial que se
usa se puede obtener principalmente a partir de los valores más
recientes de los parámetros LTP y espectrales.
Las expresiones señal de voz de tipo
estacionario y señal de voz sonora son prácticamente
sinónimas; una secuencia de voz sonora es habitualmente una señal
de tipo relativamente estacionario, mientras que una secuencia de
voz sorda habitualmente no lo es. En el presente documento se usa la
terminología señales de voz de tipo estacionario y de
tipo no estacionario debido al que dicha terminología es más
precisa.
Una trama se puede clasificar como sonora o
sorda (y también de tipo estacionario o no estacionario) según la
relación de la potencia de la excitación adaptativa con respecto a
la correspondiente a la excitación total, indicada en la trama para
la voz correspondiente a dicha trama. (Una trama contiene parámetros
según los cuales se elaboran las excitaciones tanto adaptativa como
total; después de realizar dichas operaciones, se puede calcular la
potencia
total).
total).
Si una secuencia de voz es de tipo estacionario,
los métodos de la técnica anterior por medio de los cuales se
ocultan parámetros espectrales dañados, tal como se ha indicado
anteriormente, no son particularmente eficaces. Esto es debido a
que los parámetros espectrales adyacentes de tipo estacionario
varían lentamente, de manera que los valores espectrales buenos
anteriores (valores espectrales no dañados o perdidos) constituyen
habitualmente unas buenas estimaciones para los siguientes
coeficientes espectrales, y más específicamente, son mejores que
los parámetros espectrales de la trama anterior desplazados hacia la
media constante, que sería la opción usada por la técnica anterior
en lugar de los parámetros espectrales defectuosos (para
ocultarlos). La Fig. 2 ilustra, para una señal de voz de tipo
estacionario (y más particularmente una señal de voz sonora), las
características de las LSF, como ejemplo de parámetros espectrales;
ilustra coeficientes LSF [0...4 kHz] de tramas adyacentes de voz de
tipo estacionario, siendo el eje Y la frecuencia y siendo el eje X
las tramas, mostrando que las LSF sí cambian de forma relativamente
lenta, de una trama a otra, para la voz de tipo estacionario.
Durante los segmentos de voz de tipo
estacionario, la ocultación se realiza según la invención (para
tramas bien perdidas o bien dañadas) usando el siguiente
algoritmo:
en el que \alpha puede ser
aproximadamente 0,95, N es el orden del filtro LP, y K
es la longitud de adaptación. LSF_q1(i) es el vector
LSF cuantificado de la segunda subtrama y LSF_q2(i) es
el vector LSF cuantificado de la cuarta subtrama. Los vectores LSF
de la primera y tercera subtramas se interpolan a partir de estos
dos vectores. La magnitud past_LSF_good(i)(0) es
igual al valor de la magnitud
LSF_q2(i-1) de la trama buena
anterior. La magnitud past_LSF_good(i)(n) es un
componente del vector de parámetros LSF de la n+1^{ésima}
trama buena anterior (es decir, la trama buena que precede a la
trama defectuosa actual en n+1 tramas). Finalmente, la magnitud
adaptive_mean_LSF(i) es la media (promedio aritmético)
de los vectores LSF buenos anteriores (es decir, es un componente
de una magnitud vectorial, siendo cada uno de los componentes una
media de los componentes correspondientes de los vectores LSF
buenos
anteriores).
Se ha demostrado que el método de la invención
de la media adaptativa mejora la calidad subjetiva de la voz
sintetizada en comparación con el método de la técnica anterior. La
demostración hizo uso de simulaciones en las que la voz se
transmitía a través de un canal de comunicaciones con inducción de
errores. Cada vez que se detectaba una trama defectuosa, se
calculaba el error espectral. El error espectral se obtenía
restando, del espectro original, el espectro que se usaba para la
ocultación durante la trama defectuosa. El error absoluto se
calcula tomando el valor absoluto del error espectral. Las Figs. 4 y
5 muestran los histogramas del error de desviación absoluto de
frecuencias LSF para la técnica anterior y para el método de la
invención, respectivamente. La ocultación de errores óptima
presenta un error cercano a cero, es decir, cuando el error está
cerca de cero, los parámetros espectrales usados para la ocultación
están muy cerca de los parámetros espectrales originales (dañados o
perdidos). Tal como puede observarse a partir de los histogramas de
las Figs. 4 y 5, el método de la media adaptativa de la invención
(Fig. 5) oculta los errores mejor que el método de la técnica
anterior (Fig. 4) durante las secuencias de voz de tipo
estacionario.
Tal como se ha mencionado anteriormente, los
coeficientes espectrales de señales de tipo no estacionario (o, de
forma menos precisa, señales sordas) fluctúan entre las tramas
adyacentes, tal como se indica en la Fig. 3, la cual es un gráfico
que ilustra frecuencias LSF de tramas adyacentes en el caso de voz
de tipo no estacionario, siendo el eje Y la frecuencia y siendo el
eje X las tramas. En dicho caso, el método de ocultación óptima no
es el mismo que en el caso de la señal de voz de tipo estacionario.
Para la voz de tipo no estacionario, la invención proporciona una
ocultación para segmentos de voz de tipo no estacionario defectuosos
(dañados o perdidos) según el siguiente algoritmo (el algoritmo de
tipo no estacionario):
en el que N es el orden del
filtro LP, en el que \alpha es típicamente de forma aproximada
0,90, en el que LSF_q1(i) y LSF_q2(i)
son dos conjuntos de vectores LSF para la trama actual como en la
ecuación (2.1), en el que past_LSF_q(i) es la
LSF_q2(i) de la trama buena anterior, en el que
partly_adaptive_mean_LSF(i) es una combinación de la
media adaptativa de los vectores LSF y el promedio de los vectores
LSF, y en el que adaptive_mean_LSF(i) es la media de
los últimos K vectores LSF buenos (la cual se actualiza
cuando no se ha activado BFI), y en el que
mean_LSF(i) es un promedio constante de LSF y se
genera durante el proceso de diseño del códec que se está usando
para sintetizar la voz; es un promedio de LSF de alguna de las bases
de datos de voz. El parámetro \beta es típicamente de forma
aproximada 0,75, un valor usado para expresar el grado hasta el
cual la voz es de tipo estacionario en oposición a no estacionario.
(En ocasiones se calcula basándose en la relación de la energía de
excitación de la predicción de largo plazo con respecto a la energía
de excitación del libro de códigos fijo, o de forma más precisa,
usando la
fórmula
fórmula
en la
que
en la cual
energía_{alturatonal} es la energía de la excitación por
altura tonal y energía_{innovación} es la energía de la
excitación por código de innovación. Cuando la mayor parte de la
energía se encuentra en la excitación de la predicción de largo
plazo, la voz que está siendo decodificada es en su mayor parte de
tipo estacionario. Cuando la mayor parte de la energía se encuentra
en la excitación del libro de códigos fijo, la voz es en su mayoría
de tipo no
estacionario).
Para \beta = 1,0, la ecuación (2.3) se reduce
a la ecuación (1.0), la cual pertenece a la técnica anterior. Para
\beta = 0,0, la ecuación (2.3) se reduce a la ecuación (2.1), la
cual es usada por la presente invención para segmentos de tipo
estacionario. Para implementaciones críticas en términos de
complejidad (en aplicaciones en las que es importante mantener la
complejidad a un nivel razonable), \beta se puede fijar a algún
valor de compromiso, por ejemplo, 0,75, para los segmentos de tipo
tanto estacionario como no estacionario. Ocultación de parámetros
espectrales específicamente para tramas perdidas.
En el caso de una trama perdida, está
disponible únicamente la información de los parámetros espectrales
antiguos. Los parámetros espectrales sustituidos se calculan según
un criterio que se basa en historiales de parámetros de, por
ejemplo, valores espectrales LTP (predicción de largo plazo); los
parámetros LTP incluyen la ganancia LTP y el valor de retardo LTP.
La LTP representa la correlación de una trama actual con una trama
anterior. Por ejemplo, el criterio usado para calcular los
parámetros espectrales sustituidos puede diferenciar situaciones en
las que las últimas frecuencias LSF buenas deberían ser modificadas
por una media adaptativa de LSF o, como en la técnica anterior, por
una media constante.
Cuando una trama de voz está dañada (en
contraposición a perdida), el procedimiento de ocultación de la
invención se puede optimizar adicionalmente. En tal caso, los
parámetros espectrales se pueden corregir de forma completa o
parcial cuando se reciben en el decodificador de voz. Por ejemplo,
en una conexión basada en paquetes (tal como en una conexión común
de Internet TCP/IP), normalmente no es posible el método de
ocultación de tramas dañadas debido a que con las conexiones de
tipo TCP/IP normalmente todas las tramas defectuosas son tramas
perdidas, aunque para otros tipos de conexiones, tales como en las
conexiones EDGE o GSM por conmutación de circuitos, se puede usar
el método de ocultación de tramas dañadas de la invención. De este
modo, para conexiones por conmutación de paquetes, no se puede usar
el siguiente método alternativo, aunque para conexiones por
conmutación de circuitos, el mismo se puede usar ya que en dichas
conexiones las tramas defectuosas son por lo menos en ocasiones (y
de hecho normalmente) solo tramas dañadas.
Según las especificaciones correspondientes al
GSM, se detecta una trama defectuosa cuando se activa una bandera
BFI después de una comprobación CRC u otro mecanismo de detección de
errores usado en el proceso de decodificación de los canales. Los
mecanismos de detección de errores se usar para detectar errores en
los bits subjetivamente más significativos, es decir, aquellos bits
que tienen el mayor efecto sobre la calidad de la voz sintetizada.
En algunos métodos de la técnica anterior, estos bits más
significativos no se usan cuando se indica que una trama es
defectuosa. No obstante, una trama puede tener solamente unos pocos
errores de bit (incluso siendo uno suficiente para activar la
bandera BFI), por lo que se podría descartar la trama completa
incluso aunque la mayoría de los bits sean correctos. Una
comprobación CRC detecta simplemente si una trama tiene o no tramas
erróneas, pero no realiza ninguna estimación del BER (índice de
errores de bit). La Fig. 6 ilustra cómo se clasifican los bits
según la técnica anterior cuando se detecta una trama defectuosa. En
la Fig. 6, se muestra la comunicación de una única trama, un bit
cada vez (de izquierda a derecha), hacia un decodificador a través
de un canal de comunicaciones con condiciones tales que algunos bits
de la trama incluida en una comprobación CRC están dañados, y por
lo tanto el BFI se fija a uno.
Tal como puede observarse a partir de la Fig. 6,
incluso cuando una trama recibida contenga en ocasiones muchos bits
correctos (siendo habitualmente reducido el BER en una trama cuando
las condiciones del canal son relativamente buenas), la técnica
anterior no hace uso de ellos. Por el contrario, la presente
invención intenta realizar una estimación sobre si los parámetros
recibidos están dañados y si no lo están, el método de la invención
los usa.
La Tabla 1 muestra claramente la idea que
subyace tras la ocultación de tramas dañadas según la invención en
el ejemplo de un decodificador de banda ancha (WB) de multivelocidad
adaptativa (AMR).
En el caso de un decodificador WB AMR, el modo
12,65 kbit/s es una buena elección para ser usada cuando la
relación portadora/interferencia (C/I) del canal está en el
intervalo de entre aproximadamente 9 dB y 10 dB. A partir de la
Tabla 1, puede observarse que en el caso de unas condiciones de
canal GSM con una C/I en el intervalo de 9 a 10 dB usando un
esquema de modulación GMSK (Modulación por Desplazamiento Mínimo con
Filtro Gaussiano), aproximadamente entre el 35 y el 50% de las
tramas defectuosas recibidas tienen un espectro totalmente
correcto. Además, aproximadamente entre el 75 y el 85% de todos los
coeficientes de los parámetros espectrales de tramas defectuosas
son correctos. Debido a la naturaleza localizada del impacto
espectral, tal como se ha mencionado anteriormente, en las tramas
defectuosas se puede usar información de los parámetros espectrales.
Las condiciones de un canal con una C/I en el intervalo de entre 6
y 8 dB ó menor son tan deficientes que no se debería usar el modo
12,65 kbit/s; en su lugar, debería usarse algún otro modo
inferior.
La idea básica de la presente invención en el
caso de tramas dañadas es que según un criterio (que se describe
posteriormente), los bits del canal de una trama dañada se usan para
decodificar la trama dañada. El criterio para los coeficientes
espectrales se basa en los valores antiguos de los parámetros de voz
de la señal que está siendo decodificada. Cuando se detecta una
trama defectuosa, si se cumple el criterio se usan las LSF
recibidas u otros parámetros espectrales que se comuniquen a través
del canal; en otras palabras, si las LSF recibidas cumplen el
criterio, las mismas se usan en la decodificación exactamente tal
como se haría si la trama no fuera una trama defectuosa. En
cualquier otro caso, es decir, si las LSF del canal no cumplen el
criterio, el espectro correspondiente a una trama defectuosa se
calcula según el método de ocultación antes descrito, usando las
ecuaciones (2.1) ó (2.2). El criterio para aceptar los parámetros
espectrales se puede implementar usando por ejemplo un cálculo de
distancia espectral tal como un cálculo de la distancia espectral
denominada Itakura-Saito. (Ver, por ejemplo, la
página 329 de la publicación Discrete-Time
Processing of Speech Signals de John R Deller Jr, John H.L.
Hansen, y John G. Proakis, publicada por IEEE Press, 2000).
El criterio para aceptar los parámetros
espectrales del canal debería ser muy estricto en el caso de una
señal de voz de tipo estacionario. Tal como se muestra en la Fig.
3, los coeficientes espectrales son muy estables durante una
secuencia estacionaria (por definición) de manera que las LSF
dañadas (u otros parámetros de voz) de una señal de voz de tipo
estacionario normalmente se pueden detectar con facilidad (ya que
las mismas serían distinguibles con respecto a las LSF no dañadas
sobre la base de que diferirían drásticamente de las LSF de tramas
adyacentes no dañadas). Por otro lado, para una señal de voz de tipo
no estacionario, no es necesario que el criterio sea tan estricto;
se permite que el espectro correspondiente a una señal de voz de
tipo no estacionario presente una mayor variación. Para una señal
de voz de tipo no estacionario, la exactitud de los parámetros
espectrales correctos no es estricta en relación con las
perturbaciones audibles, ya que para la voz de tipo no estacionario
(es decir, voz más o menos sorda), no es probable que se produzcan
perturbaciones audibles con independencia de si los parámetros de
voz son o no correctos. En otras palabras, incluso si hay bits
dañados de los parámetros espectrales, los mismos pueden seguir
siendo aceptables según el criterio, ya que los parámetros
espectrales para la voz de tipo no estacionario con algunos bits
dañados habitualmente no generarán ninguna perturbación audible.
Según la invención, la calidad subjetiva de la voz sintetizada debe
reducirse lo menos posible en el caso de tramas dañadas mediante el
uso de toda la información disponible sobre las LSF recibidas, y
mediante la selección de qué frecuencias LSF usar según las
características de la voz que se esté transportando.
De este modo, aunque la invención incluye un
método para ocultar tramas dañadas, también comprende como
alternativa el uso de un criterio en el caso de una voz de tipo no
estacionario que transporte una trama dañada, el cual, si se
cumple, provocará que el decodificador use la trama dañada tal como
esté; en otras palabras, incluso aunque esté activado el BFI, se
usará la trama. El criterio es esencialmente un umbral usado para
diferenciar entre una trama dañada que sea utilizable y otra que no
lo sea; el umbral se basa en el grado de diferencia de los
parámetros espectrales de la trama dañada con respecto a los
parámetros espectrales de las tramas buenas recibidas más
recientemente.
El uso de posibles parámetros espectrales
dañados es probablemente más sensible a las perturbaciones audibles
que el uso de otros parámetros dañados, tales como los valores del
retardo LTP dañados. Por esta razón, el criterio usado para
determinar si se usa o no un parámetro espectral posiblemente dañado
debería ser especialmente fiable. En algunas formas de realización,
resulta ventajoso usar como criterio una distancia espectral máxima
(con respecto a un parámetro espectral correspondiente en una trama
anterior, más allá de la cual no debe usarse el parámetro espectral
dudoso); en una forma de realización de este tipo, se podría usar el
cálculo de la distancia Itakura-Saito, bien
conocido, para cuantificar la distancia espectral a comparar con el
umbral. Como alternativa, para determinar si se van a usar o no
parámetros espectrales posiblemente dañados se podrían usar
estadísticas fijas o adaptativas de parámetros espectrales. Para
generar el criterio también se podrían usar otros parámetros de
voz, tales como parámetros de ganancia. (Si los otros parámetros de
voz no son drásticamente diferentes en la trama actual, en
comparación con los valores de la trama buena más reciente, en ese
caso los parámetros espectrales son probablemente adecuados para
ser usados, siempre que los parámetros espectrales recibidos
cumplan además los criterios. En otras palabras, se pueden usar
otros parámetros, tales como la ganancia LTP, como componente
adicional para fijar criterios adecuados con vistas a determinar si
se usan o no los parámetros espectrales recibidos. El historial de
los otros parámetros de voz se puede usar para mejorar el
reconocimiento de la característica de la voz. Por ejemplo, el
historial se puede usar para decidir si la secuencia de voz
decodificada presenta una característica de tipo estacionario o no
estacionario. Cuando se conocen las propiedades de la secuencia de
voz decodificada, resulta más sencillo detectar parámetros
espectrales posiblemente correctos de la trama dañada y resulta más
sencillo realizar una estimación sobre qué tipo de valores de los
parámetros espectrales se espera que se hayan transportado en una
trama dañada recibida).
Según la invención, en la forma de realización
preferida, y en este caso haciendo referencia a la Fig. 8, el
criterio para determinar si se usa o no un parámetro espectral para
una trama dañada se basa en la noción de distancia espectral, tal
como se ha mencionado anteriormente. Más específicamente, para
determinar si se cumple el criterio para aceptar los coeficientes
LSF de una trama dañada, un procesador del receptor ejecuta un
algoritmo que comprueba cuánto se han movido los coeficientes LSF a
lo largo del eje de frecuencia en comparación con los coeficientes
LSF de la última trama buena, la cual está almacenada en una memoria
intermedia LSF, junto con los coeficientes LSF de cierto número
predeterminado de tramas más recientes anteriores.
El criterio según la forma de realización
preferida implica la realización de una o más de entre cuatro
comparaciones: una comparación entre tramas, una comparación
intratrama, una comparación de dos puntos, y una comparación de un
solo punto.
En la primera comparación, la comparación entre
tramas, las diferencias entre elementos de vector LSF en tramas
adyacentes de la trama dañada se comparan con las diferencias
correspondientes de tramas anteriores. Las diferencias se
determinan de la forma siguiente:
d_{(n)}(i)=|L_{n-1}(i)-L_{n}(i)|,
\hskip1.5cm1\leq i\leq P-1,
en la que P es el número de
coeficientes espectrales para una trama, L_{n}(i) es
el elemento LSF i^{ésimo} de la trama dañada, y
L_{n-1}(i) es el elemento LSF
i^{ésimo} de la trama anterior a la trama dañada. El elemento
LSF, L_{n}(i), de la trama dañada se descarta si la
diferencia, d_{n}(i), es demasiado elevada en comparación
con d_{n-1}(i),
d_{n-2}(i),...,
d_{n-k}(i), en la que k es la longitud de
la memoria intermedia
LSF.
La segunda comparación, la comparación
intratrama, es una comparación de la diferencia entre elementos de
vector LSF adyacentes en la misma trama. La distancia entre el
elemento LSF i^{ésimo} candidato, L_{n}(i),
de la trama n^{ésima} y el elemento LSF
(i-1)^{ésimo},
L_{n-1}(i), de la trama
n^{ésima} se determina de la manera siguiente:
e_{n}(i)=L_{n}(i-1)-L_{n}(i),
\hskip1.5cm2\leq i\leq P-1,
en la que P es el número de
coeficientes espectrales y e_{n}(i) es la distancia
entre elementos LSF. Las distancias se calculan entre todos los
elementos del vector LSF de la trama. Se descartarán uno o ambos de
entre los elementos LSF L_{n}(i) y
L_{n}(i-1) si la diferencia,
e_{n}(i), es demasiado grande o demasiado pequeña en
comparación con e_{n-1}(i),
e_{n-2}(i),...,
e_{n-k}(i).
La tercera comparación, la comparación de dos
puntos, determina si se ha producido un cruce que implica al
elemento LSF L_{n}(i) candidato, es decir, si un
elemento L_{n}(i-1) que es de orden
menor que el elemento candidato tiene un valor mayor que el
elemento LSF L_{n}(i) candidato. Un cruce indica uno
o más valores LSF altamente dañados. Normalmente se descartan todos
los elementos LSF de cruce.
La cuarta comparación, la comparación de un solo
punto, compara el valor del elemento de vector LSF candidato,
L_{n}(i), con un elemento LSF mínimo,
L_{min}(i), y con un elemento LSF máximo,
L_{max}(i), calculados ambos a partir de la memoria
intermedia LSF, y descarta al elemento LSF candidato si el mismo se
sitúa fuera del intervalo delimitado por los elementos LSF mínimo y
máximo.
Si se descarta un elemento LSF de una trama
dañada (basándose en el criterio anterior o en algún otro aspecto),
en ese caso se calcula un valor nuevo para el elemento LSF según el
algoritmo usando la ecuación (2.2).
Haciendo referencia a continuación a la Fig. 7,
se muestra un diagrama de flujo del método en conjunto de la
invención, indicando las diferentes previsiones realizadas para
tramas de voz de tipo estacionario y no estacionario, y para tramas
de voz de tipo no estacionario dañadas en contraposición a las
perdidas.
La invención se puede aplicar en un
decodificador de voz bien en una estación móvil o bien en un
elemento de una red móvil. Se puede aplicar también a cualquier
decodificador de voz usado en un sistema que presente un canal de
transmisión erróneo.
Debe entenderse que las disposiciones descritas
anteriormente son únicamente ilustrativas de la aplicación de los
principios de la presente invención. En particular, debería
entenderse que aunque la invención se ha mostrado y descrito usando
pares de rayas espectrales considerando una ilustración concreta, la
invención incluye además el uso de otros parámetros equivalentes
tales como pares espectrales de inmitancia. Los expertos en la
materia podrán idear numerosas modificaciones y disposiciones
alternativas sin apartarse por ello del alcance de la presente
invención, y las reivindicaciones adjuntas están destinadas a
incluir dichas modificaciones y disposiciones.
Claims (20)
1. Método para ocultar los efectos de errores de
trama en tramas a decodificar por un decodificador al proporcionar
voz sintetizada, proporcionándose las tramas al decodificador a
través de un canal de comunicaciones, proporcionando cada trama
parámetros usados por el decodificador en la síntesis de la voz,
comprendiendo el método la etapa en la que se determina si una
trama es defectuosa,
estando caracterizado el método por la
etapa en la que se proporciona una sustitución de los parámetros
espectrales de la trama defectuosa basándose únicamente en
parámetros espectrales correspondientes a tramas buenas recibidas
de forma previa y reciente e incluyendo una media por lo menos
parcialmente adaptativa de los parámetros espectrales de un número
predeterminado de las tramas buenas recibidas previamente y más
recientemente.
2. Método según la reivindicación 1, que
comprende además la etapa en la que se determina si la trama
defectuosa transporta voz de tipo estacionario o no estacionario, y
en el que la etapa en la que se proporciona una sustitución de la
trama defectuosa se realiza de una manera que depende de si la trama
defectuosa transporta voz de tipo estacionario o no
estacionario.
3. Método según la reivindicación 2, en el que
en el caso de una trama defectuosa que transporta voz de tipo
estacionario, la etapa en la que se proporciona una sustitución de
la trama defectuosa se realiza usando una media de parámetros de un
número predeterminado de las tramas buenas recibidas más
recientemente.
4. Método según la reivindicación 3, en el que
en el caso de una trama defectuosa que transporta voz de tipo
estacionario y en el caso de que se esté usando un filtro de
predicción lineal, la etapa en la que se proporciona una
sustitución de la trama defectuosa se realiza según el
algoritmo:
en el que \alpha es un parámetro
predeterminado, en el que N es el orden del filtro de
predicción lineal, en el que K es la longitud de adaptación,
en el que LSF_q1(i) es el vector LSF cuantificado de
la segunda subtrama y LSF_q2(i) es el vector LSF
cuantificado de la cuarta subtrama, en el que
past_LSF_good(i)(0) es igual al valor de la magnitud
LSF_q2(i-1) de la trama buena
anterior, en el que past_LSF_good(i)(n) es un
componente del vector de parámetros LSF de la n+1^{ésima} trama
buena anterior, y en el que adaptive_mean_LSF(i) es la
media de los vectores LSF buenos
anteriores.
anteriores.
5. Método según la reivindicación 2, en el que
en el caso de una trama defectuosa que transporta voz de tipo no
estacionario, la etapa en la que se proporciona una sustitución de
la trama defectuosa se realiza usando a lo sumo una parte
predeterminada de una media de parámetros de un número
predeterminado de las tramas buenas recibidas más
recientemente.
6. Método según la reivindicación 2, en el que
en el caso de una trama defectuosa que transporta voz de tipo no
estacionario y en el caso de que se esté usando un filtro de
predicción lineal, la etapa en la que se proporciona una
sustitución de la trama defectuosa se realiza según el
algoritmo:
en el que N es el orden del
filtro de predicción lineal, en el que \alpha y \beta son
parámetros predeterminados, en el que LSF_q1(i) es el
vector LSF cuantificado de la segunda subtrama y
LSF_q2(i) es el vector LSF cuantificado de la cuarta
subtrama, en el que past_LSF_q(i) es el valor de
LSF_q2(i) de la trama buena anterior, en el que
partly_adaptive_mean_LSF(i) es una combinación de la
media adaptativa de los vectores LSF y el promedio de los vectores
LSF, en el que
adaptive_mean_LSF(i) es la media de los últimos K vectores LSF buenos, en el K es la longitud de adaptación, y en el que mean_LSF(i) es un promedio constante de LSF.
adaptive_mean_LSF(i) es la media de los últimos K vectores LSF buenos, en el K es la longitud de adaptación, y en el que mean_LSF(i) es un promedio constante de LSF.
7. Método según la reivindicación 1, que
comprende además la etapa en la que se determina si la trama
defectuosa cumple un criterio predeterminado, y si es así, se usa
la trama defectuosa en lugar de sustituir dicha trama
defectuosa.
8. Método según la reivindicación 7, en el que
el criterio predeterminado implica la realización de una o más de
entre cuatro comparaciones: una comparación entre tramas, una
comparación intratrama, una comparación de dos puntos, y una
comparación de un solo punto.
9. Método según la reivindicación 1, en el cual
la etapa en la que se proporciona una sustitución de los parámetros
de la trama defectuosa comprende proporcionar una sustitución en la
cual las frecuencias espectrales de inmitancia antiguas se
desplazan hacia una media parcialmente adaptativa proporcionada
por:
ISF_{q}(i)=\alpha*past\_ISF_{q}(i)+(1-\alpha)*ISF_{mean}(i),
\hskip1,5cmpara\ i=0. . 16,
en la
que
\alpha =
0.9,
ISF_{q}(i) es el componente
i^{ésimo} del vector de frecuencias espectrales de inmitancia para
una trama actual,
past_ISF_{q}(i) es el componente
i^{ésimo} del vector de frecuencias espectrales de inmitancia de
la trama anterior,
ISF_{mean}(i) es el componente
i^{ésimo} del vector que es una combinación de la media adaptativa
y la media predeterminada constante de los vectores de frecuencias
espectrales de inmitancia, y se calcula usando la fórmula:
ISF_{mean}(i)
= \beta*ISF_{const\_mean}(i)+(1-\beta)*ISF_{adaptive\_mean}(i),
\hskip1cmpara\ i= 0. . 16,
en la que \beta = 0,75, en la que
ISF_{adaptive\_mean}(i)= \frac{1}{3}
\sum\limits^{2}_{i=0} past_ISF_{q}(i) y se actualiza
siempre que BFI=0 en la que BFI es un indicador de trama
defectuosa, y en la que ISF_{const\_mean}(i) es el
componente i^{ésimo} de un vector formado a partir de un promedio
de larga duración de vectores de frecuencias espectrales de
inmitancia.
10. Aparato para ocultar los efectos de errores
de trama en tramas a decodificar por un decodificador al
proporcionar voz sintetizada, proporcionándose las tramas al
decodificador a través de un canal de comunicaciones,
proporcionando cada trama parámetros usados por el decodificador en
la síntesis de la voz, comprendiendo el aparato medios para
determinar si una trama es defectuosa,
estando caracterizado el aparato por
medios para proporcionar una sustitución de los parámetros
espectrales de la trama defectuosa basándose únicamente en
parámetros espectrales correspondientes a tramas buenas recibidas
de forma previa y reciente e incluyendo una media por lo menos
parcialmente adaptativa de los parámetros espectrales de un número
predeterminado de las tramas buenas recibidas previamente y más
recientemente.
11. Aparato según la reivindicación 10, que
comprende además medios para determinar si la trama defectuosa
transporta voz de tipo estacionario o no estacionario, y en el que
los medios para proporcionar una sustitución de la trama defectuosa
realizan la sustitución de una manera que depende de si la trama
defectuosa transporta voz de tipo estacionario o no
estacionario.
12. Aparato según la reivindicación 11, en el
que en el caso de una trama defectuosa que transporta voz de tipo
estacionario, los medios para proporcionar una sustitución de la
trama defectuosa realizan dicha operación usando una media de
parámetros de un número predeterminado de las tramas buenas
recibidas más recientemente.
13. Aparato según la reivindicación 12, en el
que en el caso de una trama defectuosa que transporta voz de tipo
estacionario y en el caso de que se esté usando un filtro de
predicción lineal, los medios para proporcionar una sustitución de
la trama defectuosa funcionan según el algoritmo:
en el que \alpha es un parámetro
predeterminado, en el que N es el orden del filtro de
predicción lineal, en el que K es la longitud de adaptación,
en el que LSF_q1(i) es el vector LSF cuantificado de
la segunda subtrama y LSF_q2(i) es el vector LSF
cuantificado de la cuarta subtrama, en el que
past_LSF_good(i)(0) es igual al valor de la magnitud
LSF_q2(i-1) de la trama buena
anterior, en el que past_LSF_good(i)(n) es un
componente del vector de parámetros LSF de la n+1^{ésima}
trama buena anterior, y en el que adaptive_mean_LSF(i)
es la media de los vectores LSF buenos
anteriores.
anteriores.
14. Aparato según la reivindicación 11, en el
que en el caso de una trama defectuosa que transporta voz de tipo
no estacionario, los medios para proporcionar una sustitución de la
trama defectuosa realizan dicha operación usando a lo sumo una
parte predeterminada de una media de parámetros de un número
predeterminado de las tramas buenas recibidas más
recientemente.
15. Aparato según la reivindicación 11, en el
que en el caso de una trama defectuosa que transporta voz de tipo
no estacionario y en el caso de que se esté usando un filtro de
predicción lineal, los medios para proporcionar una sustitución de
la trama defectuosa funcionan según el algoritmo:
en el que N es el orden del
filtro de predicción lineal, en el que \alpha y \beta son
parámetros predeterminados, en el que LSF_q1(i) es el
vector LSF cuantificado de la segunda subtrama y
LSF_q2(i) es el vector LSF cuantificado de la cuarta
subtrama, en el que past_LSF_q(i) es el valor de
LSF_q2(i) de la trama buena anterior, en el que
partly_adaptive_mean_LSF(i) es una combinación de la
media adaptativa de los vectores LSF y el promedio de los vectores
LSF, en el que
adaptive_mean_LSF(i) es la media de los últimos K vectores LSF buenos, en el que K es la longitud de adaptación, y en el que mean_LSF(i) es un promedio constante de LSF.
adaptive_mean_LSF(i) es la media de los últimos K vectores LSF buenos, en el que K es la longitud de adaptación, y en el que mean_LSF(i) es un promedio constante de LSF.
16. Aparato según la reivindicación 10, que
comprende además medios para determinar si la trama defectuosa
cumple un criterio predeterminado, y si es así, se usa la trama
defectuosa en lugar de sustituir dicha trama defectuo-
sa.
sa.
17. Aparato según la reivindicación 16, en el
que el criterio predeterminado implica la realización de una o más
de entre cuatro comparaciones: una comparación entre tramas, una
comparación intratrama, una comparación de dos puntos, y una
comparación de un solo punto.
18. Aparato según la reivindicación 10, en el
cual los medios para proporcionar una sustitución de los parámetros
de la trama defectuosa comprenden medios para proporcionar una
sustitución en la cual las frecuencias espectrales de inmitancia
antiguas se desplazan hacia una media parcialmente adaptativa
proporcionada por:
\vskip1.000000\baselineskip
ISF_{q}(i)=\alpha*past\_ISF_{q}(i)+(1-\alpha)*ISF_{mean}(i),
\hskip1,5cmpara\ i=0. . 16,
\vskip1.000000\baselineskip
en la
que
\alpha =
0.9,
ISF_{q}(i) es el componente
i^{ésimo} del vector de frecuencias espectrales de inmitancia para
una trama actual,
past_ISF_{q}(i) es el componente
i^{ésimo} del vector de frecuencias espectrales de inmitancia de
la trama anterior,
ISF_{mean}(i) es el componente
i^{ésimo} del vector que es una combinación de la media adaptativa
y la media predeterminada constante de los vectores de frecuencias
espectrales de inmitancia, y se calcula usando la fórmula:
\vskip1.000000\baselineskip
ISF_{mean}(i)
= \beta*ISF_{const\_mean}(i)+(1-\beta)*ISF_{adaptive\_mean}(i),
\hskip1cmpara\ i= 0. . 16,
\newpage
en la que \beta = 0,75, en la que
ISF_{adaptive\_mean}(i)= \frac{1}{3}
\sum\limits^{2}_{i=0}(1/3) past_ISF_{q}(i) y se
actualiza siempre que BFI=0 en la que BFI es un indicador de trama
defectuosa, y en la que ISF_{const\_mean}(i) es el
componente i^{ésimo} de un vector formado a partir de un promedio
de larga duración de vectores de frecuencias espectrales de
inmitancia.
19. Estación móvil que comprende un aparato
según cualquiera de las reivindicaciones 10 a 18.
20. Elemento de red que comprende un aparato
según cualquiera de las reivindicaciones 10 a 18.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US24249800P | 2000-10-23 | 2000-10-23 | |
US242498P | 2000-10-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2276839T3 true ES2276839T3 (es) | 2007-07-01 |
Family
ID=22915004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES01978706T Expired - Lifetime ES2276839T3 (es) | 2000-10-23 | 2001-10-17 | Sustitucion mejorada de parametros espectrales para la ocultacion de errores de trama en un decodificador de voz. |
Country Status (14)
Country | Link |
---|---|
US (2) | US7031926B2 (es) |
EP (1) | EP1332493B1 (es) |
JP (2) | JP2004522178A (es) |
KR (1) | KR100581413B1 (es) |
CN (1) | CN1291374C (es) |
AT (1) | ATE348385T1 (es) |
AU (1) | AU1079902A (es) |
BR (2) | BR0114827A (es) |
CA (1) | CA2425034A1 (es) |
DE (1) | DE60125219T2 (es) |
ES (1) | ES2276839T3 (es) |
PT (1) | PT1332493E (es) |
WO (1) | WO2002035520A2 (es) |
ZA (1) | ZA200302778B (es) |
Families Citing this family (67)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6810377B1 (en) * | 1998-06-19 | 2004-10-26 | Comsat Corporation | Lost frame recovery techniques for parametric, LPC-based speech coding systems |
US6609118B1 (en) * | 1999-06-21 | 2003-08-19 | General Electric Company | Methods and systems for automated property valuation |
US6968309B1 (en) * | 2000-10-31 | 2005-11-22 | Nokia Mobile Phones Ltd. | Method and system for speech frame error concealment in speech decoding |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
JP2004151123A (ja) * | 2002-10-23 | 2004-05-27 | Nec Corp | 符号変換方法、符号変換装置、プログラム及びその記憶媒体 |
US20040143675A1 (en) * | 2003-01-16 | 2004-07-22 | Aust Andreas Matthias | Resynchronizing drifted data streams with a minimum of noticeable artifacts |
US7835916B2 (en) * | 2003-12-19 | 2010-11-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Channel signal concealment in multi-channel audio systems |
FI119533B (fi) * | 2004-04-15 | 2008-12-15 | Nokia Corp | Audiosignaalien koodaus |
CN1950883A (zh) * | 2004-04-30 | 2007-04-18 | 松下电器产业株式会社 | 可伸缩性解码装置及增强层丢失的隐藏方法 |
DE602004004376T2 (de) * | 2004-05-28 | 2007-05-24 | Alcatel | Anpassungsverfahren für ein Mehrraten-Sprach-Codec |
US7971121B1 (en) * | 2004-06-18 | 2011-06-28 | Verizon Laboratories Inc. | Systems and methods for providing distributed packet loss concealment in packet switching communications networks |
WO2006028009A1 (ja) | 2004-09-06 | 2006-03-16 | Matsushita Electric Industrial Co., Ltd. | スケーラブル復号化装置および信号消失補償方法 |
US7409338B1 (en) * | 2004-11-10 | 2008-08-05 | Mediatek Incorporation | Softbit speech decoder and related method for performing speech loss concealment |
US7596143B2 (en) * | 2004-12-16 | 2009-09-29 | Alcatel-Lucent Usa Inc. | Method and apparatus for handling potentially corrupt frames |
WO2006079350A1 (en) * | 2005-01-31 | 2006-08-03 | Sonorit Aps | Method for concatenating frames in communication system |
KR100612889B1 (ko) * | 2005-02-05 | 2006-08-14 | 삼성전자주식회사 | 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치 |
GB0512397D0 (en) * | 2005-06-17 | 2005-07-27 | Univ Cambridge Tech | Restoring corrupted audio signals |
KR100723409B1 (ko) * | 2005-07-27 | 2007-05-30 | 삼성전자주식회사 | 프레임 소거 은닉장치 및 방법, 및 이를 이용한 음성복호화 방법 및 장치 |
WO2007043642A1 (ja) * | 2005-10-14 | 2007-04-19 | Matsushita Electric Industrial Co., Ltd. | スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法 |
EP1982331B1 (en) * | 2006-02-06 | 2017-10-18 | Telefonaktiebolaget LM Ericsson (publ) | Method and arrangement for speech coding in wireless communication systems |
US7457746B2 (en) * | 2006-03-20 | 2008-11-25 | Mindspeed Technologies, Inc. | Pitch prediction for packet loss concealment |
US8280728B2 (en) * | 2006-08-11 | 2012-10-02 | Broadcom Corporation | Packet loss concealment for a sub-band predictive coder based on extrapolation of excitation waveform |
KR101046982B1 (ko) * | 2006-08-15 | 2011-07-07 | 브로드콤 코포레이션 | 전대역 오디오 파형의 외삽법에 기초한 부분대역 예측코딩에 대한 패킷 손실 은닉 기법 |
JP5121719B2 (ja) * | 2006-11-10 | 2013-01-16 | パナソニック株式会社 | パラメータ復号装置およびパラメータ復号方法 |
KR101292771B1 (ko) | 2006-11-24 | 2013-08-16 | 삼성전자주식회사 | 오디오 신호의 오류은폐방법 및 장치 |
KR100862662B1 (ko) | 2006-11-28 | 2008-10-10 | 삼성전자주식회사 | 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치 |
KR101291193B1 (ko) | 2006-11-30 | 2013-07-31 | 삼성전자주식회사 | 프레임 오류은닉방법 |
CN100578618C (zh) * | 2006-12-04 | 2010-01-06 | 华为技术有限公司 | 一种解码方法及装置 |
CN101226744B (zh) * | 2007-01-19 | 2011-04-13 | 华为技术有限公司 | 语音解码器中实现语音解码的方法及装置 |
KR20080075050A (ko) * | 2007-02-10 | 2008-08-14 | 삼성전자주식회사 | 오류 프레임의 파라미터 갱신 방법 및 장치 |
EP2128854B1 (en) * | 2007-03-02 | 2017-07-26 | III Holdings 12, LLC | Audio encoding device and audio decoding device |
EP1973254B1 (en) * | 2007-03-22 | 2009-07-15 | Research In Motion Limited | Device and method for improved lost frame concealment |
US8165224B2 (en) | 2007-03-22 | 2012-04-24 | Research In Motion Limited | Device and method for improved lost frame concealment |
EP2112653A4 (en) * | 2007-05-24 | 2013-09-11 | Panasonic Corp | AUDIO DEODICATION DEVICE, AUDIO CODING METHOD, PROGRAM AND INTEGRATED CIRCUIT |
EP2189976B1 (en) * | 2008-11-21 | 2012-10-24 | Nuance Communications, Inc. | Method for adapting a codebook for speech recognition |
US8751229B2 (en) * | 2008-11-21 | 2014-06-10 | At&T Intellectual Property I, L.P. | System and method for handling missing speech data |
CN101615395B (zh) | 2008-12-31 | 2011-01-12 | 华为技术有限公司 | 信号编码、解码方法及装置、系统 |
JP2010164859A (ja) * | 2009-01-16 | 2010-07-29 | Sony Corp | オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム |
US20100185441A1 (en) * | 2009-01-21 | 2010-07-22 | Cambridge Silicon Radio Limited | Error Concealment |
US8676573B2 (en) * | 2009-03-30 | 2014-03-18 | Cambridge Silicon Radio Limited | Error concealment |
US8316267B2 (en) * | 2009-05-01 | 2012-11-20 | Cambridge Silicon Radio Limited | Error concealment |
CN101894565B (zh) * | 2009-05-19 | 2013-03-20 | 华为技术有限公司 | 语音信号修复方法和装置 |
US8908882B2 (en) * | 2009-06-29 | 2014-12-09 | Audience, Inc. | Reparation of corrupted audio signals |
EP2506253A4 (en) | 2009-11-24 | 2014-01-01 | Lg Electronics Inc | METHOD AND DEVICE FOR PROCESSING AUDIO SIGNAL |
JP5724338B2 (ja) * | 2010-12-03 | 2015-05-27 | ソニー株式会社 | 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム |
RU2606552C2 (ru) * | 2011-04-21 | 2017-01-10 | Самсунг Электроникс Ко., Лтд. | Устройство для квантования коэффициентов кодирования с линейным предсказанием, устройство кодирования звука, устройство для деквантования коэффициентов кодирования с линейным предсказанием, устройство декодирования звука и электронное устройство для этого |
CN105719654B (zh) | 2011-04-21 | 2019-11-05 | 三星电子株式会社 | 用于语音信号或音频信号的解码设备和方法及量化设备 |
JP6024191B2 (ja) * | 2011-05-30 | 2016-11-09 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
KR102070430B1 (ko) | 2011-10-21 | 2020-01-28 | 삼성전자주식회사 | 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치 |
KR20130113742A (ko) * | 2012-04-06 | 2013-10-16 | 현대모비스 주식회사 | 오디오 데이터 디코딩 방법 및 장치 |
CN103714821A (zh) | 2012-09-28 | 2014-04-09 | 杜比实验室特许公司 | 基于位置的混合域数据包丢失隐藏 |
CN103117062B (zh) * | 2013-01-22 | 2014-09-17 | 武汉大学 | 语音解码器中帧差错隐藏的谱参数代替方法及系统 |
EP3098811B1 (en) | 2013-02-13 | 2018-10-17 | Telefonaktiebolaget LM Ericsson (publ) | Frame error concealment |
US9842598B2 (en) * | 2013-02-21 | 2017-12-12 | Qualcomm Incorporated | Systems and methods for mitigating potential frame instability |
BR112015031606B1 (pt) | 2013-06-21 | 2021-12-14 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Aparelho e método para desvanecimento de sinal aperfeiçoado em diferentes domínios durante ocultação de erros |
KR102132326B1 (ko) * | 2013-07-30 | 2020-07-09 | 삼성전자 주식회사 | 통신 시스템에서 오류 은닉 방법 및 장치 |
CN103456307B (zh) * | 2013-09-18 | 2015-10-21 | 武汉大学 | 音频解码器中帧差错隐藏的谱代替方法及系统 |
JP5981408B2 (ja) | 2013-10-29 | 2016-08-31 | 株式会社Nttドコモ | 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム |
CN104751849B (zh) * | 2013-12-31 | 2017-04-19 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
EP2922055A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information |
EP2922056A1 (en) * | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
EP2922054A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation |
CN107369453B (zh) | 2014-03-21 | 2021-04-20 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
CN108011686B (zh) * | 2016-10-31 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 信息编码帧丢失恢复方法和装置 |
US10784988B2 (en) | 2018-12-21 | 2020-09-22 | Microsoft Technology Licensing, Llc | Conditional forward error correction for network data |
US10803876B2 (en) * | 2018-12-21 | 2020-10-13 | Microsoft Technology Licensing, Llc | Combined forward and backward extrapolation of lost network data |
CN111554308A (zh) * | 2020-05-15 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种语音处理方法、装置、设备及存储介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5406532A (en) * | 1988-03-04 | 1995-04-11 | Asahi Kogaku Kogyo Kabushiki Kaisha | Optical system for a magneto-optical recording/reproducing apparatus |
JP3104400B2 (ja) * | 1992-04-27 | 2000-10-30 | ソニー株式会社 | オーディオ信号符号化装置及び方法 |
JP3085606B2 (ja) * | 1992-07-16 | 2000-09-11 | ヤマハ株式会社 | ディジタルデータの誤り補正方法 |
JP2746033B2 (ja) * | 1992-12-24 | 1998-04-28 | 日本電気株式会社 | 音声復号化装置 |
JP3123286B2 (ja) * | 1993-02-18 | 2001-01-09 | ソニー株式会社 | ディジタル信号処理装置又は方法、及び記録媒体 |
SE501340C2 (sv) * | 1993-06-11 | 1995-01-23 | Ericsson Telefon Ab L M | Döljande av transmissionsfel i en talavkodare |
US5502713A (en) * | 1993-12-07 | 1996-03-26 | Telefonaktiebolaget Lm Ericsson | Soft error concealment in a TDMA radio system |
JP3404837B2 (ja) * | 1993-12-07 | 2003-05-12 | ソニー株式会社 | 多層符号化装置 |
CA2142391C (en) | 1994-03-14 | 2001-05-29 | Juin-Hwey Chen | Computational complexity reduction during frame erasure or packet loss |
JP3713288B2 (ja) | 1994-04-01 | 2005-11-09 | 株式会社東芝 | 音声復号装置 |
JP3416331B2 (ja) | 1995-04-28 | 2003-06-16 | 松下電器産業株式会社 | 音声復号化装置 |
SE506341C2 (sv) * | 1996-04-10 | 1997-12-08 | Ericsson Telefon Ab L M | Metod och anordning för rekonstruktion av en mottagen talsignal |
JP3583550B2 (ja) | 1996-07-01 | 2004-11-04 | 松下電器産業株式会社 | 補間装置 |
EP0906664B1 (en) * | 1997-04-07 | 2006-06-21 | Koninklijke Philips Electronics N.V. | Speech transmission system |
US6810377B1 (en) | 1998-06-19 | 2004-10-26 | Comsat Corporation | Lost frame recovery techniques for parametric, LPC-based speech coding systems |
US6373842B1 (en) * | 1998-11-19 | 2002-04-16 | Nortel Networks Limited | Unidirectional streaming services in wireless systems |
US6377915B1 (en) * | 1999-03-17 | 2002-04-23 | Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. | Speech decoding using mix ratio table |
US6493664B1 (en) | 1999-04-05 | 2002-12-10 | Hughes Electronics Corporation | Spectral magnitude modeling and quantization in a frequency domain interpolative speech codec system |
-
2001
- 2001-07-30 US US09/918,300 patent/US7031926B2/en not_active Expired - Lifetime
- 2001-10-17 JP JP2002538420A patent/JP2004522178A/ja active Pending
- 2001-10-17 PT PT01978706T patent/PT1332493E/pt unknown
- 2001-10-17 AT AT01978706T patent/ATE348385T1/de not_active IP Right Cessation
- 2001-10-17 EP EP01978706A patent/EP1332493B1/en not_active Revoked
- 2001-10-17 AU AU1079902A patent/AU1079902A/xx active Pending
- 2001-10-17 KR KR1020037005602A patent/KR100581413B1/ko active Pre-grant Review Request
- 2001-10-17 WO PCT/IB2001/001950 patent/WO2002035520A2/en active IP Right Grant
- 2001-10-17 CA CA002425034A patent/CA2425034A1/en not_active Abandoned
- 2001-10-17 BR BR0114827-3A patent/BR0114827A/pt active IP Right Grant
- 2001-10-17 CN CNB018209378A patent/CN1291374C/zh not_active Expired - Lifetime
- 2001-10-17 DE DE60125219T patent/DE60125219T2/de not_active Revoked
- 2001-10-17 BR BRPI0114827A patent/BRPI0114827B1/pt unknown
- 2001-10-17 ES ES01978706T patent/ES2276839T3/es not_active Expired - Lifetime
-
2003
- 2003-04-09 ZA ZA200302778A patent/ZA200302778B/en unknown
-
2006
- 2006-04-10 US US11/402,220 patent/US7529673B2/en not_active Expired - Lifetime
- 2006-10-04 JP JP2006273448A patent/JP2007065679A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP1332493B1 (en) | 2006-12-13 |
DE60125219T2 (de) | 2007-03-29 |
DE60125219D1 (de) | 2007-01-25 |
US7031926B2 (en) | 2006-04-18 |
ZA200302778B (en) | 2004-02-27 |
BRPI0114827B1 (pt) | 2018-09-11 |
JP2004522178A (ja) | 2004-07-22 |
ATE348385T1 (de) | 2007-01-15 |
CN1291374C (zh) | 2006-12-20 |
CN1535461A (zh) | 2004-10-06 |
WO2002035520A3 (en) | 2002-07-04 |
US7529673B2 (en) | 2009-05-05 |
AU1079902A (en) | 2002-05-06 |
PT1332493E (pt) | 2007-02-28 |
US20070239462A1 (en) | 2007-10-11 |
KR100581413B1 (ko) | 2006-05-23 |
JP2007065679A (ja) | 2007-03-15 |
AU2002210799B2 (en) | 2005-06-23 |
EP1332493A2 (en) | 2003-08-06 |
KR20030048067A (ko) | 2003-06-18 |
BR0114827A (pt) | 2004-06-15 |
CA2425034A1 (en) | 2002-05-02 |
WO2002035520A2 (en) | 2002-05-02 |
US20020091523A1 (en) | 2002-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2276839T3 (es) | Sustitucion mejorada de parametros espectrales para la ocultacion de errores de trama en un decodificador de voz. | |
ES2266281T3 (es) | Metodo y sistema para ocultacion de error en tramas de voz en la decodificacion de voz. | |
US8428938B2 (en) | Systems and methods for reconstructing an erased speech frame | |
US7877253B2 (en) | Systems, methods, and apparatus for frame erasure recovery | |
TWI484479B (zh) | 用於低延遲聯合語音及音訊編碼中之錯誤隱藏之裝置和方法 | |
US7711563B2 (en) | Method and system for frame erasure concealment for predictive speech coding based on extrapolation of speech waveform | |
US20030078769A1 (en) | Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform | |
JP4825944B2 (ja) | レート判定誤りとそのアーティファクトの低減方法及び装置 | |
US7308406B2 (en) | Method and system for a waveform attenuation technique for predictive speech coding based on extrapolation of speech waveform | |
AU2002210799B8 (en) | Improved spectral parameter substitution for the frame error concealment in a speech decoder | |
WO2003023763A1 (en) | Improved frame erasure concealment for predictive speech coding based on extrapolation of speech waveform | |
AU2002210799A1 (en) | Improved spectral parameter substitution for the frame error concealment in a speech decoder | |
Villette et al. | A Multi-Rate Speech And Channel Codec: A GSM AMR Half-Rate Candidate |