ES2276839T3 - Sustitucion mejorada de parametros espectrales para la ocultacion de errores de trama en un decodificador de voz. - Google Patents

Sustitucion mejorada de parametros espectrales para la ocultacion de errores de trama en un decodificador de voz. Download PDF

Info

Publication number
ES2276839T3
ES2276839T3 ES01978706T ES01978706T ES2276839T3 ES 2276839 T3 ES2276839 T3 ES 2276839T3 ES 01978706 T ES01978706 T ES 01978706T ES 01978706 T ES01978706 T ES 01978706T ES 2276839 T3 ES2276839 T3 ES 2276839T3
Authority
ES
Spain
Prior art keywords
lsf
frame
mean
isf
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES01978706T
Other languages
English (en)
Inventor
Jari Makinen
Hannu J. Mikkola
Janne Vainio
Jani Rotola-Pukkila
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=22915004&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2276839(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Nokia Oyj filed Critical Nokia Oyj
Application granted granted Critical
Publication of ES2276839T3 publication Critical patent/ES2276839T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

Método para ocultar los efectos de errores de trama en tramas a decodificar por un decodificador al proporcionar voz sintetizada, proporcionándose las tramas al decodificador a través de un canal de comunicaciones, proporcionando cada trama parámetros usados por el decodificador en la síntesis de la voz, comprendiendo el método la etapa en la que se determina si una trama es defectuosa, estando caracterizado el método por la etapa en la que se proporciona una sustitución de los parámetros espectrales de la trama defectuosa basándose únicamente en parámetros espectrales correspondientes a tramas buenas recibidas de forma previa y reciente e incluyendo una media por lo menos parcialmente adaptativa de los parámetros espectrales de un número predeterminado de las tramas buenas recibidas previamente y más recientemente.

Description

Sustitución mejorada de parámetros espectrales para la ocultación de errores de trama en un decodificador de voz.
Campo de la invención
La presente invención se refiere a decodificadores de voz, y más particularmente a métodos usados para el tratamiento de tramas defectuosas recibidas por decodificadores de voz.
Antecedentes de la invención
En los sistemas celulares digitales, se dice que un flujo continuo de bits se transmite a través de un canal de comunicaciones que conecta una estación móvil con una estación base a través de la interfaz aérea. El flujo continuo de bits está organizado en tramas, que incluyen tramas de voz. El hecho de que durante la transmisión se produzca o no un error depende de las condiciones predominantes del canal. A una trama de voz en la que se detecta que contiene errores se le denomina simplemente trama defectuosa. Según la técnica anterior, en el caso de una trama defectuosa, los parámetros de voz de la trama defectuosa se sustituyen por parámetros de voz obtenidos a partir de parámetros correctos antiguos (de tramas de voz no erróneas). La finalidad del tratamiento de las tramas defectuosas al realizar dicha sustitución es ocultar los parámetros de voz dañados de la trama de voz errónea sin provocar un deterioro perceptible en la calidad de la voz.
Los códecs de voz actuales funcionan procesando una señal de voz en segmentos cortos, es decir, las tramas antes mencionadas. Una longitud de trama típica de un códec de voz es 20 ms, lo cual se corresponde con 160 muestras de voz, considerando una frecuencia de muestreo de 8 kHz. En los denominados códecs de banda ancha, la longitud de la trama puede ser nuevamente 20 ms, aunque la misma se puede corresponder con 320 muestras de voz, considerando una frecuencia de muestreo de 16 kHz. Una trama se puede dividir adicionalmente en una serie de subtramas.
Para cada trama, un codificador determina una representación paramétrica de la señal de entrada. Los parámetros se cuantifican y a continuación se transmiten a través de un canal de comunicaciones en formato digital. Un decodificador produce una señal de voz sintetizada basándose en los parámetros recibidos (ver Fig. 1).
Uno de los conjuntos típicos de parámetros de codificación extraídos incluye parámetros espectrales (los denominados parámetros de codificación predictiva lineal, o parámetros LPC) usados en la predicción a corto plazo, parámetros usados para la predicción a largo plazo de la señal (los denominados parámetros de predicción a largo plazo o parámetros LTP), diversos parámetros de ganancia, y finalmente, parámetros de excitación.
Lo que se denomina codificación predictiva lineal es un método ampliamente usado y exitoso para codificar voz con vistas a su transmisión a través de un canal de comunicaciones; representa los atributos de conformación de las frecuencias del tracto vocal. La parametrización LPC caracteriza la forma del espectro de un segmento corto de voz. Los parámetros LPC se pueden representar bien como frecuencias LSF (Frecuencias de Rayas Espectrales) o bien, de forma equivalente, como pares ISP (Pares Espectrales de Inmitancia). Los pares ISP se obtienen descomponiendo la función inversa de transferencia del filtro A(z) en un conjunto de dos funciones de transferencia, presentando una de ellas una simetría par y presentando la otra una simetría impar. Los pares ISP, denominados también Frecuencias Espectrales de Inmitancia (Frecuencias ISF), son las raíces de estos polinomios en el círculo unitario del plano z. Los Pares de Rayas Espectrales (denominados también Frecuencias de Rayas Espectrales) se pueden definir de la misma manera que los Pares Espectrales de Inmitancia; la diferencia entre estas representaciones es el algoritmo de conversión, el cual transforma los coeficientes del filtro LP en otra representación de parámetros LPC (LSP o ISP).
En ocasiones la condición del canal de comunicaciones a través del cual se transmiten los parámetros de voz codificados es deficiente, provocando errores en el flujo continuo de bits, es decir, provocando errores de trama (y por lo tanto provocando tramas defectuosas). Existen dos tipos de errores de trama: tramas perdidas y tramas dañadas. En una trama dañada, están dañados solamente algunos de los parámetros que describen un segmento de voz específico (típicamente de 20 ms de duración). En un tipo de error de trama de trama perdida, una trama bien está dañada en su totalidad o bien no se recibe en absoluto.
En un sistema de transmisión basado en paquetes para comunicar voz (un sistema en el cual una trama se transporta habitualmente en forma de un único paquete), tal como se obtiene en ocasiones por medio de una conexión común de Internet, es posible que un paquete de datos (o trama) no llegue nunca al receptor deseado o que un paquete de datos (o trama) llegue tan tarde que no se pueda usar debido a la naturaleza de tiempo real de la voz en conversación. A una trama de este tipo se le denomina trama perdida. Una trama dañada en dicha situación es una trama que sí llega (habitualmente en un solo paquete) al receptor pero que contiene algunos parámetros con errores, indicados por ejemplo mediante una comprobación de redundancia cíclica (CRC). Esta es la situación que se produce habitualmente en una conexión por conmutación de circuitos, tal como una conexión en un sistema de la conexión correspondiente al sistema global para comunicaciones móviles (GSM), en el que el índice de errores de bit (BER) en una trama dañada está típicamente por debajo del 5%.
De este modo, puede observarse que la respuesta correctiva óptima a una incidencia de una trama defectuosa es diferente para los dos casos de tramas defectuosas (la trama dañada y la trama perdida). Se producen respuestas diferentes debido a que en el caso de las tramas dañadas, existe una información no fiable sobre los parámetros, y en el caso de las tramas perdidas, no hay ninguna información disponible.
Según la técnica anterior, cuando en una trama de voz recibida se detecta un error, se da inicio a un procedimiento de sustitución y silenciamiento; los parámetros de voz de la trama defectuosa se sustituyen por valores atenuados o modificados de la trama buena anterior, aunque se usan algunos de los parámetros menos importantes de la trama errónea, por ejemplo, los parámetros de predicción lineal con excitación por código (predicción CELP), o, simplificando, los parámetros de excitación.
En algunos métodos según la técnica anterior, (en el receptor) se usa una memoria intermedia denominada historial de parámetros, en la que se almacenan los últimos parámetros de voz recibidos sin error. Cuando se recibe una trama sin errores, se actualiza el historial de parámetros y los parámetros de voz transportados por las tramas se usan para la decodificación. Cuando se detecta una trama defectuosa, a través de una comprobación CRC o algún otro método de detección de errores, un indicador de trama defectuosa (BFI) se fija a valor verdadero y a continuación se da inicio a una ocultación de parámetros (sustitución y silenciamiento de las tramas defectuosas correspondientes); los métodos de la técnica anterior para la ocultación de parámetros usan el historial de los parámetros para ocultar tramas dañadas. El documento US nº 5.502.713 da a conocer, por ejemplo, el uso de una combinación ponderada de tramas recibidas previamente. Tal como se ha mencionado anteriormente, cuando una trama recibida se clasifica como trama defectuosa (BFI fijado a valor verdadero), se pueden usar algunos parámetros de voz de la trama defectuosa; por ejemplo, en la solución ilustrativa correspondiente a la sustitución de tramas dañadas de un códec de voz AMR (multivelocidad adaptativa) GSM proporcionado en la especificación 06.91 de ETSI (Instituto Europeo de Normas de Telecomunicación), se usa siempre el vector de excitación del canal. Cuando se pierde una trama de voz (incluyendo la situación en la que una trama llega demasiado tarde como para ser usada, tal como por ejemplo en algunos sistemas de transmisión basados en IP), evidentemente no hay parámetros de la trama perdida disponibles para ser usados.
En algunos sistemas de la técnica anterior, los parámetros espectrales de una trama defectuosa se sustituyen por los últimos parámetros espectrales recibidos buenos, después de desplazarlos ligeramente hacia una media predeterminada constante. Según la especificación ETSI 06.91 del GSM, la ocultación se realiza en formato LSF, y viene dada por el siguiente algoritmo,
100
en el que \alpha = 0,95 y N es el orden del filtro de predicción lineal (LP) que se está usando. La magnitud LSF_q1 es el vector LSF cuantificado de la segunda subtrama, y la magnitud LSF_q2 es el vector LSF cuantificado de la cuarta subtrama. Los vectores LSF de la primera y tercera subtramas se interpolan a partir de estos dos vectores. (El vector LSF correspondiente a la primera subtrama en la trama n se interpola a partir del vector LSF de la cuarta subtrama en la trama n-1, es decir, la trama anterior). La magnitud past_LSF_q es la magnitud LSF_q2 de la trama anterior. La magnitud mean_LSF es un vector cuyos componentes son constantes predeterminadas; los componentes no dependen de una secuencia de voz decodificada. La magnitud mean_LSF con componentes constantes genera un espectro de voz constante.
Dichos sistemas de la técnica anterior desplazan siempre los coeficientes espectrales hacia unas magnitudes constantes, indicadas en este caso como mean_LSF(i). Las magnitudes constantes se elaboran promediando durante un periodo de tiempo prolongado y con varios hablantes sucesivos. Por lo tanto dichos sistemas ofrecen únicamente una solución de compromiso, no una solución que sea óptima para cualquier comunicante o situación específicos; la concesión del compromiso se encuentra entre el hecho de dejar perturbaciones molestas en la voz sintetizada, y conseguir que la voz sea más natural en su sonido (es decir, la calidad de la voz sintetizada).
Se requiere una mejora de la sustitución de los parámetros espectrales en el caso de una trama de voz dañada, posiblemente una sustitución basada tanto en un análisis del historial de los parámetros de voz como en la trama errónea. Una sustitución adecuada de las tramas de voz erróneas tiene un efecto significativo sobre la calidad de la voz sintetizada producida a partir del flujo de bits continuo.
La invención queda definida por las reivindicaciones.
Breve descripción de los dibujos
Los anteriores objetivos, características y ventajas de la invención y otros diferentes se pondrán de manifiesto al considerar la siguiente descripción detallada, presentada en relación con los dibujos adjuntos, en los cuales:
la Fig. 1 es un diagrama de bloques de componentes de un sistema según la técnica anterior para transmitir o almacenar señales de voz y audio;
la Fig. 2 es un gráfico que ilustra coeficientes LSF [0...4 kHz] de tramas adyacentes en un caso de voz de tipo estacionario, siendo el eje Y la frecuencia y siendo el eje X las tramas;
la Fig. 3 es un gráfico que ilustra coeficientes LSF [0...4 kHz] de tramas adyacentes en un caso de voz de tipo no estacionario, siendo el eje Y la frecuencia y siendo el eje X las tramas;
la Fig. 4 es un gráfico que ilustra el error absoluto de desviación espectral en el método de la técnica anterior;
la Fig. 5 es un gráfico que ilustra el error absoluto de desviación espectral en la presente invención (mostrando que la presente invención proporciona una sustitución de los parámetros espectrales mejor que la del método de la técnica anterior), en la que la barra más alta del gráfico (que indica el residuo más probable) es aproximadamente cero;
la Fig. 6 es un diagrama de flujo esquemático que ilustra cómo se clasifican los bits según una de las técnicas anteriores cuando se detecta una trama defectuosa;
la Fig. 7 es un diagrama de flujo del método de la invención en conjunto; y
la Fig. 8 es un conjunto de dos gráficos que ilustran aspectos de los criterios usados para determinar si una LSF de una trama de la cual se ha indicado que presenta errores es o no aceptable.
Mejor modo de poner en práctica la invención
Según la invención, cuando un decodificador detecta una trama defectuosa después de la transmisión de una señal de voz a través de un canal de comunicaciones (Fig. 1), los parámetros espectrales dañados de la señal de voz se ocultan (sustituyéndolos por otros parámetros espectrales) sobre la base de un análisis de los parámetros espectrales que se han comunicado recientemente a través del canal de comunicaciones. Es importante ocultar eficazmente los parámetros espectrales dañados de una trama defectuosa no solamente debido a que los parámetros espectrales dañados pueden provocar perturbaciones (sonidos audibles que es evidente que no son voz), sino también debido a que se reduce la calidad subjetiva de las subsiguientes tramas de voz exentas de errores (por lo menos cuando se usa la cuantificación predictiva lineal).
Uno de los análisis según la invención hace uso también de la naturaleza localizada del impacto espectral de los parámetros espectrales, tales como las frecuencias de rayas espectrales (frecuencias LSF). Se dice que el impacto espectral de las LSF está localizado por cuanto si un parámetro LSF se ve modificado negativamente por un proceso de cuantificación y codificación, el espectro LP cambiará únicamente en las proximidades de la frecuencia representada por el parámetro LSF, dejando el resto del espectro sin variaciones.
La invención en general, bien para una trama perdida o bien para una trama dañada
Según la invención, un analizador determina la ocultación de los parámetros espectrales en el caso de una trama defectuosa basándose en el historial de parámetros de voz recibidos anteriormente. El analizador determina el tipo de la señal de voz decodificada (es decir, si es de tipo estacionario o no estacionario). El historial de los parámetros de voz se usa para clasificar la señal de voz decodificada (como de tipo estacionario o no, y más específicamente, como sonora o no); el historial que se usa se puede obtener principalmente a partir de los valores más recientes de los parámetros LTP y espectrales.
Las expresiones señal de voz de tipo estacionario y señal de voz sonora son prácticamente sinónimas; una secuencia de voz sonora es habitualmente una señal de tipo relativamente estacionario, mientras que una secuencia de voz sorda habitualmente no lo es. En el presente documento se usa la terminología señales de voz de tipo estacionario y de tipo no estacionario debido al que dicha terminología es más precisa.
Una trama se puede clasificar como sonora o sorda (y también de tipo estacionario o no estacionario) según la relación de la potencia de la excitación adaptativa con respecto a la correspondiente a la excitación total, indicada en la trama para la voz correspondiente a dicha trama. (Una trama contiene parámetros según los cuales se elaboran las excitaciones tanto adaptativa como total; después de realizar dichas operaciones, se puede calcular la potencia
total).
Si una secuencia de voz es de tipo estacionario, los métodos de la técnica anterior por medio de los cuales se ocultan parámetros espectrales dañados, tal como se ha indicado anteriormente, no son particularmente eficaces. Esto es debido a que los parámetros espectrales adyacentes de tipo estacionario varían lentamente, de manera que los valores espectrales buenos anteriores (valores espectrales no dañados o perdidos) constituyen habitualmente unas buenas estimaciones para los siguientes coeficientes espectrales, y más específicamente, son mejores que los parámetros espectrales de la trama anterior desplazados hacia la media constante, que sería la opción usada por la técnica anterior en lugar de los parámetros espectrales defectuosos (para ocultarlos). La Fig. 2 ilustra, para una señal de voz de tipo estacionario (y más particularmente una señal de voz sonora), las características de las LSF, como ejemplo de parámetros espectrales; ilustra coeficientes LSF [0...4 kHz] de tramas adyacentes de voz de tipo estacionario, siendo el eje Y la frecuencia y siendo el eje X las tramas, mostrando que las LSF sí cambian de forma relativamente lenta, de una trama a otra, para la voz de tipo estacionario.
Durante los segmentos de voz de tipo estacionario, la ocultación se realiza según la invención (para tramas bien perdidas o bien dañadas) usando el siguiente algoritmo:
101
en el que \alpha puede ser aproximadamente 0,95, N es el orden del filtro LP, y K es la longitud de adaptación. LSF_q1(i) es el vector LSF cuantificado de la segunda subtrama y LSF_q2(i) es el vector LSF cuantificado de la cuarta subtrama. Los vectores LSF de la primera y tercera subtramas se interpolan a partir de estos dos vectores. La magnitud past_LSF_good(i)(0) es igual al valor de la magnitud LSF_q2(i-1) de la trama buena anterior. La magnitud past_LSF_good(i)(n) es un componente del vector de parámetros LSF de la n+1^{ésima} trama buena anterior (es decir, la trama buena que precede a la trama defectuosa actual en n+1 tramas). Finalmente, la magnitud adaptive_mean_LSF(i) es la media (promedio aritmético) de los vectores LSF buenos anteriores (es decir, es un componente de una magnitud vectorial, siendo cada uno de los componentes una media de los componentes correspondientes de los vectores LSF buenos anteriores).
Se ha demostrado que el método de la invención de la media adaptativa mejora la calidad subjetiva de la voz sintetizada en comparación con el método de la técnica anterior. La demostración hizo uso de simulaciones en las que la voz se transmitía a través de un canal de comunicaciones con inducción de errores. Cada vez que se detectaba una trama defectuosa, se calculaba el error espectral. El error espectral se obtenía restando, del espectro original, el espectro que se usaba para la ocultación durante la trama defectuosa. El error absoluto se calcula tomando el valor absoluto del error espectral. Las Figs. 4 y 5 muestran los histogramas del error de desviación absoluto de frecuencias LSF para la técnica anterior y para el método de la invención, respectivamente. La ocultación de errores óptima presenta un error cercano a cero, es decir, cuando el error está cerca de cero, los parámetros espectrales usados para la ocultación están muy cerca de los parámetros espectrales originales (dañados o perdidos). Tal como puede observarse a partir de los histogramas de las Figs. 4 y 5, el método de la media adaptativa de la invención (Fig. 5) oculta los errores mejor que el método de la técnica anterior (Fig. 4) durante las secuencias de voz de tipo estacionario.
Tal como se ha mencionado anteriormente, los coeficientes espectrales de señales de tipo no estacionario (o, de forma menos precisa, señales sordas) fluctúan entre las tramas adyacentes, tal como se indica en la Fig. 3, la cual es un gráfico que ilustra frecuencias LSF de tramas adyacentes en el caso de voz de tipo no estacionario, siendo el eje Y la frecuencia y siendo el eje X las tramas. En dicho caso, el método de ocultación óptima no es el mismo que en el caso de la señal de voz de tipo estacionario. Para la voz de tipo no estacionario, la invención proporciona una ocultación para segmentos de voz de tipo no estacionario defectuosos (dañados o perdidos) según el siguiente algoritmo (el algoritmo de tipo no estacionario):
102
en el que N es el orden del filtro LP, en el que \alpha es típicamente de forma aproximada 0,90, en el que LSF_q1(i) y LSF_q2(i) son dos conjuntos de vectores LSF para la trama actual como en la ecuación (2.1), en el que past_LSF_q(i) es la LSF_q2(i) de la trama buena anterior, en el que partly_adaptive_mean_LSF(i) es una combinación de la media adaptativa de los vectores LSF y el promedio de los vectores LSF, y en el que adaptive_mean_LSF(i) es la media de los últimos K vectores LSF buenos (la cual se actualiza cuando no se ha activado BFI), y en el que mean_LSF(i) es un promedio constante de LSF y se genera durante el proceso de diseño del códec que se está usando para sintetizar la voz; es un promedio de LSF de alguna de las bases de datos de voz. El parámetro \beta es típicamente de forma aproximada 0,75, un valor usado para expresar el grado hasta el cual la voz es de tipo estacionario en oposición a no estacionario. (En ocasiones se calcula basándose en la relación de la energía de excitación de la predicción de largo plazo con respecto a la energía de excitación del libro de códigos fijo, o de forma más precisa, usando la
fórmula
103
en la que
1300
en la cual energía_{alturatonal} es la energía de la excitación por altura tonal y energía_{innovación} es la energía de la excitación por código de innovación. Cuando la mayor parte de la energía se encuentra en la excitación de la predicción de largo plazo, la voz que está siendo decodificada es en su mayor parte de tipo estacionario. Cuando la mayor parte de la energía se encuentra en la excitación del libro de códigos fijo, la voz es en su mayoría de tipo no estacionario).
Para \beta = 1,0, la ecuación (2.3) se reduce a la ecuación (1.0), la cual pertenece a la técnica anterior. Para \beta = 0,0, la ecuación (2.3) se reduce a la ecuación (2.1), la cual es usada por la presente invención para segmentos de tipo estacionario. Para implementaciones críticas en términos de complejidad (en aplicaciones en las que es importante mantener la complejidad a un nivel razonable), \beta se puede fijar a algún valor de compromiso, por ejemplo, 0,75, para los segmentos de tipo tanto estacionario como no estacionario. Ocultación de parámetros espectrales específicamente para tramas perdidas.
En el caso de una trama perdida, está disponible únicamente la información de los parámetros espectrales antiguos. Los parámetros espectrales sustituidos se calculan según un criterio que se basa en historiales de parámetros de, por ejemplo, valores espectrales LTP (predicción de largo plazo); los parámetros LTP incluyen la ganancia LTP y el valor de retardo LTP. La LTP representa la correlación de una trama actual con una trama anterior. Por ejemplo, el criterio usado para calcular los parámetros espectrales sustituidos puede diferenciar situaciones en las que las últimas frecuencias LSF buenas deberían ser modificadas por una media adaptativa de LSF o, como en la técnica anterior, por una media constante.
Ocultación alternativa de parámetros espectrales específicamente para tramas dañadas
Cuando una trama de voz está dañada (en contraposición a perdida), el procedimiento de ocultación de la invención se puede optimizar adicionalmente. En tal caso, los parámetros espectrales se pueden corregir de forma completa o parcial cuando se reciben en el decodificador de voz. Por ejemplo, en una conexión basada en paquetes (tal como en una conexión común de Internet TCP/IP), normalmente no es posible el método de ocultación de tramas dañadas debido a que con las conexiones de tipo TCP/IP normalmente todas las tramas defectuosas son tramas perdidas, aunque para otros tipos de conexiones, tales como en las conexiones EDGE o GSM por conmutación de circuitos, se puede usar el método de ocultación de tramas dañadas de la invención. De este modo, para conexiones por conmutación de paquetes, no se puede usar el siguiente método alternativo, aunque para conexiones por conmutación de circuitos, el mismo se puede usar ya que en dichas conexiones las tramas defectuosas son por lo menos en ocasiones (y de hecho normalmente) solo tramas dañadas.
Según las especificaciones correspondientes al GSM, se detecta una trama defectuosa cuando se activa una bandera BFI después de una comprobación CRC u otro mecanismo de detección de errores usado en el proceso de decodificación de los canales. Los mecanismos de detección de errores se usar para detectar errores en los bits subjetivamente más significativos, es decir, aquellos bits que tienen el mayor efecto sobre la calidad de la voz sintetizada. En algunos métodos de la técnica anterior, estos bits más significativos no se usan cuando se indica que una trama es defectuosa. No obstante, una trama puede tener solamente unos pocos errores de bit (incluso siendo uno suficiente para activar la bandera BFI), por lo que se podría descartar la trama completa incluso aunque la mayoría de los bits sean correctos. Una comprobación CRC detecta simplemente si una trama tiene o no tramas erróneas, pero no realiza ninguna estimación del BER (índice de errores de bit). La Fig. 6 ilustra cómo se clasifican los bits según la técnica anterior cuando se detecta una trama defectuosa. En la Fig. 6, se muestra la comunicación de una única trama, un bit cada vez (de izquierda a derecha), hacia un decodificador a través de un canal de comunicaciones con condiciones tales que algunos bits de la trama incluida en una comprobación CRC están dañados, y por lo tanto el BFI se fija a uno.
Tal como puede observarse a partir de la Fig. 6, incluso cuando una trama recibida contenga en ocasiones muchos bits correctos (siendo habitualmente reducido el BER en una trama cuando las condiciones del canal son relativamente buenas), la técnica anterior no hace uso de ellos. Por el contrario, la presente invención intenta realizar una estimación sobre si los parámetros recibidos están dañados y si no lo están, el método de la invención los usa.
La Tabla 1 muestra claramente la idea que subyace tras la ocultación de tramas dañadas según la invención en el ejemplo de un decodificador de banda ancha (WB) de multivelocidad adaptativa (AMR).
TABLA 1 Porcentaje de parámetros espectrales correctos en una trama de voz dañada
1
En el caso de un decodificador WB AMR, el modo 12,65 kbit/s es una buena elección para ser usada cuando la relación portadora/interferencia (C/I) del canal está en el intervalo de entre aproximadamente 9 dB y 10 dB. A partir de la Tabla 1, puede observarse que en el caso de unas condiciones de canal GSM con una C/I en el intervalo de 9 a 10 dB usando un esquema de modulación GMSK (Modulación por Desplazamiento Mínimo con Filtro Gaussiano), aproximadamente entre el 35 y el 50% de las tramas defectuosas recibidas tienen un espectro totalmente correcto. Además, aproximadamente entre el 75 y el 85% de todos los coeficientes de los parámetros espectrales de tramas defectuosas son correctos. Debido a la naturaleza localizada del impacto espectral, tal como se ha mencionado anteriormente, en las tramas defectuosas se puede usar información de los parámetros espectrales. Las condiciones de un canal con una C/I en el intervalo de entre 6 y 8 dB ó menor son tan deficientes que no se debería usar el modo 12,65 kbit/s; en su lugar, debería usarse algún otro modo inferior.
La idea básica de la presente invención en el caso de tramas dañadas es que según un criterio (que se describe posteriormente), los bits del canal de una trama dañada se usan para decodificar la trama dañada. El criterio para los coeficientes espectrales se basa en los valores antiguos de los parámetros de voz de la señal que está siendo decodificada. Cuando se detecta una trama defectuosa, si se cumple el criterio se usan las LSF recibidas u otros parámetros espectrales que se comuniquen a través del canal; en otras palabras, si las LSF recibidas cumplen el criterio, las mismas se usan en la decodificación exactamente tal como se haría si la trama no fuera una trama defectuosa. En cualquier otro caso, es decir, si las LSF del canal no cumplen el criterio, el espectro correspondiente a una trama defectuosa se calcula según el método de ocultación antes descrito, usando las ecuaciones (2.1) ó (2.2). El criterio para aceptar los parámetros espectrales se puede implementar usando por ejemplo un cálculo de distancia espectral tal como un cálculo de la distancia espectral denominada Itakura-Saito. (Ver, por ejemplo, la página 329 de la publicación Discrete-Time Processing of Speech Signals de John R Deller Jr, John H.L. Hansen, y John G. Proakis, publicada por IEEE Press, 2000).
El criterio para aceptar los parámetros espectrales del canal debería ser muy estricto en el caso de una señal de voz de tipo estacionario. Tal como se muestra en la Fig. 3, los coeficientes espectrales son muy estables durante una secuencia estacionaria (por definición) de manera que las LSF dañadas (u otros parámetros de voz) de una señal de voz de tipo estacionario normalmente se pueden detectar con facilidad (ya que las mismas serían distinguibles con respecto a las LSF no dañadas sobre la base de que diferirían drásticamente de las LSF de tramas adyacentes no dañadas). Por otro lado, para una señal de voz de tipo no estacionario, no es necesario que el criterio sea tan estricto; se permite que el espectro correspondiente a una señal de voz de tipo no estacionario presente una mayor variación. Para una señal de voz de tipo no estacionario, la exactitud de los parámetros espectrales correctos no es estricta en relación con las perturbaciones audibles, ya que para la voz de tipo no estacionario (es decir, voz más o menos sorda), no es probable que se produzcan perturbaciones audibles con independencia de si los parámetros de voz son o no correctos. En otras palabras, incluso si hay bits dañados de los parámetros espectrales, los mismos pueden seguir siendo aceptables según el criterio, ya que los parámetros espectrales para la voz de tipo no estacionario con algunos bits dañados habitualmente no generarán ninguna perturbación audible. Según la invención, la calidad subjetiva de la voz sintetizada debe reducirse lo menos posible en el caso de tramas dañadas mediante el uso de toda la información disponible sobre las LSF recibidas, y mediante la selección de qué frecuencias LSF usar según las características de la voz que se esté transportando.
De este modo, aunque la invención incluye un método para ocultar tramas dañadas, también comprende como alternativa el uso de un criterio en el caso de una voz de tipo no estacionario que transporte una trama dañada, el cual, si se cumple, provocará que el decodificador use la trama dañada tal como esté; en otras palabras, incluso aunque esté activado el BFI, se usará la trama. El criterio es esencialmente un umbral usado para diferenciar entre una trama dañada que sea utilizable y otra que no lo sea; el umbral se basa en el grado de diferencia de los parámetros espectrales de la trama dañada con respecto a los parámetros espectrales de las tramas buenas recibidas más recientemente.
El uso de posibles parámetros espectrales dañados es probablemente más sensible a las perturbaciones audibles que el uso de otros parámetros dañados, tales como los valores del retardo LTP dañados. Por esta razón, el criterio usado para determinar si se usa o no un parámetro espectral posiblemente dañado debería ser especialmente fiable. En algunas formas de realización, resulta ventajoso usar como criterio una distancia espectral máxima (con respecto a un parámetro espectral correspondiente en una trama anterior, más allá de la cual no debe usarse el parámetro espectral dudoso); en una forma de realización de este tipo, se podría usar el cálculo de la distancia Itakura-Saito, bien conocido, para cuantificar la distancia espectral a comparar con el umbral. Como alternativa, para determinar si se van a usar o no parámetros espectrales posiblemente dañados se podrían usar estadísticas fijas o adaptativas de parámetros espectrales. Para generar el criterio también se podrían usar otros parámetros de voz, tales como parámetros de ganancia. (Si los otros parámetros de voz no son drásticamente diferentes en la trama actual, en comparación con los valores de la trama buena más reciente, en ese caso los parámetros espectrales son probablemente adecuados para ser usados, siempre que los parámetros espectrales recibidos cumplan además los criterios. En otras palabras, se pueden usar otros parámetros, tales como la ganancia LTP, como componente adicional para fijar criterios adecuados con vistas a determinar si se usan o no los parámetros espectrales recibidos. El historial de los otros parámetros de voz se puede usar para mejorar el reconocimiento de la característica de la voz. Por ejemplo, el historial se puede usar para decidir si la secuencia de voz decodificada presenta una característica de tipo estacionario o no estacionario. Cuando se conocen las propiedades de la secuencia de voz decodificada, resulta más sencillo detectar parámetros espectrales posiblemente correctos de la trama dañada y resulta más sencillo realizar una estimación sobre qué tipo de valores de los parámetros espectrales se espera que se hayan transportado en una trama dañada recibida).
Según la invención, en la forma de realización preferida, y en este caso haciendo referencia a la Fig. 8, el criterio para determinar si se usa o no un parámetro espectral para una trama dañada se basa en la noción de distancia espectral, tal como se ha mencionado anteriormente. Más específicamente, para determinar si se cumple el criterio para aceptar los coeficientes LSF de una trama dañada, un procesador del receptor ejecuta un algoritmo que comprueba cuánto se han movido los coeficientes LSF a lo largo del eje de frecuencia en comparación con los coeficientes LSF de la última trama buena, la cual está almacenada en una memoria intermedia LSF, junto con los coeficientes LSF de cierto número predeterminado de tramas más recientes anteriores.
El criterio según la forma de realización preferida implica la realización de una o más de entre cuatro comparaciones: una comparación entre tramas, una comparación intratrama, una comparación de dos puntos, y una comparación de un solo punto.
En la primera comparación, la comparación entre tramas, las diferencias entre elementos de vector LSF en tramas adyacentes de la trama dañada se comparan con las diferencias correspondientes de tramas anteriores. Las diferencias se determinan de la forma siguiente:
d_{(n)}(i)=|L_{n-1}(i)-L_{n}(i)|,
\hskip1.5cm
1\leq i\leq P-1,
en la que P es el número de coeficientes espectrales para una trama, L_{n}(i) es el elemento LSF i^{ésimo} de la trama dañada, y L_{n-1}(i) es el elemento LSF i^{ésimo} de la trama anterior a la trama dañada. El elemento LSF, L_{n}(i), de la trama dañada se descarta si la diferencia, d_{n}(i), es demasiado elevada en comparación con d_{n-1}(i), d_{n-2}(i),..., d_{n-k}(i), en la que k es la longitud de la memoria intermedia LSF.
La segunda comparación, la comparación intratrama, es una comparación de la diferencia entre elementos de vector LSF adyacentes en la misma trama. La distancia entre el elemento LSF i^{ésimo} candidato, L_{n}(i), de la trama n^{ésima} y el elemento LSF (i-1)^{ésimo}, L_{n-1}(i), de la trama n^{ésima} se determina de la manera siguiente:
e_{n}(i)=L_{n}(i-1)-L_{n}(i),
\hskip1.5cm
2\leq i\leq P-1,
en la que P es el número de coeficientes espectrales y e_{n}(i) es la distancia entre elementos LSF. Las distancias se calculan entre todos los elementos del vector LSF de la trama. Se descartarán uno o ambos de entre los elementos LSF L_{n}(i) y L_{n}(i-1) si la diferencia, e_{n}(i), es demasiado grande o demasiado pequeña en comparación con e_{n-1}(i), e_{n-2}(i),..., e_{n-k}(i).
La tercera comparación, la comparación de dos puntos, determina si se ha producido un cruce que implica al elemento LSF L_{n}(i) candidato, es decir, si un elemento L_{n}(i-1) que es de orden menor que el elemento candidato tiene un valor mayor que el elemento LSF L_{n}(i) candidato. Un cruce indica uno o más valores LSF altamente dañados. Normalmente se descartan todos los elementos LSF de cruce.
La cuarta comparación, la comparación de un solo punto, compara el valor del elemento de vector LSF candidato, L_{n}(i), con un elemento LSF mínimo, L_{min}(i), y con un elemento LSF máximo, L_{max}(i), calculados ambos a partir de la memoria intermedia LSF, y descarta al elemento LSF candidato si el mismo se sitúa fuera del intervalo delimitado por los elementos LSF mínimo y máximo.
Si se descarta un elemento LSF de una trama dañada (basándose en el criterio anterior o en algún otro aspecto), en ese caso se calcula un valor nuevo para el elemento LSF según el algoritmo usando la ecuación (2.2).
Haciendo referencia a continuación a la Fig. 7, se muestra un diagrama de flujo del método en conjunto de la invención, indicando las diferentes previsiones realizadas para tramas de voz de tipo estacionario y no estacionario, y para tramas de voz de tipo no estacionario dañadas en contraposición a las perdidas.
Argumentación
La invención se puede aplicar en un decodificador de voz bien en una estación móvil o bien en un elemento de una red móvil. Se puede aplicar también a cualquier decodificador de voz usado en un sistema que presente un canal de transmisión erróneo.
Alcance de la invención
Debe entenderse que las disposiciones descritas anteriormente son únicamente ilustrativas de la aplicación de los principios de la presente invención. En particular, debería entenderse que aunque la invención se ha mostrado y descrito usando pares de rayas espectrales considerando una ilustración concreta, la invención incluye además el uso de otros parámetros equivalentes tales como pares espectrales de inmitancia. Los expertos en la materia podrán idear numerosas modificaciones y disposiciones alternativas sin apartarse por ello del alcance de la presente invención, y las reivindicaciones adjuntas están destinadas a incluir dichas modificaciones y disposiciones.

Claims (20)

1. Método para ocultar los efectos de errores de trama en tramas a decodificar por un decodificador al proporcionar voz sintetizada, proporcionándose las tramas al decodificador a través de un canal de comunicaciones, proporcionando cada trama parámetros usados por el decodificador en la síntesis de la voz, comprendiendo el método la etapa en la que se determina si una trama es defectuosa,
estando caracterizado el método por la etapa en la que se proporciona una sustitución de los parámetros espectrales de la trama defectuosa basándose únicamente en parámetros espectrales correspondientes a tramas buenas recibidas de forma previa y reciente e incluyendo una media por lo menos parcialmente adaptativa de los parámetros espectrales de un número predeterminado de las tramas buenas recibidas previamente y más recientemente.
2. Método según la reivindicación 1, que comprende además la etapa en la que se determina si la trama defectuosa transporta voz de tipo estacionario o no estacionario, y en el que la etapa en la que se proporciona una sustitución de la trama defectuosa se realiza de una manera que depende de si la trama defectuosa transporta voz de tipo estacionario o no estacionario.
3. Método según la reivindicación 2, en el que en el caso de una trama defectuosa que transporta voz de tipo estacionario, la etapa en la que se proporciona una sustitución de la trama defectuosa se realiza usando una media de parámetros de un número predeterminado de las tramas buenas recibidas más recientemente.
4. Método según la reivindicación 3, en el que en el caso de una trama defectuosa que transporta voz de tipo estacionario y en el caso de que se esté usando un filtro de predicción lineal, la etapa en la que se proporciona una sustitución de la trama defectuosa se realiza según el algoritmo:
104
en el que \alpha es un parámetro predeterminado, en el que N es el orden del filtro de predicción lineal, en el que K es la longitud de adaptación, en el que LSF_q1(i) es el vector LSF cuantificado de la segunda subtrama y LSF_q2(i) es el vector LSF cuantificado de la cuarta subtrama, en el que past_LSF_good(i)(0) es igual al valor de la magnitud LSF_q2(i-1) de la trama buena anterior, en el que past_LSF_good(i)(n) es un componente del vector de parámetros LSF de la n+1^{ésima} trama buena anterior, y en el que adaptive_mean_LSF(i) es la media de los vectores LSF buenos
anteriores.
5. Método según la reivindicación 2, en el que en el caso de una trama defectuosa que transporta voz de tipo no estacionario, la etapa en la que se proporciona una sustitución de la trama defectuosa se realiza usando a lo sumo una parte predeterminada de una media de parámetros de un número predeterminado de las tramas buenas recibidas más recientemente.
6. Método según la reivindicación 2, en el que en el caso de una trama defectuosa que transporta voz de tipo no estacionario y en el caso de que se esté usando un filtro de predicción lineal, la etapa en la que se proporciona una sustitución de la trama defectuosa se realiza según el algoritmo:
105
en el que N es el orden del filtro de predicción lineal, en el que \alpha y \beta son parámetros predeterminados, en el que LSF_q1(i) es el vector LSF cuantificado de la segunda subtrama y LSF_q2(i) es el vector LSF cuantificado de la cuarta subtrama, en el que past_LSF_q(i) es el valor de LSF_q2(i) de la trama buena anterior, en el que partly_adaptive_mean_LSF(i) es una combinación de la media adaptativa de los vectores LSF y el promedio de los vectores LSF, en el que
adaptive_mean_LSF(i) es la media de los últimos K vectores LSF buenos, en el K es la longitud de adaptación, y en el que mean_LSF(i) es un promedio constante de LSF.
7. Método según la reivindicación 1, que comprende además la etapa en la que se determina si la trama defectuosa cumple un criterio predeterminado, y si es así, se usa la trama defectuosa en lugar de sustituir dicha trama defectuosa.
8. Método según la reivindicación 7, en el que el criterio predeterminado implica la realización de una o más de entre cuatro comparaciones: una comparación entre tramas, una comparación intratrama, una comparación de dos puntos, y una comparación de un solo punto.
9. Método según la reivindicación 1, en el cual la etapa en la que se proporciona una sustitución de los parámetros de la trama defectuosa comprende proporcionar una sustitución en la cual las frecuencias espectrales de inmitancia antiguas se desplazan hacia una media parcialmente adaptativa proporcionada por:
ISF_{q}(i)=\alpha*past\_ISF_{q}(i)+(1-\alpha)*ISF_{mean}(i),
\hskip1,5cm
para\ i=0. . 16,
en la que
\alpha = 0.9,
ISF_{q}(i) es el componente i^{ésimo} del vector de frecuencias espectrales de inmitancia para una trama actual,
past_ISF_{q}(i) es el componente i^{ésimo} del vector de frecuencias espectrales de inmitancia de la trama anterior,
ISF_{mean}(i) es el componente i^{ésimo} del vector que es una combinación de la media adaptativa y la media predeterminada constante de los vectores de frecuencias espectrales de inmitancia, y se calcula usando la fórmula:
ISF_{mean}(i) = \beta*ISF_{const\_mean}(i)+(1-\beta)*ISF_{adaptive\_mean}(i),
\hskip1cm
para\ i= 0. . 16,
en la que \beta = 0,75, en la que ISF_{adaptive\_mean}(i)= \frac{1}{3} \sum\limits^{2}_{i=0} past_ISF_{q}(i) y se actualiza siempre que BFI=0 en la que BFI es un indicador de trama defectuosa, y en la que ISF_{const\_mean}(i) es el componente i^{ésimo} de un vector formado a partir de un promedio de larga duración de vectores de frecuencias espectrales de inmitancia.
10. Aparato para ocultar los efectos de errores de trama en tramas a decodificar por un decodificador al proporcionar voz sintetizada, proporcionándose las tramas al decodificador a través de un canal de comunicaciones, proporcionando cada trama parámetros usados por el decodificador en la síntesis de la voz, comprendiendo el aparato medios para determinar si una trama es defectuosa,
estando caracterizado el aparato por medios para proporcionar una sustitución de los parámetros espectrales de la trama defectuosa basándose únicamente en parámetros espectrales correspondientes a tramas buenas recibidas de forma previa y reciente e incluyendo una media por lo menos parcialmente adaptativa de los parámetros espectrales de un número predeterminado de las tramas buenas recibidas previamente y más recientemente.
11. Aparato según la reivindicación 10, que comprende además medios para determinar si la trama defectuosa transporta voz de tipo estacionario o no estacionario, y en el que los medios para proporcionar una sustitución de la trama defectuosa realizan la sustitución de una manera que depende de si la trama defectuosa transporta voz de tipo estacionario o no estacionario.
12. Aparato según la reivindicación 11, en el que en el caso de una trama defectuosa que transporta voz de tipo estacionario, los medios para proporcionar una sustitución de la trama defectuosa realizan dicha operación usando una media de parámetros de un número predeterminado de las tramas buenas recibidas más recientemente.
13. Aparato según la reivindicación 12, en el que en el caso de una trama defectuosa que transporta voz de tipo estacionario y en el caso de que se esté usando un filtro de predicción lineal, los medios para proporcionar una sustitución de la trama defectuosa funcionan según el algoritmo:
106
en el que \alpha es un parámetro predeterminado, en el que N es el orden del filtro de predicción lineal, en el que K es la longitud de adaptación, en el que LSF_q1(i) es el vector LSF cuantificado de la segunda subtrama y LSF_q2(i) es el vector LSF cuantificado de la cuarta subtrama, en el que past_LSF_good(i)(0) es igual al valor de la magnitud LSF_q2(i-1) de la trama buena anterior, en el que past_LSF_good(i)(n) es un componente del vector de parámetros LSF de la n+1^{ésima} trama buena anterior, y en el que adaptive_mean_LSF(i) es la media de los vectores LSF buenos
anteriores.
14. Aparato según la reivindicación 11, en el que en el caso de una trama defectuosa que transporta voz de tipo no estacionario, los medios para proporcionar una sustitución de la trama defectuosa realizan dicha operación usando a lo sumo una parte predeterminada de una media de parámetros de un número predeterminado de las tramas buenas recibidas más recientemente.
15. Aparato según la reivindicación 11, en el que en el caso de una trama defectuosa que transporta voz de tipo no estacionario y en el caso de que se esté usando un filtro de predicción lineal, los medios para proporcionar una sustitución de la trama defectuosa funcionan según el algoritmo:
107
en el que N es el orden del filtro de predicción lineal, en el que \alpha y \beta son parámetros predeterminados, en el que LSF_q1(i) es el vector LSF cuantificado de la segunda subtrama y LSF_q2(i) es el vector LSF cuantificado de la cuarta subtrama, en el que past_LSF_q(i) es el valor de LSF_q2(i) de la trama buena anterior, en el que partly_adaptive_mean_LSF(i) es una combinación de la media adaptativa de los vectores LSF y el promedio de los vectores LSF, en el que
adaptive_mean_LSF(i) es la media de los últimos K vectores LSF buenos, en el que K es la longitud de adaptación, y en el que mean_LSF(i) es un promedio constante de LSF.
16. Aparato según la reivindicación 10, que comprende además medios para determinar si la trama defectuosa cumple un criterio predeterminado, y si es así, se usa la trama defectuosa en lugar de sustituir dicha trama defectuo-
sa.
17. Aparato según la reivindicación 16, en el que el criterio predeterminado implica la realización de una o más de entre cuatro comparaciones: una comparación entre tramas, una comparación intratrama, una comparación de dos puntos, y una comparación de un solo punto.
18. Aparato según la reivindicación 10, en el cual los medios para proporcionar una sustitución de los parámetros de la trama defectuosa comprenden medios para proporcionar una sustitución en la cual las frecuencias espectrales de inmitancia antiguas se desplazan hacia una media parcialmente adaptativa proporcionada por:
\vskip1.000000\baselineskip
ISF_{q}(i)=\alpha*past\_ISF_{q}(i)+(1-\alpha)*ISF_{mean}(i),
\hskip1,5cm
para\ i=0. . 16,
\vskip1.000000\baselineskip
en la que
\alpha = 0.9,
ISF_{q}(i) es el componente i^{ésimo} del vector de frecuencias espectrales de inmitancia para una trama actual,
past_ISF_{q}(i) es el componente i^{ésimo} del vector de frecuencias espectrales de inmitancia de la trama anterior,
ISF_{mean}(i) es el componente i^{ésimo} del vector que es una combinación de la media adaptativa y la media predeterminada constante de los vectores de frecuencias espectrales de inmitancia, y se calcula usando la fórmula:
\vskip1.000000\baselineskip
ISF_{mean}(i) = \beta*ISF_{const\_mean}(i)+(1-\beta)*ISF_{adaptive\_mean}(i),
\hskip1cm
para\ i= 0. . 16,
\newpage
en la que \beta = 0,75, en la que ISF_{adaptive\_mean}(i)= \frac{1}{3} \sum\limits^{2}_{i=0}(1/3) past_ISF_{q}(i) y se actualiza siempre que BFI=0 en la que BFI es un indicador de trama defectuosa, y en la que ISF_{const\_mean}(i) es el componente i^{ésimo} de un vector formado a partir de un promedio de larga duración de vectores de frecuencias espectrales de inmitancia.
19. Estación móvil que comprende un aparato según cualquiera de las reivindicaciones 10 a 18.
20. Elemento de red que comprende un aparato según cualquiera de las reivindicaciones 10 a 18.
ES01978706T 2000-10-23 2001-10-17 Sustitucion mejorada de parametros espectrales para la ocultacion de errores de trama en un decodificador de voz. Expired - Lifetime ES2276839T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US24249800P 2000-10-23 2000-10-23
US242498P 2000-10-23

Publications (1)

Publication Number Publication Date
ES2276839T3 true ES2276839T3 (es) 2007-07-01

Family

ID=22915004

Family Applications (1)

Application Number Title Priority Date Filing Date
ES01978706T Expired - Lifetime ES2276839T3 (es) 2000-10-23 2001-10-17 Sustitucion mejorada de parametros espectrales para la ocultacion de errores de trama en un decodificador de voz.

Country Status (14)

Country Link
US (2) US7031926B2 (es)
EP (1) EP1332493B1 (es)
JP (2) JP2004522178A (es)
KR (1) KR100581413B1 (es)
CN (1) CN1291374C (es)
AT (1) ATE348385T1 (es)
AU (1) AU1079902A (es)
BR (2) BR0114827A (es)
CA (1) CA2425034A1 (es)
DE (1) DE60125219T2 (es)
ES (1) ES2276839T3 (es)
PT (1) PT1332493E (es)
WO (1) WO2002035520A2 (es)
ZA (1) ZA200302778B (es)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6810377B1 (en) * 1998-06-19 2004-10-26 Comsat Corporation Lost frame recovery techniques for parametric, LPC-based speech coding systems
US6609118B1 (en) * 1999-06-21 2003-08-19 General Electric Company Methods and systems for automated property valuation
US6968309B1 (en) * 2000-10-31 2005-11-22 Nokia Mobile Phones Ltd. Method and system for speech frame error concealment in speech decoding
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP2004151123A (ja) * 2002-10-23 2004-05-27 Nec Corp 符号変換方法、符号変換装置、プログラム及びその記憶媒体
US20040143675A1 (en) * 2003-01-16 2004-07-22 Aust Andreas Matthias Resynchronizing drifted data streams with a minimum of noticeable artifacts
US7835916B2 (en) * 2003-12-19 2010-11-16 Telefonaktiebolaget Lm Ericsson (Publ) Channel signal concealment in multi-channel audio systems
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
CN1950883A (zh) * 2004-04-30 2007-04-18 松下电器产业株式会社 可伸缩性解码装置及增强层丢失的隐藏方法
DE602004004376T2 (de) * 2004-05-28 2007-05-24 Alcatel Anpassungsverfahren für ein Mehrraten-Sprach-Codec
US7971121B1 (en) * 2004-06-18 2011-06-28 Verizon Laboratories Inc. Systems and methods for providing distributed packet loss concealment in packet switching communications networks
WO2006028009A1 (ja) 2004-09-06 2006-03-16 Matsushita Electric Industrial Co., Ltd. スケーラブル復号化装置および信号消失補償方法
US7409338B1 (en) * 2004-11-10 2008-08-05 Mediatek Incorporation Softbit speech decoder and related method for performing speech loss concealment
US7596143B2 (en) * 2004-12-16 2009-09-29 Alcatel-Lucent Usa Inc. Method and apparatus for handling potentially corrupt frames
WO2006079350A1 (en) * 2005-01-31 2006-08-03 Sonorit Aps Method for concatenating frames in communication system
KR100612889B1 (ko) * 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
GB0512397D0 (en) * 2005-06-17 2005-07-27 Univ Cambridge Tech Restoring corrupted audio signals
KR100723409B1 (ko) * 2005-07-27 2007-05-30 삼성전자주식회사 프레임 소거 은닉장치 및 방법, 및 이를 이용한 음성복호화 방법 및 장치
WO2007043642A1 (ja) * 2005-10-14 2007-04-19 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法
EP1982331B1 (en) * 2006-02-06 2017-10-18 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for speech coding in wireless communication systems
US7457746B2 (en) * 2006-03-20 2008-11-25 Mindspeed Technologies, Inc. Pitch prediction for packet loss concealment
US8280728B2 (en) * 2006-08-11 2012-10-02 Broadcom Corporation Packet loss concealment for a sub-band predictive coder based on extrapolation of excitation waveform
KR101046982B1 (ko) * 2006-08-15 2011-07-07 브로드콤 코포레이션 전대역 오디오 파형의 외삽법에 기초한 부분대역 예측코딩에 대한 패킷 손실 은닉 기법
JP5121719B2 (ja) * 2006-11-10 2013-01-16 パナソニック株式会社 パラメータ復号装置およびパラメータ復号方法
KR101292771B1 (ko) 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
KR100862662B1 (ko) 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
KR101291193B1 (ko) 2006-11-30 2013-07-31 삼성전자주식회사 프레임 오류은닉방법
CN100578618C (zh) * 2006-12-04 2010-01-06 华为技术有限公司 一种解码方法及装置
CN101226744B (zh) * 2007-01-19 2011-04-13 华为技术有限公司 语音解码器中实现语音解码的方法及装置
KR20080075050A (ko) * 2007-02-10 2008-08-14 삼성전자주식회사 오류 프레임의 파라미터 갱신 방법 및 장치
EP2128854B1 (en) * 2007-03-02 2017-07-26 III Holdings 12, LLC Audio encoding device and audio decoding device
EP1973254B1 (en) * 2007-03-22 2009-07-15 Research In Motion Limited Device and method for improved lost frame concealment
US8165224B2 (en) 2007-03-22 2012-04-24 Research In Motion Limited Device and method for improved lost frame concealment
EP2112653A4 (en) * 2007-05-24 2013-09-11 Panasonic Corp AUDIO DEODICATION DEVICE, AUDIO CODING METHOD, PROGRAM AND INTEGRATED CIRCUIT
EP2189976B1 (en) * 2008-11-21 2012-10-24 Nuance Communications, Inc. Method for adapting a codebook for speech recognition
US8751229B2 (en) * 2008-11-21 2014-06-10 At&T Intellectual Property I, L.P. System and method for handling missing speech data
CN101615395B (zh) 2008-12-31 2011-01-12 华为技术有限公司 信号编码、解码方法及装置、系统
JP2010164859A (ja) * 2009-01-16 2010-07-29 Sony Corp オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム
US20100185441A1 (en) * 2009-01-21 2010-07-22 Cambridge Silicon Radio Limited Error Concealment
US8676573B2 (en) * 2009-03-30 2014-03-18 Cambridge Silicon Radio Limited Error concealment
US8316267B2 (en) * 2009-05-01 2012-11-20 Cambridge Silicon Radio Limited Error concealment
CN101894565B (zh) * 2009-05-19 2013-03-20 华为技术有限公司 语音信号修复方法和装置
US8908882B2 (en) * 2009-06-29 2014-12-09 Audience, Inc. Reparation of corrupted audio signals
EP2506253A4 (en) 2009-11-24 2014-01-01 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AUDIO SIGNAL
JP5724338B2 (ja) * 2010-12-03 2015-05-27 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
RU2606552C2 (ru) * 2011-04-21 2017-01-10 Самсунг Электроникс Ко., Лтд. Устройство для квантования коэффициентов кодирования с линейным предсказанием, устройство кодирования звука, устройство для деквантования коэффициентов кодирования с линейным предсказанием, устройство декодирования звука и электронное устройство для этого
CN105719654B (zh) 2011-04-21 2019-11-05 三星电子株式会社 用于语音信号或音频信号的解码设备和方法及量化设备
JP6024191B2 (ja) * 2011-05-30 2016-11-09 ヤマハ株式会社 音声合成装置および音声合成方法
KR102070430B1 (ko) 2011-10-21 2020-01-28 삼성전자주식회사 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
KR20130113742A (ko) * 2012-04-06 2013-10-16 현대모비스 주식회사 오디오 데이터 디코딩 방법 및 장치
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
CN103117062B (zh) * 2013-01-22 2014-09-17 武汉大学 语音解码器中帧差错隐藏的谱参数代替方法及系统
EP3098811B1 (en) 2013-02-13 2018-10-17 Telefonaktiebolaget LM Ericsson (publ) Frame error concealment
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
BR112015031606B1 (pt) 2013-06-21 2021-12-14 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho e método para desvanecimento de sinal aperfeiçoado em diferentes domínios durante ocultação de erros
KR102132326B1 (ko) * 2013-07-30 2020-07-09 삼성전자 주식회사 통신 시스템에서 오류 은닉 방법 및 장치
CN103456307B (zh) * 2013-09-18 2015-10-21 武汉大学 音频解码器中帧差错隐藏的谱代替方法及系统
JP5981408B2 (ja) 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
CN104751849B (zh) * 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
EP2922055A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
EP2922056A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
EP2922054A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
CN107369453B (zh) 2014-03-21 2021-04-20 华为技术有限公司 语音频码流的解码方法及装置
CN108011686B (zh) * 2016-10-31 2020-07-14 腾讯科技(深圳)有限公司 信息编码帧丢失恢复方法和装置
US10784988B2 (en) 2018-12-21 2020-09-22 Microsoft Technology Licensing, Llc Conditional forward error correction for network data
US10803876B2 (en) * 2018-12-21 2020-10-13 Microsoft Technology Licensing, Llc Combined forward and backward extrapolation of lost network data
CN111554308A (zh) * 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 一种语音处理方法、装置、设备及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5406532A (en) * 1988-03-04 1995-04-11 Asahi Kogaku Kogyo Kabushiki Kaisha Optical system for a magneto-optical recording/reproducing apparatus
JP3104400B2 (ja) * 1992-04-27 2000-10-30 ソニー株式会社 オーディオ信号符号化装置及び方法
JP3085606B2 (ja) * 1992-07-16 2000-09-11 ヤマハ株式会社 ディジタルデータの誤り補正方法
JP2746033B2 (ja) * 1992-12-24 1998-04-28 日本電気株式会社 音声復号化装置
JP3123286B2 (ja) * 1993-02-18 2001-01-09 ソニー株式会社 ディジタル信号処理装置又は方法、及び記録媒体
SE501340C2 (sv) * 1993-06-11 1995-01-23 Ericsson Telefon Ab L M Döljande av transmissionsfel i en talavkodare
US5502713A (en) * 1993-12-07 1996-03-26 Telefonaktiebolaget Lm Ericsson Soft error concealment in a TDMA radio system
JP3404837B2 (ja) * 1993-12-07 2003-05-12 ソニー株式会社 多層符号化装置
CA2142391C (en) 1994-03-14 2001-05-29 Juin-Hwey Chen Computational complexity reduction during frame erasure or packet loss
JP3713288B2 (ja) 1994-04-01 2005-11-09 株式会社東芝 音声復号装置
JP3416331B2 (ja) 1995-04-28 2003-06-16 松下電器産業株式会社 音声復号化装置
SE506341C2 (sv) * 1996-04-10 1997-12-08 Ericsson Telefon Ab L M Metod och anordning för rekonstruktion av en mottagen talsignal
JP3583550B2 (ja) 1996-07-01 2004-11-04 松下電器産業株式会社 補間装置
EP0906664B1 (en) * 1997-04-07 2006-06-21 Koninklijke Philips Electronics N.V. Speech transmission system
US6810377B1 (en) 1998-06-19 2004-10-26 Comsat Corporation Lost frame recovery techniques for parametric, LPC-based speech coding systems
US6373842B1 (en) * 1998-11-19 2002-04-16 Nortel Networks Limited Unidirectional streaming services in wireless systems
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
US6493664B1 (en) 1999-04-05 2002-12-10 Hughes Electronics Corporation Spectral magnitude modeling and quantization in a frequency domain interpolative speech codec system

Also Published As

Publication number Publication date
EP1332493B1 (en) 2006-12-13
DE60125219T2 (de) 2007-03-29
DE60125219D1 (de) 2007-01-25
US7031926B2 (en) 2006-04-18
ZA200302778B (en) 2004-02-27
BRPI0114827B1 (pt) 2018-09-11
JP2004522178A (ja) 2004-07-22
ATE348385T1 (de) 2007-01-15
CN1291374C (zh) 2006-12-20
CN1535461A (zh) 2004-10-06
WO2002035520A3 (en) 2002-07-04
US7529673B2 (en) 2009-05-05
AU1079902A (en) 2002-05-06
PT1332493E (pt) 2007-02-28
US20070239462A1 (en) 2007-10-11
KR100581413B1 (ko) 2006-05-23
JP2007065679A (ja) 2007-03-15
AU2002210799B2 (en) 2005-06-23
EP1332493A2 (en) 2003-08-06
KR20030048067A (ko) 2003-06-18
BR0114827A (pt) 2004-06-15
CA2425034A1 (en) 2002-05-02
WO2002035520A2 (en) 2002-05-02
US20020091523A1 (en) 2002-07-11

Similar Documents

Publication Publication Date Title
ES2276839T3 (es) Sustitucion mejorada de parametros espectrales para la ocultacion de errores de trama en un decodificador de voz.
ES2266281T3 (es) Metodo y sistema para ocultacion de error en tramas de voz en la decodificacion de voz.
US8428938B2 (en) Systems and methods for reconstructing an erased speech frame
US7877253B2 (en) Systems, methods, and apparatus for frame erasure recovery
TWI484479B (zh) 用於低延遲聯合語音及音訊編碼中之錯誤隱藏之裝置和方法
US7711563B2 (en) Method and system for frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US20030078769A1 (en) Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
JP4825944B2 (ja) レート判定誤りとそのアーティファクトの低減方法及び装置
US7308406B2 (en) Method and system for a waveform attenuation technique for predictive speech coding based on extrapolation of speech waveform
AU2002210799B8 (en) Improved spectral parameter substitution for the frame error concealment in a speech decoder
WO2003023763A1 (en) Improved frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
AU2002210799A1 (en) Improved spectral parameter substitution for the frame error concealment in a speech decoder
Villette et al. A Multi-Rate Speech And Channel Codec: A GSM AMR Half-Rate Candidate