ES2247741T3 - Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio. - Google Patents

Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.

Info

Publication number
ES2247741T3
ES2247741T3 ES99100790T ES99100790T ES2247741T3 ES 2247741 T3 ES2247741 T3 ES 2247741T3 ES 99100790 T ES99100790 T ES 99100790T ES 99100790 T ES99100790 T ES 99100790T ES 2247741 T3 ES2247741 T3 ES 2247741T3
Authority
ES
Spain
Prior art keywords
encoder
coding
signals
audio
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES99100790T
Other languages
English (en)
Inventor
Ralf Kirchherr
Joachim Stegmann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Application granted granted Critical
Publication of ES2247741T3 publication Critical patent/ES2247741T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

SE EXPONE UN PROCEDIMIENTO PARA CONMUTACION CONTROLADA POR SEÑAL ENTRE ESQUEMAS DE CODIFICACION AUDIO, QUE INCLUYE LA RECEPCION DE SEÑALES AUDIO DE ENTRADA, LA CLASIFICACION DE UN PRIMER CONJUNTO DE SEÑALES AUDIO DE ENTRADA COMO SEÑALES VOCALES O NO VOCALES, LA CODIFICACION DE LAS SEÑALES VOCALES UTILIZANDO UN PROGRAMA DE CODIFICACION DE DOMINIO DE TIEMPO, Y LA CODIFICACION DE LAS SEÑALES NO VOCALES CON EL USO DE UN PROGRAMA DE CODIFICACION DE TRANSFORMADA. UN CODIFICADOR MULTICODIGO TIENE UNA ENTRADA DE SEÑALES AUDIO Y UN CODIFICADOR PARA RECIBIR LAS ENTRADAS DE DICHAS SEÑALES, TENIENDO EL CODIFICADOR UN CODIFICADOR DE DOMINIO DEL TIEMPO, UN CODIFICADOR DE TRANSFORMADA Y UN CLASIFICADOR DE SEÑAL PARA CLASIFICAR LAS SEÑALES AUDIO EN GENERAL COMO VOCALES O NO VOCALES, DIRIGIENDO EL CLASIFICADOR DE SEÑALES LAS SEÑALES AUDIO VOCALES AL CODIFICADOR DEL DOMINIO DE TIEMPO, Y LAS SEÑALES AUDIO NO VOCALES AL CODIFICADOR DE TRANSFORMADA. SE PROPORCIONA IGUALMENTE UN DECODIFICADOR MULTICODIGO.

Description

Método para conmutación controlada por señales entre esquemas de codificación de audio.
Sector técnico al que pertenece la invención
La presente invención se refiere a un procedimiento y dispositivo para codificar señales de audio.
Tecnología relacionada
Las señales de audio, tales como palabras, sonido de fondo y música, pueden ser convertidas en datos digitales utilizando esquemas codificadores de audio. Las señales de entrada de audio están típicamente muestreadas a una cierta frecuencia, y se les asigna un número de bits por muestra según el esquema de codificación de audio utilizado. Entonces, pueden ser transmitidos los bits como datos digitales. Después de la transmisión, un decodificador puede decodificar los datos digitales, y dar salida a una señal analógica, por ejemplo a un altavoz.
Un esquema de codificación, el PCM (modulación de código por impulsos), puede muestrear palabras de teléfono (típicamente de 300-3400 Hz) a 8 kHz y requiere 8 bits PCM por muestra, resultando un flujo digital de 64 kb/s. Con palabras de ancho de banda PCM (típicamente de 60-7.000 kHz) pueden ser muestreadas a 16 kHz y asignar 14 bits PCM por muestra, resultando una velocidad de bits PCM de 224 kb/s. Y un audio de un ancho de banda (típicamente de 10-20.000 Hz) puede muestrearse a 48 kHz y asignar 16 bits PCM por muestra, resultando una velocidad de bits PCM de 768 kb/s.
Tal como se describe en "The ISDN Studio" ("El estudio ISDN") por Dave Immer, en la 99ª Convención de la Sociedad de Ingenieros de Audio, de 8 de Octubre de 1995, en la ciudad de Nueva York, pueden usarse otras técnicas codificadoras de audio para conseguir velocidades de bits menores que las velocidades de bits PCM. Estos esquemas codificadores de audio hacen caso omiso de la información irrelevante o redundante y caen dentro de dos categorías básicas: esquemas basados en la transformación (en el campo de la frecuencia), y esquemas basados en el campo de tiempo (predictivos). Un esquema basado en el campo de la frecuencia utiliza reducción de bits utilizando características conocidas (contenidas en una tabla de búsqueda) de la audición humana. Este proceso de reducción de bits es conocido también como codificación perceptual. La información psicoacústica de la forma de onda se transmite por los datos digitales y es reconstruida en un decodificador. Los ruidos asimilados ("aliasing") típicamente están enmascarados con subbandas que contienen la mayor energía. La respuesta de la frecuencia de audio para la codificación en el campo de frecuencia es de mucha menor velocidad de bits dependiente de un proceso de campo de tiempo. Sin embargo, puede dar como resultado un mayor retraso codificador.
Las técnicas codificadoras de campo de tiempo utilizan análisis predictivos basados en tablas de búsqueda disponibles para el codificador, y transmiten diferencias entre una predicción y una muestra actual. La información redundante puede ser añadida detrás al decodificador. Con las técnicas codificadoras basadas en campo de tiempo, la respuesta a la frecuencia de audio depende de la velocidad de bits. Sin embargo, da como resultado un retraso codificador muy bajo.
Un esquema de codificación basado en el campo del tiempo es el CELP (predicción lineal de código excitado). El CELP puede usarse para codificar señales de palabras telefónicas utilizando una velocidad de datos tan baja como 16 kb/s. La palabra entrada puede dividirse en unidades de información en una velocidad de muestreo de 8 kHz. Utilizando una biblioteca de códigos de ondas de excitación y un mecanismo de búsqueda en bucle cerrado para identificar la onda de excitación más adecuada para cada unidad de información, el algoritmo CELP puede proporcionar el equivalente de 2 bits por muestra para codificar adecuadamente la palabra, de modo que se consigue una velocidad de bits de 16 kb/s. Con palabras de ancho de banda hasta 7 kHz, puede utilizarse una muestra de 16 kHz, también con el equivalente de 2 bits por muestra, de modo que se consigue una velocidad de bits de 32 kb/s.
El CELP tiene la ventaja de que las señales de palabra pueden ser transmitidas en velocidades de bits bajas, incluso a 16 kb/s.
El ATC (codificador de transformación adaptable) es un esquema de código de transformación. Las señales de audio se reciben muestreadas, y divididas en unidades de información. Un transformador, tal como el MDCT (transformador de cosigno discreto modificado), se ejecuta sobre las unidades de información, de modo que pueden calcularse coeficientes de transformación. El cálculo de los coeficientes utilizando el MDCT se explica, por ejemplo, en "High-Quality Audio Transform Coding at 64 Kbps" ("Código de transformación de audio de calidad elevada a 64 Kbps"), por Y. Mahieux & J.P. Petit, IEEE Trans. on Communications, Vol. 42, No. 11, Noviembre 1994, que se incorpora como referencia a la presente descripción. Los coeficientes MDCT entonces pueden ser codificados en bits y se transmiten digitalmente.
El codificado ATC tiene la ventaja de proporcionar transmisión de audio de elevada calidad, para señales tales como música y sonido de fondo.
A fecha de hoy, típicamente solamente se ha utilizado un tipo de técnica codificadora para codificar señales de entrada de audio en un sistema codificador. Sin embargo, especialmente en velocidades bajas de bits, esto no lleva a una transferencia óptima de señales de audio debido a las limitaciones del campo de tiempo y las técnicas codificadoras de transformación.
Resumen de la invención
La presente invención proporciona, en diferentes tiempos, tanto el uso de la codificación en el campo de la frecuencia como en el campo de tiempo, de modo que, dependiendo del ancho de banda disponible, puede optimizarse la transferencia digital de señales de audio.
La presente invención proporciona así un procedimiento para conmutación controlada de señales, que comprende:
recepción de señales de audio de entrada;
clasificación de un primer conjunto de señales de audio de entrada como palabras o señales que no son palabras;
codificación de las señales de palabra utilizando un esquema de codificación de campo de tiempo; y
codificación de las señales que no son palabras utilizando un esquema de código de transformación.
Preferentemente el esquema de codificación de campo de tiempo es un esquema de codificación CELP y el esquema de codificación de transformación es un esquema de codificación ATC. El procedimiento de la presente invención puede usar así un codificador ATCELP que es una combinación de un esquema de codificación ATC y un esquema de codificación CELP.
El esquema de codificación de campo de tiempo se usa principalmente para señales de palabra y el esquema de codificación de transformación se usa principalmente para señales de música y de sonido de fondo estacionario, proporcionando así las ventajas de ambos tipos de esquemas de codificación.
El presente procedimiento se utiliza preferentemente solamente cuando está disponible un ancho de banda de menos de 32 kb/s, por ejemplo, de 16 kb/s ó 24 kb/s. Para una velocidad de bits de 32 kb/s o superior, entonces solamente se utiliza el modo de transformación de un codificador de código múltiple.
La presente invención proporciona también un codificador de código múltiple, que comprende:
una entrada de señal de audio; y
un conmutador para recibir las entradas de señales de audio, teniendo el conmutador un codificador de campo de tiempo, un codificador de transformación, y un clasificador de señales para clasificar las señales de audio, en general como palabra o no palabra, dirigiendo el clasificador de señales las señales de audio de palabra al codificador de campo de tiempo y las señales de audio de no palabra al codificador de transformación.
El codificador de campo de tiempo es preferentemente un codificador CELP y el codificador de transformación, un codificador ATC. El cambio entre estas dos técnicas de codificación (CELP y ATC) se controla por el clasificador de señales, que trabaja exclusivamente sobre la señal de entrada de audio. El modo elegido (palabra o no palabra) del clasificador de señales puede ser transmitido como información lateral al decodificador.
La presente invención proporciona también un decodificador de código múltiple que tiene un decodificador de transformación, un decodificador de campo de tiempo y un conmutador de salida para conmutar señales entre los decodificadores de campo de transformación y de tiempo.
Otras mejoras y variaciones de la invención se especifican en las reivindicaciones subordinadas.
Breve descripción de los dibujos
La presente invención debe comprenderse en su conjunto con los dibujos, en los que:
la figura 1 muestra un codificador de código múltiple según la presente invención;
la figura 2 muestra un decodificador de código múltiple según la presente invención;
las figuras 2a y 2b muestran el funcionamiento de un decodificador de código múltiple según la presente invención durante las transiciones entre un modo ATC y un modo CELP;
la figura 3 muestra un diagrama de bloques de un codificador CELP de la presente invención;
la figura 4 muestra un diagrama de bloques del decodificador CELP de la presente invención;
la figura 5 muestra un diagrama de bloques del codificador ATC de la presente invención;
la figura 6 muestra un diagrama de bloques del decodificador ATC de la presente invención;
la figura 7 muestra un diagrama de bloques del decodificador de unidad válida, mostrado en la figura 6; y
la figura 8 muestra un diagrama de bloques de la unidad de ocultación de errores, mostrada en la figura 6.
Descripción detallada
La figura 1 muestra un diagrama de bloques esquemático de un codificador de código múltiple. Las señales de audio entran por una entrada de señales de audio (10) del codificador de código múltiple, llamado también a continuación, codificador. Desde la entrada (10), las señales de audio se entregan a un primer conmutador (20) y a un clasificador de señales (22). Una entrada (30) de velocidad de bits, que puede ser puesta en la velocidad pertinente de bits de datos, está conectada también al clasificador de señales (22).
El conmutador (20) puede dirigir las señales de audio de entrada o bien a un codificador de campo de tiempo (40) o bien a un codificador de transformación (50).
La señal de salida digital del codificador (40) o del codificador (50) se transfiere a continuación a un canal que depende de la posición de un segundo conmutador (21). Los conmutadores (20), (21) están controlados por una señal de salida del clasificador de señales (22).
El codificador de código múltiple funciona como sigue:
La señal entrada en la entrada de señales (10) se muestrea a 16 kHz y se procesa unidad por unidad en base a una longitud de unidad de 320 muestras (20 ms) usando un mirador hacia adelante de una unidad. De esta manera, el codificador tiene un retraso de codificación de 40 ms, 20 ms para la unidad procesada y 20 ms para la unidad que mira hacia adelante, que puede ser almacenada temporalmente en un almacén.
El clasificador de señales (22) se usa cuando el ancho de banda de la entrada (30) indica una velocidad de bits disponible menor de 32 kb/s, por ejemplo, velocidades de bits de 16 y 24 kb/s, y clasifica las señales de audio de modo que el codificador envía señales tipo palabra a través del codificador de campo de tiempo (40) y señales de tipo no palabra, tales como señales de música o ruido de fondo estacionario, a través del codificador de transformación (50).
Para una velocidad de bits de 32 kb/s o mayor, el codificador opera de modo que el codificador siempre transfiere señales a través del codificador de transformación (50).
Para velocidades de bits inferiores de 16 y 24 kb/s, el codificador opera de modo que, en primer lugar, el clasificador de señales (22) calcula un juego de parámetros de entrada desde la unidad de audio actual, tal como se muestra en el bloque (24). Después de ello, se calcula una decisión preliminar usando un juego de operaciones lógicas definidas heurísticamente, tal como se muestra en el bloque (26).
Finalmente, tal como se muestra en el bloque (28), se aplica un procedimiento posterior al procesado para garantizar que la conmutación se realiza solamente durante las unidades que permiten una transición suave de un modo al otro.
La señal de entrada de audio, que, en este caso, puede ser de un ancho de banda limitado a 7 kHz, es decir, auna velocidad de ancho de banda de palabra, puede ser clasificada como palabra o no palabra. En el bloque (24), el clasificador de señales (22) calcula, en primer lugar, dos predicciones de ganancias, estando basada una primera predicción de ganancia en un análisis LPC (coeficientes de predicción lineal) de la unidad de palabra de entrada actual, y estando basada una segunda predicción de ganancia en un análisis LPC de orden elevado, de las unidades de entrada, anteriores. Por consiguiente, la segunda predicción de ganancia es similar a un análisis LPC hacia atrás basado en coeficientes que se derivan de las muestras de entrada en vez de palabra de salida sintetizada.
Un parámetro de entrada adicional para la determinación de una medición de estacionalidad por el codificador es la diferencia entre los coeficientes anterior y actual LSF (frecuencia de espectro lineal), que se calculan en base a un análisis LPC de la unidad de palabra actual.
Tal como se muestra esquemáticamente en el bloque (26), la diferencia de las predicciones de ganancia primera y segunda y la diferencia de los coeficientes anterior y actual LSF se usan para obtener la medición de estacionalidad, que se utiliza como un indicador para la unidad actual, tanto si es música como palabra. Todos los umbrales para las operaciones lógicas pueden obtenerse de la observación de una gran cantidad de señales de palabra y música. Se comprueban condiciones especiales para señales ruidosas de palabra o voz.
Tal como se muestra esquemáticamente en el bloque (28), antes de que ocurra cualquier conmutación entre el modo de campo de tiempo y el modo transformador, se realiza un procedimiento de ensayo final en el clasificador de señales (22) para examinar si la transición de un modo al otro llevará a una señal de salida suave en el decodificador. A efectos de reducir la complejidad, este procedimiento de ensayo se realiza sobre la señal de entrada. Si es probable que la conmutación lleve a una degradación audible, la decisión para la conmutación de los modos se retrasa a la próxima unidad.
El esquema de transición, que forma la base del procedimiento de ensayo en el bloque (28), es tal como sigue: si el clasificador (22) en el bloque (26) decide realizar una transición desde el modo transformador al modo de campo de tiempo en la unidad n, la unidad de orden n es la unidad última a calcular para el esquema transformador usando una función de ventana modificada. La función de ventana modificada utilizada para las unidades n y (n+1) se pone a cero para las últimas 80 muestras. Esto hace posible que el codificador de transformación decodifique las primeras 80 muestras de la unidad (n+1). Por otra parte, esto podría causar efectos de "aliasing", porque el solapado de las funciones de ventana sucesivas no es posible sin los coeficientes de transformación de la unidad siguiente. En la unidad de orden (n+1), donde el modo de campo de tiempo se realiza por primera vez, solamente los últimos 5 ms pueden ser codificados por el codificador de campo de tiempo (ocasionado por un retraso del banco de filtro), de modo que, en esta unidad, 10 ms de la señal de palabra tendrán que ser extrapolados al lado del
decodificador.
La figura 2a muestra esta transición para un cambio de modo ATC a CELP. Tal como puede observarse, en la unidad de orden (n+1), los primeros 5 ms de la unidad son codificados ATC y los últimos 5 ms de la unidad son codificados CELP. La extrapolación para los 10 ms tiene lugar en el decodificador de código múltiple. Tal como se muestra en la figura 2, el decodificador de código múltiple de la presente invención tiene una entrada (80) de señal digital para recibir las señales transmitidas desde el canal, un conmutador de entrada (81), un decodificador (60) de campo de tiempo, un decodificador de transformación (70), un conmutador de salida (82) y una salida
(83).
Si el clasificador de señales (22) en el bloque (26) de la figura 1 decide realizar una transición desde el modo de campo de tiempo al modo transformador en una unidad entrada n, la primera unidad que es codificada por el esquema transformador es la unidad número n. Esta codificación de transformación se realiza usando una función de ventana modificada similar a la utilizada en la transición de ATC a CELP mostrada en la figura 2a, pero invertida en el tiempo, tal como se muestra en la figura 2b utilizando ATC como un ejemplo del esquema transformador y CELP como un ejemplo del esquema de campo de tiempo. Esto hace posible que el esquema transformador decodifique las últimas 80 muestras de número de unidad n. Los primeros 5 ms de esta unidad de transición (número n) pueden ser decodificados desde los últimos coeficientes de campo de tiempo transmitidos.
Por consiguiente, la extrapolación en el decodificador también se realiza en una longitud de 10 ms, tal como muestra la figura 2b.
La extrapolación se realiza calculando una señal residual de alguna de las unidades de salida anteriores sintetizadas, que se extienden según el intervalo de paso y usando entonces el filtrado del filtro de síntesis LPC. Los coeficientes LPC se calculan por un análisis LPC hacia atrás, de las últimas unidades de salida sintetizadas. El cálculo del paso del bucle abierto puede ser similar al del esquema de codificación CELP.
Para evitar discontinuidades en el final de la señal extrapolada, la extrapolación se realiza en una longitud de 15 ms, en los que los últimos 5 ms de la señal extrapolada se ponderan con una función ventana de sen^{2} y se añaden a las correspondientes muestras sintetizadas ponderadas del esquema de codificación usado.
La extrapolación se aplica también en el procedimiento de ensayo del bloque (28) usando solamente la señal de entrada: si la señal extrapolada es muy similar a la señal de entrada original, es elevada la probabilidad de una transición suave en el decodificador y la transición puede realizarse. En caso contrario, la transición puede ser retrasada.
Preferentemente, los esquemas de codificación de transformador y campo de tiempo, usados en los codificadores y decodificadores de las figuras 1 y 2, están modificados por esquemas de codificación ATC y CELP, respectivamente. En estos esquemas, están previstos dos bits de modo adicionales en los esquemas de codificación para información de cambio ATC/CELP. Estos dos bits se toman de los bits usados típicamente para la codificación de los coeficientes ATC o de los bits para la protección de error CELP, respectivamente.
Los cuatro modos transmitidos son:
Modo 0: modo CELP (modo CELP continuo)
Modo 1: modo de transición ATC CELP
Modo 2: modo de transición CELP ATC
Modo 3: modo ATC (modo ATC continuo)
Los dos bits de información pueden identificar de esta manera el modo para la unidad pertinente. Desde luego, para esquemas de codificación distintos de los ATC y CELP, estos dos bits pueden ser transmitidos también dentro de dichos esquemas de codificación. Así, la descripción siguiente con respecto a CELP y ATC es pertinente también en otras técnicas de codificación de campo de tiempo y transformador, respectivamente.
La presente invención puede proporcionar también ocultación de error para borrados de unidad. Si ocurre un borrado de unidad y la última unidad fue procesada en modo O (por ejemplo CELP), entonces el modo CELP se mantendrá para esta unidad. De otro modo, si la última unidad no fue procesada en modo O, entonces la unidad borrada se manejará como una unidad ATC borrada.
Si se borra una unidad que indica una transición de ATC a CELP (es decir, de modo 1), se usará para manejo una unidad mala ATC (ATC-BFH), puesto que la unidad anterior era una unidad ATC (modo 3). Sin embargo, puesto que la siguiente unidad no borrada es ya una unidad CELP (modo O), deberá ejecutarse una señal de extrapolación que cubra 15 ms.
Por otra parte, si se borra una unidad indicando una transición de CELP a ATC (es decir, modo 2), se usa una operación CELP-BHF (manejo de unidad mala). A la detección de la unidad siguiente no borrada, que es en modo ATC (modo 3), debe ejecutarse un extra ATC-BFH a efectos de posibilitar el decodificado de la unidad ATC no borrada.
La ocultación del borrado de unidad de cada esquema de codificación individual se describe más adelante.
Tal como se estableció anteriormente, la presente invención usa preferentemente un esquema CELP como el esquema de codificación de campo de tiempo efectuado por el codificador (40) de la figura 1. El esquema CELP puede ser un esquema de codificación de fuente de banda ancha para una subbanda CELP (SB-CELP) de velocidades de bits de 16 kbit/s y 24 kbit/s.
La figura 3 muestra un diagrama de bloques de un codificador SB-CELP (140). El esquema del codificador está basado en un esquema de banda dividida en dos subbandas desiguales usando un codificador ACELP (predicción lineal excitada de código algebraico) en la subbanda inferior. El codificador CELP (140) funciona en un esquema de banda dividida usando dos subbandas desiguales de 0-5 kHz y 5-7 kHz. La señal de entrada se muestrea a 16 kHz y se procesa con una longitud de unidad de 320 muestras (20 ms).
Un banco de filtros (142) realiza la división en dos subbandas desiguales y el submuestreo crítico de las dos subbandas. Puesto que la señal de entrada típicamente es una banda limitada a 7 kHz, la velocidad de muestreo de la banda superior puede ser reducido a 4 kHz. Todas las salidas del banco de filtros de análisis (142), una unidad de la banda superior (5-7 kHz) tiene 80 muestras (20 ms). Una unidad de la banda inferior (0-5 kHz) tiene 200 muestras (20 ms), según una frecuencia de muestreo de 10 kHz. El retraso del banco de filtros de análisis llega a 5 ms. La banda de 0-5 kHz se codifica usando ACELP, teniendo lugar en el subcodificador (143) de la banda inferior.
Las longitudes de subunidad usadas por las diferentes partes del codificador se indican en la Tabla 1, siendo 5 ms para el LTP o biblioteca de códigos adaptables (ACB) y 1 ... 2,5 ms para los parámetros fijos de la biblioteca de códigos (FCB). Un modo de voz puede ser conmutado cada 10 ms.
TABLA 1 Actualización de los parámetros del codificador de la banda inferior (en muestras f_{s} = 10 kHz)
Parámetros Nombre del período actualizado Longitud del período
actualizado 16 kbit/s | 24 kbit/s
LPC unidad 200 (20 ms)
modo LPT unidad de bucle abierto 100 (10 ms)
parámetros ACB subunidad ACB 50 (5 ms)
parámetros FCB subunidad FCB 25 (2,5 ms) | 10 (1,0 ms)
El análisis de la predicción lineal dentro del subcodificador de banda inferior (143) tiene lugar de tal modo que los coeficientes del filtro de síntesis del término corto (LP) se actualizan cada 20 ms. Dependiendo de las características de la señal de entrada inclinada, se usan diferentes procedimientos LP. Para pasos de palabra y música fuertemente no estacionaria, se elige el modo hacia adelante a través del bloque (147), es decir, se calcula un modelo LP de orden bajo (N_{p} = 12) desde la unidad actual y se transmiten los coeficientes. Para obtener los parámetros LP, se aplica un enfoque de autocorrelación a un segmento de ventana de 30 ms de la señal de entrada de señal. Se usa una consulta adelantada de 5 ms. La cuantificación de los 12 parámetros LP hacia adelante se realiza en el campo LSF (Frecuencias espectrales lineales) usando 33 bits. Particularmente para bastantes pasos de música estacionaria, se adaptaría típicamente el modo hacia atrás, un filtro LP de orden elevado (N_{p} = 52) desde un segmento de 35 ms de la señal sintetizada anteriormente. Por consiguiente, no debe transmitirse ninguna otra información de parámetro LP. Sin embargo, con el codificador de código múltiple de la presente invención no precisa ser usado este modo hacia atrás, en tanto el esquema de código transformador pueda codificar pasos de música estacionaria.
El conmutador de modo LPC se basa en la predicción de ganancias de los filtros LPC hacia adelante y hacia atrás y un indicador de estacionariedad. Un bit de modo se transmite al decodificador para indicar el modo LPC para la unidad actual. En el modo hacia adelante LPC, los parámetros del filtro de síntesis están interpolados linealmente en el campo LSF. Tal como se ha mencionado, el modo hacia atrás no se usa en la presente invención, y así el conmutador de modo LPC se coloca siempre para elegir el modo hacia adelante.
El análisis del paso y la búsqueda de la biblioteca de códigos adaptable (ACB) del codificador de banda baja (143) es como sigue: dependiendo del modo de voz de la señal de entrada, se calcula un filtro de predicción a largo plazo (LTP) por una combinación de análisis LTP de bucle abierto y de bucle cerrado. Para cada 10 ms mitad de la unidad (bucle abierto, u OL, unidad), se calcula un paso estimado de bucle abierto en el bloque (144) usando una medición de correlación ponderada. Dependiendo de esta estimación y de la señal de entrada, se toma una decisión de voz en el bloque (146) y se codifica por un bit de modo.
En el caso de que una unidad OL es declarada de voz, se realiza la búsqueda de una biblioteca de códigos adaptable de bucle cerrado, limitada, por medio del ACB en el bloque (148), alrededor del bucle abierto estimado en la primera y tercera subunidades ACB. En la segunda y cuarta subunidades ACB se realiza una búsqueda restringida alrededor del intervalo de paso del análisis de bucle cerrado de la primera o tercera subunidad ACB, respectivamente.
Este procedimiento da como resultado un esquema de codificación delta que resulta en 8+6 = 14 bits por unidad OL para codificar los intervalos de paso en el intervalo de 25 ... 175. Se utiliza un enfoque de paso fraccionario.
Para cada subunidad ACB, la ganancia de paso no está cuantificada de forma escalar uniforme con 4 bits. Por consiguiente, la velocidad total de bits de LTP llega a 22 bits por unidad OL.
Para velocidades de bits de 16 kb/s, la búsqueda siguiente de la biblioteca de códigos fijos a través del bloque (149) se usa por el esquema CELP en el subcodificador (143).
Para cada 2,5 ms (25 muestras), se selecciona un vector de forma de excitación de una biblioteca de códigos ternarios esparcidos ("biblioteca de códigos de impulsos").
Dependiendo de la velocidad de bits disponible para la excitación, es decir, dependiendo de la colocación de los conmutadores del modo LPC y modo de voz, se seleccionan diferentes configuraciones de la biblioteca de códigos algebraicos:
Un vector innovación contiene 4 ó 5 pistas con un total máximo de 10 ó 12 impulsos distintos de cero, dando como resultado velocidades de bits de 25 a 34 bits para codificar un vector de forma. La ganancia FCB se codifica usando predicción MA fija entre unidades de la energía logarítmica del vector de excitación escalado. La predicción residual de una forma escalar no uniforme utilizando 4 ó 5 bits, dependiendo también de la velocidad de bits disponible.
En velocidades de bits de 24 kb/s, se usa la siguiente búsqueda de biblioteca de códigos fijos:
Cada 1 ms (10 muestras), se selecciona un vector de forma de excitación o bien de la biblioteca de códigos ("biblioteca de códigos de impulso") algebraicos ternarios esparcidos o bien de una biblioteca de códigos ternarios con cero muestras forzadas ("biblioteca de códigos ternarios").
Dependiendo de la velocidad de bits disponible para la excitación, es decir, dependiendo de la colocación de los conmutadores para el modo LPC y el modo de voz, se seleccionan diferentes configuraciones de la biblioteca de códigos algebraicos. Para la biblioteca de códigos de impulso, un vector innovación contiene 2 pistas con un total máximo de 2 ó 3 impulsos distintos de cero, dando como resultado cantidades de bits de 12, 14 ó 16 bits para codificar. Para la biblioteca de códigos ternarios, se codifica también un vector de forma usando 12, 14, ó 16 bits. Ambas bibliotecas de códigos se buscan para la innovación óptima y se selecciona el tipo de biblioteca de códigos, que minimiza el error de reconstrucción. Para cada subunidad FCB, el modo FCB se transmite por un bit separado. La ganancia FCB se codifica usando predicción MA de interunidad fija de la energía logarítmica del vector de excitación escalado. La predicción residual se cuantifica de forma escalar no uniforme usando 3 ó 4 bits, dependiendo también de la velocidad de bits disponible.
Se usa en el bloque (150) un filtro ponderado perceptual durante el proceso de minimización de la búsqueda ACB y FCB (a través de la media de mínimos errores cuadráticos, bloque (152-). Este filtro tiene una función de transferencia de la forma W(z) = A(z/_{1})/A(z/_{2}), siendo A(z) el filtro de análisis LP. Se usan diferentes juegos de factores ponderados durante la búsqueda ACB y FCB. El filtro ponderado perceptual se actualiza y se interpola como filtro de síntesis LP. En el modo LPC hacia adelante, los coeficientes del filtro ponderado se calculan a partir de la LSF no cuantificada. (En el modo LPC hacia atrás, el filtro ponderado se calcula típicamente a partir de coeficientes LP hacia atrás y se extiende por una sección de compensación inclinada).
La codificación de la banda superior (5-7 kHz) tiene lugar en el subcodificador (160) de banda superior, tal como se describe a continuación.
Para velocidades de bits de 16 kb/s, la banda superior no se transmite, y de esta forma no se codifica.
A 24 kb/s, la subbanda superior reducida se codifica usando la técnica (CELP) de predicción lineal de código excitado.
El codificador funciona sobre unidades de señal de 20 ms (80 muestras en una velocidad de muestreo de 4 kHz). Una unidad de banda superior se divide en 5 subunidades (FCB) de excitación de muestras de longitud 16 (4 ms). Los coeficientes del filtro de síntesis del término corto (LP) para un orden de modelo de N_{p} = 8 se calculan aplicando un enfoque de covariancia de Burg a un segmento de entrada de longitud 160 (40 ms) y cuantificado con 10 bits.
De los parámetros LP, un filtro ponderado perceptual (indicado en el bloque (162-) que tiene una función de transferencia de la forma W(z) = A(z/_{1})/A(z/_{2}), representando A(z) el filtro LP inverso, se calcula por la búsqueda de la biblioteca de códigos fijos (FCB).
En la búsqueda FCB de la banda superior, un vector de forma de innovación de longitud 16 muestras se elige de una biblioteca de códigos estocásticos Gausiano de 10 bits. La ganancia FCB se codifica usando predicción fija MA interunidad, con el residual que se cuantifica en forma escalar no uniforme con 3 bits.
La figura 4 muestra un decodificador CELP (180) para decodificar señales codificadas CELP recibidas. El decodificado de la banda 0-5 kHz tiene lugar en el subdecodificador de banda baja (182) tal que la excitación total se construye a partir de los índices de la biblioteca de codificación (adaptable y fijo) recibidos y de las ganancias de las palabra clave, dependiendo del modo y de la velocidad de bits. Esta excitación pasa a través del filtro de síntesis LP (188) y un filtro posterior adaptable (189).
Según los procedimientos de codificación, o bien los coeficientes LP recibidos se usan para el filtro de síntesis LP durante los modos hacia adelante; o bien, para los modos hacia atrás, se calcula un filtro de orden elevado a partir de la señal sintetizada anteriormente antes del filtrado posterior.
El filtro posterior adaptable (189) tiene una cascada de un filtro posterior de formato, un filtro posterior armónico, y un filtro de compensación inclinado. Después del filtrado posterior, se realiza una ganancia adaptable. El filtrado posterior no es activo durante el modo LPC hacia atrás.
La banda de 5-7 kHz se decodifica en el subdecodificador de banda alta (184) tal como se describe a continuación. A 16 kb/s, no se transmite ningún parámetro de banda alta. La señal de salida de banda alta se pone a cero por el decodificador.
A 24 kbit/s, los parámetros recibidos se decodifican. Cada 4 ms, se genera un vector de 16 muestras a partir de la entrada FCB recibida y se calcula una ganancia usando el residual recibido y la predicción estimada localmente. Esta excitación se pasa a través del filtro de síntesis LP (185).
Después de decodificar las señales de las dos subbandas, un banco de filtro de síntesis (181) no proporciona ningún muestreo, proporciona interpolación y una superposición compensada en retraso de estas señales, teniendo la estructura inversa como el banco de filtros de análisis. El banco de filtro de síntesis contribuye con 5 ms de
retraso.
La ocultación del bit de error lo proporciona el decodificador (180). Dependiendo de la velocidad de bits y el modo, están disponibles números diferentes de bits (de paridad). Se asignan bits únicos de paridad a parámetros de codificación particular, a efectos de localizar errores y tomar medidas interpolativas específicas para la ocultación. La protección del error de bit es importante especialmente para el bit de modo LPC, los coeficientes LP, los intervalos de paso y las ganancias fijas de la biblioteca de códigos.
También está prevista la ocultación del borrado de unidad. Cuando se detecta un borrado de unidad, el filtro LP de síntesis de la unidad anterior se reutiliza. En base a una decisión con voz/ sin voz de la unidad anterior, se construye o un paso síncrono o una extrapolación asíncrona de la excitación previa y se usa para sintetizar la señal en la unidad actual, perdida. Para subsiguientes unidades perdidas, se efectúa una atenuación de la excitación.
Las tablas 2 y 3 dan la asignación de bits para los modos 16 y 24 kbit/s, respectivamente, del esquema CELP de la figura 3.
TABLA 2 Colocación de bits para una unidad de 20 ms del codificador del modo de 16 kbit/s
16 kbit/s
Parámetro bits colocados
modo LPC 1
modo de voz 2
coeficientes LP 33
banda inferior intervalo ACB (0 ó 14) + (0 ó 14)
ganancia ACB (0 u 8) + (0 u 8)
forma FCB (100, 120 ó 136) + (100, 120 ó 136)
ganancia FCB (16 ó 18) + (16 ó 18)
banda superior -
protección de error 1 ... 9
Total 320
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
TABLA 3 Colocación de bit para unidad de 20 ms de codificación del modo 24 kbit/s
24 kbit/s
Parámetro bits colocados
modo LPC 1
modo de voz 2
coeficientes LP 33
banda baja intervalo ACB (0 ó 14) + (0 ó 14)
ganancia ACB (0 u 8) + (0 u 8)
modo FCB 20
forma FCB (120, 140 ó 160) + (120, 140 ó 160)
ganancia FCB (31, 32, 33 ó 34) + (31, 32, 33 ó 34)
coeficientes LP 10
banda superior forma FCB 40
ganancia FCB 15
protección de error 4 ... 11
Total 480
\newpage
El esquema de codificación transformadora realizado por el codificador de transformación (50) de la figura 1 es preferentemente un esquema de codificación ATC, que funciona como sigue:
La codificación transformadora es el único modo para una velocidad de bits de 32 kbit/s. Para velocidades de bits inferiores, se usa junto con la técnica de codificación de campo de tiempo en el codificador de código múltiple.
El codificador ATC puede estar basado en una transformación MDTC, que explota resultados psicoacústicos mediante el uso de curvas de enmascarado calculadas en el campo transformador. Dichas curvas se utilizan para situar dinámicamente la velocidad de bits de los coeficientes transformadores.
El codificador ATC (50) se muestra en la figura 5. La señal de entrada muestreada a 16 kHz se divide en unidades de 20 ms. A continuación por cada unidad de 20 ms, se calculan los 320 coeficientes MDCT del transformador MDCT, tal como muestra el bloque (51), con una ventana que sobrepasa dos unidades sucesivas de 20 ms. Un detector de tonalidad (52) evalúa si la señal de entrada es tonal o no, y se transmite esta información binaria (t/nt) al decodificador. A continuación, un detector de voz/no voz (53) emite la información v/nv.
Se calcula una curva de enmascarado en el bloque (54) usando los coeficientes de transformación, y se suprimen los coeficientes por debajo del enmascaramiento menos un umbral dado.
La envolvente espectral de la unidad actual se estima en el bloque (55), dividido en 32 bandas cuyas energías se cuantifican, se codifican usando codificación entrópica y se transmiten al decodificador. La cuantificación de la envolvente espectral depende de la naturaleza de la señal tonal/no tonal y voz/no voz.
A continuación para las bandas no enmascaradas totalmente se realiza una asignación dinámica de los bits para la codificación de coeficientes, en el bloque (56). Esta asignación usa la envolvente espectral decodificada y se efectúa tanto por el codificador (50) como por el decodificador. Esto evita transmitir cualquier información sobre la asignación de bits.
Los coeficientes transformadores se cuantifican entonces en el bloque (57) usando la envolvente espectral decodificada para reducir la velocidad dinámica del cuantificador. En el bloque (58) está prevista la multiplexión.
Se incluye un decodificador local para el ATCELP (combinado de codificador ATC-CELP). El esquema decodificador local decodifica la unidad válida siguiente, mostrado en el bloque (71) de la figura 6. La decodificación real de los índices de cuantificación no es necesaria, en general, siendo el valor decodificado un subproducto del proceso de cuantificación.
Los párrafos que siguen a continuación presentan una descripción más detallada del codificador ATC (50), a continuación se describe el decodificador (71) y se presentan con mayor detalle en la figura 7 los bloques específicos de la parte del decodificador.
Los coeficientes MDCT, denominados y(k), de cada unidad se calculan usando la expresión que puede ser encontrada en "High-Quality Audio Transform Coding at 64Kbps." ("Codificación transformadora de audio de elevada calidad a 64 kbps"), por Y. Mahieux & J. P. Petit, IEEE Trans. on Communications Vol. 42, No. 1, Noviembre 1994, que se incorpora como referencia a la presente descripción.
Debido a las características del ancho de banda de ITU-T (ancho de banda limitado a 7 kHz), los coeficientes en la velocidad (289,319) reciben el valor 0 y no se codifican. Para una velocidad de bits de 16 kb/s, debido a la limitación del pasabajo de 5 kHz, esta velocidad no codificada se extiende a los coeficientes (202,319).
Se realiza una detección convencional voz/no voz en el bloque (53) en la figura 5 sobre la señal entrada actual x(n), usando la energía de la unidad promedio, el primer valor "parcor", y el número de cruzamientos cero.
En el bloque (52) se realiza también una medida de la naturaleza tonal o no tonal de la señal de entrada en los coeficientes MDCT.
Primeramente se evalúa una medición de la planicidad del espectro sfm como el logaritmo de la relación entre la media geométrica y la media aritmética de los coeficientes transformadores al cuadrado. Se aplica un procedimiento de suavizado al sfm para evitar cambios bruscos. El valor resultante se compara con un umbral fijo para decidir si la unidad actual es tonal o no.
Los coeficientes de enmascarado también pueden ser detectados en el bloque (54). El cálculo de la curva de enmascarado puede seguir el algoritmo presentado en "High-Quality Audio Transform Coding at 64Kbps.", por Y. Mahieux & J. P. Petit citado anteriormente. Un umbral de enmascarado se calcula para cada coeficiente MDCT. El algoritmo usa un modelo psicoacústico que da una expresión curva de enmascarado en la escala Bark. La velocidad de frecuencia se divide en 32 bandas separadas de forma no uniforme a lo largo del eje de frecuencias, tal como se muestra en la Tabla 4. Se asume que todos los parámetros de los que dependen frecuencias son constantes en cada banda, se trasladan a la rejilla de frecuencias de coeficientes transformadores, y se almacenan.
Cada coeficiente y(k) se considera como enmascarado cuando su valor al cuadrado está por debajo del umbral.
TABLA 4 Definición de las 32 bandas MDCT
Banda Límite Núm. de Banda Límite Núm. de
superior (Hz) coeficientes superior (Hz) coeficientes
0 75 3 16 2375 10
1 150 3 17 2625 10
2 225 3 18 2875 10
3 300 3 19 3175 12
4 375 3 20 3475 12
5 475 4 21 3775 12
6 575 4 22 4075 12
7 675 4 23 4400 13
8 800 5 24 4725 13
9 925 5 25 5050 13
10 1050 5 26 5400 14
11 1225 7 27 5750 14
12 1425 8 28 6100 14
13 1650 9 29 6475 15
14 1875 9 30 6850 15
15 2125 10 31 7225 15
Se calcula para cada banda una envolvente espectral en el bloque (55). La envolvente espectral (e(j), j = 0 a 31) se define como la raíz cuadrada de la energía promedio en cada banda. La cuantificación de los valores e(j) es diferente para unidades tonales y no tonales. Los 32 valores decodificados de la envolvente espectral se denominarán e'(j). A 16 kbit/s, solamente están codificadas 26 bandas, puesto que los coeficientes en la velocidad [202,319] no están codificados y reciben el valor cero.
Para unidades no tonales, los valores e(j) se cuantifican en el campo logarítmico. El primer valor logarítmico se cuantifica usando un cuantificador uniforme de 7 bits. A continuación, las bandas próximas se codifican diferencialmente usando un cuantificador logarítmico uniforme en 32 niveles. Se utiliza entonces un procedimiento de codificación entrópica para codificar los valores cuantificados, con las características siguientes:
- Las bandas completamente enmascaradas reciben un código dado, que es un codificado Huffman.
- Las bandas con valor de salida cuantificado [-7, 8] se codifican usando una secuencia de escape, un codificado Huffman, seguido por 4 bits de código.
- 8 tipos de códigos Huffman se designan por el resultado de 18 palabras de código dependiendo de la decisión con voz/sin voz por una parte, y en una clasificación de bandas (como, por ejemplo, se describe en "High-Quality Audio Transform Coding at 64 Kbps." por Y. Mahieux & J. P. Petit, citado anteriormente) en 4 clases.
Para unidades tonales, se busca primero la banda con la energía máxima, su número se codifica con 5 bits y el valor asociado con 7 bits. Las otras bandas se codifican diferencialmente con relación a este máximo, en el campo logarítmico, con 4 bits.
Los bits de los coeficientes se colocan dinámicamente según su importancia perceptual. La base de dicha colocación puede ser, por ejemplo, según la colocación descrita en "High-Quality Audio Transform Coding at 64 Kbps." por Y. Mahieux & J. P. Petit, citado anteriormente. El proceso se realiza tanto en el codificador ATC como en el lado del decodificador ATC. Se calcula una curva de enmascarado en base a una banda por banda, usando la envolvente espectral decodificada.
La colocación de bits se obtiene por un procedimiento iterativo en el que en cada iteración, para cada banda, se evalúa la velocidad de bits por coeficiente R(f), aproximadamente para satisfacer las restricciones de los cuantificadores de coeficientes. Al final de cada iteración se calcula la velocidad global de los bits de coeficiente R'_{0}. Se detiene el procedimiento iterativo cuando el valor está próximo al objetivo R'_{0} o cuando se ha alcanzado un número máximo de iteraciones.
Puesto que el valor final R'_{0} es en general ligeramente diferente de R_{0}, la colocación de bits se reajusta o bien por añadir velocidad de bits a las bandas más importantes perceptualmente o bien por substraer velocidades de bits a las bandas menos importantes perceptualmente.
La cuantificación y el codificado de los coeficientes MDCT tiene lugar en el bloque (57). El valor codificado actualmente para un coeficiente k de una banda j es y(k) / e' (j).
Se han diseñado dos clases de cuantificadores para los coeficientes:
1. Cuantificadores escalares con números impares de niveles de reconstrucción; y
2. Cuantificadores vectoriales usando bibliotecas de códigos algebraicos de varios tamaños y dimensiones.
Para cuantificadores escalares, pueden diseñarse dos clases de cuantificadores dependiendo de la naturaleza v/nv de las unidades. Los coeficientes de enmascarado reciben el valor cero. Esto está permitido por el uso de cuantificadores que tienen cero como nivel de reconstrucción. Puesto que es necesaria la simetría, los cuantificadores se escogen para tener un número impar de niveles. Esta velocidad de números va de 3 a 31.
Debido a que estos números no son potencias de 2, los índices de cuantificación que corresponden a los coeficientes de las bandas de cuantificación escalar se codifican conjuntamente (ver el procedimiento de empaquetado más adelante).
Para los cuantificadores vectoriales, las bibliotecas de códigos se incrustan y se designan por las dimensiones de 3 a 15. Para una dimensión dada, las bibliotecas de códigos (que corresponden a diversas velocidades de bits desde 5 a 32, dependiendo de la dimensión) se componen de la unión de códigos de permutación, siendo posibles todas las combinaciones de signos.
El proceso de cuantificación puede usar un algoritmo rápido óptimo (por ejemplo como el descrito en "Quantification vectorielle algébrique sphérique par le réseau de Barnes-Wall. Application au codage de la Parole" ["Cuantificación vectorial algébrica esférica para la red Barnes-Wall. Aplicación a la codificación de la palabra"], por C. Lamblin, Ph.D, Universidad de Sherbrooke, Marzo de 1988, incorporado como referencia a la presente descripción) que aprovecha la estructura de permutación de códigos.
El codificado de la entrada de la biblioteca de códigos seleccionado puede usar el algoritmo de Schalkwijk (como, por ejemplo, en "Quantification vectorielle algébrique sphérique par le réseau de Barnes-Wall. Application au codage de la Parole", citado anteriormente) siendo los signos codificados separadamente para las permutaciones.
El empaquetado del flujo de bits para los códigos escalares se realiza antes de que empiece la cuantificación de los coeficientes.
Los números de niveles para los coeficientes que pertenecen a las bandas cuantificadas escalares se ordenan primeramente de acuerdo con la importancia perceptual decreciente de las bandas. Dichos números de niveles son multiplicados iterativamente entre sí hasta que el producto alcanza un valor próximo a una potencia de 2, ó (2^{32}-1). Los índices de cuantificación de los coeficientes correspondientes se codifican conjuntamente. El proceso se reinicia desde el primer número de nivel desechado. Al final del proceso se calcula el número de bits tomados por los códigos obtenidos. Si es mayor que el valor permitido, se disminuye la velocidad de bits usando el proceso de reajuste mencionado anteriormente para sustraer la velocidad de bits a las bandas menos importantes perceptualmente. La velocidad de bits tomado a las bandas codificadas usando cuantificadores vectoriales no afecta al empaquetado del flujo de bits. Pero si la velocidad de bits se toma en bandas cuantificadas escalarmente, el algoritmo de empaquetado del flujo de bits debería ser reiniciado desde el primer código en que ocurre una modificación. Puesto que el algoritmo del empaquetado del flujo de bits ha ordenado el número de niveles según la importancia decreciente de las bandas, las bandas menos importantes, que se afectarán más probablemente, serán empaquetadas al final del procedimiento, lo cual reduce la complejidad del empaquetado del flujo de bits.
El algoritmo de empaquetado del flujo de bits converge, en general, en la segunda iteración.
Los bits que corresponden a la envolvente espectral, de decisiones con voz/sin voz y tonal/no tonal se protegen contra los errores de transmisión aislada usando 9 bits de protección.
La colocación global de bits para el modo ATC se da en la tabla 5. La envolvente espectral tiene un número variable de bits debido al código de entropía, típicamente en la velocidad [85-90]. El número de bits colocado para los coeficientes es igual al número total de bits (dependiendo de la velocidad de bits) menos los otros números de bits.
TABLA 5 Colocación de bits
v/nv t/nt Envolvente espectral Coeficientes Bits de protección
1 bit 1 bit número variable de bits número variable de bits 9 bits
El decodificador ATC se muestra en la figura 6. Se ponen en marcha dos modos de funcionamiento según el indicador de unidad defectuosa (BFI).
Cuando BFI = 0, el esquema decodificador en el decodificador de unidad válida (71) sigue el orden de funcionamiento según se describe con respecto a la figura 6. Se realiza una transformación inversa MDCT en el bloque (73) en los coeficientes decodificados MDCT y se obtiene la señal de síntesis en el campo de tiempo por el solapado añadido de las muestras ponderadas de seno de la unidad anterior y de la unidad actual.
Cuando BFI = 1, se detecta un borrado de unidad y se realiza el procedimiento de ocultación de error en el bloque (72) descrito más adelante e ilustrado por la figura 8 a efectos de recuperar los 320 coeficientes perdidos MDCT de la unidad actual.
Tal como se describe en la figura 7, el decodificador de la unidad válida actúa primero a través de un desmultiplexor (74). La decodificación de la envolvente espectral tiene lugar en el bloque (75) para unidades no tonales y tonales. Para unidades no tonales, los índices cuantificadores de las bandas que siguen a la primera se obtienen comparando por orden de probabilidades decrecientes el flujo de bits a los códigos de Huffmann contenidos en las tablas almacenadas. Para unidades tonales, se invierte el proceso de codificado descrito anteriormente. También tienen lugar la colocación dinámica en el bloque (76) y la cuantificación inversa de los coeficientes MDCT en el bloque (77) del codificador.
El procedimiento de ocultación de error en el bloque (72) de la figura 6 se muestra en la figura 8. Cuando se detecta una unidad borrada por el BFI, los coeficientes MDCT perdidos se calculan usando valores extrapolados de la señal de salida. El tratamiento difiere para la primera unidad borrada y las siguientes unidades sucesivas. Para la primera unidad borrada, el procedimiento es como se explica a continuación:
1.
Se realiza un análisis LPC de 14º orden en el bloque (91) usando una ventana asimétrica de 320 muestras sobre la palabra decodificada sintetizada disponible hasta la unidad borrada;
2.
si la unidad anterior fue tonal (t) o de voz (v), la periodicidad del paso se calcula en el bloque (92) sobre la señal anterior sintetizada por un análisis LTP. Se selecciona un intervalo entero de entre 6 candidatos preseleccionados en la velocidad [40, ... 276] favoreciendo el valor más bajo;
3.
se calcula la señal residual de la palabra sintetizada anterior;
4.
se generan 640 muestras de señal de excitación en el bloque (93) a partir de la señal residual anterior, usando una periodicidad de paso en los casos de voz o tonal, o una copia simple más;
5.
se obtienen 640 muestras de la señal extrapolada en el bloque (94) por el filtrado LPC de la señal de excitación; y
6.
se realiza una transformación MDCT en el bloque (95) sobre esta señal para recuperar los coeficientes MDCT perdidos de la unidad borrada.
Para las unidades borradas próximas sucesivas, se mantienen los coeficientes LTP y LPC calculados en la primera unidad borrada y se calculan solamente 320 muestras de la nueva señal extrapolada.

Claims (22)

1. Procedimiento para conmutación controlada por señales entre esquemas de codificación de audio, que comprende:
recepción de señales de entrada de audio;
clasificación de un primer conjunto de señales entradas de audio como señales de palabra o de no palabra;
codificación de las señales de palabra usando un esquema de codificación de campo de tiempo; y
codificación de las señales de no palabra usando un esquema de codificación transformador.
2. Procedimiento, según la reivindicación 1, que comprende además la conmutación de las señales de entrada de audio entre un primer codificador (40) que tiene el esquema de codificación de campo de tiempo y un segundo codificador (50) que tiene el esquema de codificación transformador como una función de la clasificación.
3. Procedimiento, según la reivindicación 1 ó 2, que comprende además el muestreo de las señales de entrada de audio para formar una serie de unidades de información que corresponden al primer conjunto.
4. Procedimiento, según alguna de las reivindicaciones 1 a 3, en el que la etapa de clasificación incluye el cálculo de dos predicciones de ganancias y la determinación de una diferencia entre las dos predicciones de ganancias.
5. Procedimiento, según la reivindicación 4, que comprende además el muestreo de las señales de entrada de audio para formar una serie de unidades, incluyendo ésta serie de unidades una unidad actual a clasificar y una unidad anterior, incluyendo además la etapa de clasificación la determinación de la diferencia entre los coeficientes LSF de la unidad actual y la unidad anterior.
6. Procedimiento, según una de las reivindicaciones 2 a 5, en el que la etapa de clasificación incluye además el procesado posterior, determinando el procesado posterior si ocurrirá una degradación en una salida decodificada.
7. Procedimiento, según la reivindicación 6, que comprende además retrasar la conmutación si el procesado posterior determina que ocurrirá la degradación.
8. Procedimiento, según una de las reivindicaciones anteriores, que comprende además la decodificación del primer conjunto de señales, y cuando ocurre una conmutación entre las señales de palabra y señales de no palabra durante la decodificación, formando una señal extrapolada.
9. Procedimiento, según la reivindicación 8, en el que la señal extrapolada es una función de las señales decodificadas previamente del primer conjunto de señales.
10. Procedimiento, según una de las reivindicaciones anteriores, que comprende además la identificación de una velocidad de bits de salida, y si la velocidad de bits de salida es de 32 kb/s o mayor, codificar un segundo conjunto de señales de audio usando solamente el esquema de codificación de transformación.
11. Procedimiento, según la reivindicación 10, en el que la clasificación del primer conjunto tiene lugar solamente cuando la velocidad de bits de salida es menor de 32 kb/s.
12. Procedimiento, según una de las reivindicaciones anteriores, en el que las señales de entrada de audio tienen un ancho de banda limitado a 7 kHz.
13. Procedimiento, según una de las reivindicaciones anteriores, en el que el esquema de codificación de campo tiempo es un esquema CELP.
14. Procedimiento, según la reivindicación 13, que comprende además la identificación de una velocidad de bits de salida, y si la velocidad de bits es de 16 kb/s, codificar solamente las señales de entrada de audio que tengan una frecuencia menor de 5 kHz.
15. Procedimiento, según alguna de las reivindicaciones anteriores, en el que el esquema de codificación de transformación es un esquema ATC.
16. Procedimiento, según la reivindicación 15, en el que el esquema ATC usa coeficientes MDCT y comprende además la identificación de la velocidad de bits de salida, y si la velocidad de bits de salida es menor de 32 kb/s, se hace caso omiso a una serie de coeficientes MDCT.
17. Procedimiento, según una de las reivindicaciones anteriores, que comprende además el muestreo de las señales de entrada de audio para formar una serie de unidades, incluyendo la serie de unidades una unidad actual a clasificar y una unidad anterior, incluyendo además la etapa de clasificación, la determinación de uno de los siguientes modos de transmisión para cada unidad:
un primer modo: codificación por campo de tiempo o continuación del mismo,
un segundo modo: transición desde codificación de transformación a codificación por campo de tiempo,
un tercer modo: transición desde codificación de campo de tiempo a codificación de transformación,
un cuarto modo: codificación de transformación o continuación de la misma.
18. Procedimiento, según la reivindicación 17, que proporciona ocultación de error para borrado de unidades al continuar el proceso en el primer modo, si la unidad anterior fue procesada en el primer modo, y procesando en el cuarto modo si la unidad anterior no fue procesada en el primer modo.
19. Codificador de código múltiples que comprende:
una entrada de señal de audio (10); y
un codificador para recibir entradas de señales de audio, teniendo el codificador un codificador de campo de tiempo (40), un codificador de transformación (50), y un clasificador de señales (22) para clasificar las señales de audio generalmente como palabra o no palabra, dirigiendo el clasificador de señales (22) las señales de audio de palabra al codificador de campo de tiempo (40) y las señales de audio de no palabra al codificador de transformación (50).
20. Codificador de código múltiple, según la reivindicación 19, en el que el codificador de campo de tiempo es un codificador CELP (40).
21. Decodificador de código múltiple, según las reivindicaciones 19 ó 20, en el que el codificador de transformación es un codificador ATC (50).
22. Decodificador de código múltiple que comprende:
una entrada de señal digital (10);
un decodificador de campo de tiempo (60) para recibir selectivamente datos desde la entrada de la señal digital (10);
un decodificador de transformación (70) para recibir selectivamente datos desde la entrada de señal digital (81); y
conmutadores (81, 82) para conmutar la entrada de señal digital (10) y una salida digital (83) entre el decodificador de campo de tiempo (60) y el decodificador de transformación (70).
ES99100790T 1998-01-22 1999-01-18 Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio. Expired - Lifetime ES2247741T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US7211698P 1998-01-22 1998-01-22
US72116 1998-01-22

Publications (1)

Publication Number Publication Date
ES2247741T3 true ES2247741T3 (es) 2006-03-01

Family

ID=22105686

Family Applications (1)

Application Number Title Priority Date Filing Date
ES99100790T Expired - Lifetime ES2247741T3 (es) 1998-01-22 1999-01-18 Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.

Country Status (5)

Country Link
US (1) US20030009325A1 (es)
EP (1) EP0932141B1 (es)
AT (1) ATE302991T1 (es)
DE (1) DE69926821T2 (es)
ES (1) ES2247741T3 (es)

Families Citing this family (146)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6640209B1 (en) 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
SE522356C2 (sv) * 1999-07-09 2004-02-03 Ericsson Telefon Ab L M Transmission av komprimerad information med realtidskrav i ett paketorienterat informationsnät
US6633841B1 (en) * 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
JP3586398B2 (ja) * 1999-11-29 2004-11-10 松下電器産業株式会社 ディジタル信号処理装置、及びディジタル信号処理方法
US7110947B2 (en) * 1999-12-10 2006-09-19 At&T Corp. Frame erasure concealment technique for a bitstream-based feature extractor
ES2269112T3 (es) * 2000-02-29 2007-04-01 Qualcomm Incorporated Codificador de voz multimodal en bucle cerrado de dominio mixto.
WO2002023530A2 (en) * 2000-09-11 2002-03-21 Matsushita Electric Industrial Co., Ltd. Quantization of spectral sequences for audio signal coding
US6829289B1 (en) * 2000-12-05 2004-12-07 Gossett And Gunter, Inc. Application of a pseudo-randomly shuffled hadamard function in a wireless CDMA system
US7545849B1 (en) 2003-03-28 2009-06-09 Google Inc. Signal spectrum spreading and combining system and method
US8374218B2 (en) * 2000-12-05 2013-02-12 Google Inc. Combining signals with a shuffled-hadamard function
US8385470B2 (en) * 2000-12-05 2013-02-26 Google Inc. Coding a signal with a shuffled-Hadamard function
US6982945B1 (en) 2001-01-26 2006-01-03 Google, Inc. Baseband direct sequence spread spectrum transceiver
US6694293B2 (en) * 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
US20040204935A1 (en) * 2001-02-21 2004-10-14 Krishnasamy Anandakumar Adaptive voice playout in VOP
DE60233283D1 (de) * 2001-02-27 2009-09-24 Texas Instruments Inc Verschleierungsverfahren bei Verlust von Sprachrahmen und Dekoder dafer
KR100434275B1 (ko) * 2001-07-23 2004-06-05 엘지전자 주식회사 패킷 변환 장치 및 그를 이용한 패킷 변환 방법
US7453921B1 (en) * 2001-12-11 2008-11-18 Google Inc. LPC filter for removing periodic and quasi-periodic interference from spread spectrum signals
US7302387B2 (en) * 2002-06-04 2007-11-27 Texas Instruments Incorporated Modification of fixed codebook search in G.729 Annex E audio coding
EP1383113A1 (fr) * 2002-07-17 2004-01-21 STMicroelectronics N.V. Procédé et dispositif d'encodage de la parole à bande élargie capable de contrôler indépendamment les distorsions à court terme et à long terme
US7352833B2 (en) 2002-11-18 2008-04-01 Google Inc. Method and system for temporal autocorrelation filtering
AU2003208517A1 (en) 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
FI118835B (fi) 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
FI118834B (fi) * 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
GB0408856D0 (en) 2004-04-21 2004-05-26 Nokia Corp Signal encoding
ATE371926T1 (de) * 2004-05-17 2007-09-15 Nokia Corp Audiocodierung mit verschiedenen codierungsmodellen
US7739120B2 (en) 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
CA2566368A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
KR100854534B1 (ko) * 2004-05-19 2008-08-26 노키아 코포레이션 오디오 코더 모드들 간의 스위칭 지원
US7751804B2 (en) * 2004-07-23 2010-07-06 Wideorbit, Inc. Dynamic creation, selection, and scheduling of radio frequency communications
US20060224381A1 (en) * 2005-04-04 2006-10-05 Nokia Corporation Detecting speech frames belonging to a low energy sequence
DE102005019863A1 (de) * 2005-04-28 2006-11-02 Siemens Ag Verfahren und Vorrichtung zur Geräuschunterdrückung
EP1905004A2 (en) * 2005-05-26 2008-04-02 LG Electronics Inc. Method of encoding and decoding an audio signal
AU2006266655B2 (en) 2005-06-30 2009-08-20 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US8082157B2 (en) 2005-06-30 2011-12-20 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
WO2007004831A1 (en) * 2005-06-30 2007-01-11 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
US8577483B2 (en) * 2005-08-30 2013-11-05 Lg Electronics, Inc. Method for decoding an audio signal
US7788107B2 (en) * 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
JP5173811B2 (ja) * 2005-08-30 2013-04-03 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
JP5108767B2 (ja) * 2005-08-30 2012-12-26 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
US7751485B2 (en) * 2005-10-05 2010-07-06 Lg Electronics Inc. Signal processing using pilot based coding
ES2478004T3 (es) * 2005-10-05 2014-07-18 Lg Electronics Inc. Método y aparato para decodificar una señal de audio
US7672379B2 (en) * 2005-10-05 2010-03-02 Lg Electronics Inc. Audio signal processing, encoding, and decoding
US7696907B2 (en) * 2005-10-05 2010-04-13 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US7646319B2 (en) * 2005-10-05 2010-01-12 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
KR100857111B1 (ko) * 2005-10-05 2008-09-08 엘지전자 주식회사 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치
US7653533B2 (en) * 2005-10-24 2010-01-26 Lg Electronics Inc. Removing time delays in signal paths
US7805297B2 (en) * 2005-11-23 2010-09-28 Broadcom Corporation Classification-based frame loss concealment for audio signals
US7752053B2 (en) * 2006-01-13 2010-07-06 Lg Electronics Inc. Audio signal processing using pilot based coding
WO2007083931A1 (en) * 2006-01-18 2007-07-26 Lg Electronics Inc. Apparatus and method for encoding and decoding signal
KR20070077652A (ko) * 2006-01-24 2007-07-27 삼성전자주식회사 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법
KR101393298B1 (ko) * 2006-07-08 2014-05-12 삼성전자주식회사 적응적 부호화/복호화 방법 및 장치
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
US7907579B2 (en) * 2006-08-15 2011-03-15 Cisco Technology, Inc. WiFi geolocation from carrier-managed system geolocation of a dual mode device
US8346546B2 (en) * 2006-08-15 2013-01-01 Broadcom Corporation Packet loss concealment based on forced waveform alignment after packet loss
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
EP2092517B1 (en) * 2006-10-10 2012-07-18 QUALCOMM Incorporated Method and apparatus for encoding and decoding audio signals
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
DE602008003550D1 (de) 2007-03-07 2010-12-30 Gn Resound As Schallanreicherung zur linderung von tinnitus
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8576096B2 (en) 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
CN101889306A (zh) * 2007-10-15 2010-11-17 Lg电子株式会社 用于处理信号的方法和装置
US8209190B2 (en) 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
WO2009088258A2 (ko) * 2008-01-09 2009-07-16 Lg Electronics Inc. 프레임 타입 식별 방법 및 장치
JP5266341B2 (ja) * 2008-03-03 2013-08-21 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
JP5108960B2 (ja) * 2008-03-04 2012-12-26 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US7889103B2 (en) * 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
US8195452B2 (en) * 2008-06-12 2012-06-05 Nokia Corporation High-quality encoding at low-bit rates
US8380523B2 (en) * 2008-07-07 2013-02-19 Lg Electronics Inc. Method and an apparatus for processing an audio signal
PL2301020T3 (pl) * 2008-07-11 2013-06-28 Fraunhofer Ges Forschung Urządzenie i sposób do kodowania/dekodowania sygnału audio z użyciem algorytmu przełączania aliasingu
EP2301028B1 (en) * 2008-07-11 2012-12-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus and a method for calculating a number of spectral envelopes
EP2311034B1 (en) * 2008-07-11 2015-11-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals
CA2836871C (en) 2008-07-11 2017-07-18 Stefan Bayer Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
EP3002751A1 (en) * 2008-07-11 2016-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding audio samples
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
MY181231A (en) 2008-07-11 2020-12-21 Fraunhofer Ges Zur Forderung Der Angenwandten Forschung E V Audio encoder and decoder for encoding and decoding audio samples
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
KR101261677B1 (ko) * 2008-07-14 2013-05-06 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
KR101381513B1 (ko) 2008-07-14 2014-04-07 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
CN102216982A (zh) * 2008-09-18 2011-10-12 韩国电子通信研究院 在基于修正离散余弦变换的译码器与异质译码器间转换的编码设备和解码设备
CN102177426B (zh) * 2008-10-08 2014-11-05 弗兰霍菲尔运输应用研究公司 多分辨率切换音频编码/解码方案
FR2936898A1 (fr) * 2008-10-08 2010-04-09 France Telecom Codage a echantillonnage critique avec codeur predictif
KR101649376B1 (ko) * 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
US20100114568A1 (en) * 2008-10-24 2010-05-06 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
WO2010053287A2 (en) * 2008-11-04 2010-05-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
KR101259120B1 (ko) * 2008-11-04 2013-04-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8706479B2 (en) * 2008-11-14 2014-04-22 Broadcom Corporation Packet loss concealment for sub-band codecs
US8219408B2 (en) 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8140342B2 (en) 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8200496B2 (en) 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
CN101609677B (zh) 2009-03-13 2012-01-04 华为技术有限公司 一种预处理方法、装置及编码设备
EP3474279A1 (en) 2009-07-27 2019-04-24 Unified Sound Systems, Inc. Methods and apparatus for processing an audio signal
BR112012009490B1 (pt) 2009-10-20 2020-12-01 Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
WO2011142709A2 (en) * 2010-05-11 2011-11-17 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for processing of audio signals
FR2961937A1 (fr) * 2010-06-29 2011-12-30 France Telecom Codage/decodage predictif lineaire adaptatif
WO2012004349A1 (en) * 2010-07-08 2012-01-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coder using forward aliasing cancellation
AU2011311659B2 (en) * 2010-10-06 2015-07-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an audio signal and for providing a higher temporal granularity for a combined unified speech and audio codec (USAC)
US20130311174A1 (en) * 2010-12-20 2013-11-21 Nikon Corporation Audio control device and imaging device
FR2969805A1 (fr) * 2010-12-23 2012-06-29 France Telecom Codage bas retard alternant codage predictif et codage par transformee
PL2676265T3 (pl) * 2011-02-14 2019-09-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób do kodowania sygnału audio z stosowaniem zrównanej części antycypacji
CN103477387B (zh) 2011-02-14 2015-11-25 弗兰霍菲尔运输应用研究公司 使用频谱域噪声整形的基于线性预测的编码方案
MY166394A (en) 2011-02-14 2018-06-25 Fraunhofer Ges Forschung Information signal representation using lapped transform
PL2676264T3 (pl) 2011-02-14 2015-06-30 Fraunhofer Ges Forschung Koder audio estymujący szum tła podczas faz aktywnych
TWI488176B (zh) * 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
KR101551046B1 (ko) 2011-02-14 2015-09-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법
BR112013020482B1 (pt) 2011-02-14 2021-02-23 Fraunhofer Ges Forschung aparelho e método para processar um sinal de áudio decodificado em um domínio espectral
ES2639646T3 (es) 2011-02-14 2017-10-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de posiciones de impulso de pistas de una señal de audio
KR101525185B1 (ko) * 2011-02-14 2015-06-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법
EP2681734B1 (en) 2011-03-04 2017-06-21 Telefonaktiebolaget LM Ericsson (publ) Post-quantization gain correction in audio coding
NO2669468T3 (es) * 2011-05-11 2018-06-02
US9037456B2 (en) * 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
CN103918247B (zh) 2011-09-23 2016-08-24 数字标记公司 基于背景环境的智能手机传感器逻辑
US9043201B2 (en) * 2012-01-03 2015-05-26 Google Technology Holdings LLC Method and apparatus for processing audio frames to transition between different codecs
CN103198834B (zh) * 2012-01-04 2016-12-14 中国移动通信集团公司 一种音频信号处理方法、装置及终端
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
EP2830062B1 (en) * 2012-03-21 2019-11-20 Samsung Electronics Co., Ltd. Method and apparatus for high-frequency encoding/decoding for bandwidth extension
US9053699B2 (en) 2012-07-10 2015-06-09 Google Technology Holdings LLC Apparatus and method for audio frame loss recovery
WO2014030928A1 (ko) * 2012-08-21 2014-02-27 엘지전자 주식회사 오디오 신호 부호화 방법 및 오디오 신호 복호화 방법 그리고 이를 이용하는 장치
US9589570B2 (en) * 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
US9123328B2 (en) * 2012-09-26 2015-09-01 Google Technology Holdings LLC Apparatus and method for audio frame loss recovery
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
EP2922052B1 (en) 2012-11-13 2021-10-13 Samsung Electronics Co., Ltd. Method for determining an encoding mode
KR102148407B1 (ko) * 2013-02-27 2020-08-27 한국전자통신연구원 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
JP6201043B2 (ja) 2013-06-21 2017-09-20 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. エラー封じ込め中の切替音声符号化システムについての向上した信号フェードアウトのための装置及び方法
CN104347067B (zh) 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
CN107452391B (zh) 2014-04-29 2020-08-25 华为技术有限公司 音频编码方法及相关装置
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
CN105336338B (zh) 2014-06-24 2017-04-12 华为技术有限公司 音频编码方法和装置
EP2980797A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
CN106448688B (zh) 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
CN111259919B (zh) * 2018-11-30 2024-01-23 杭州海康威视数字技术股份有限公司 一种视频分类方法、装置及设备、存储介质
EP3751567B1 (en) 2019-06-10 2022-01-26 Axis AB A method, a computer program, an encoder and a monitoring device
NO20201393A1 (en) * 2020-12-18 2022-06-20 Pexip AS Method and system for real time audio in multi-point video conferencing

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset

Also Published As

Publication number Publication date
EP0932141A3 (en) 1999-12-29
EP0932141A2 (en) 1999-07-28
DE69926821D1 (de) 2005-09-29
DE69926821T2 (de) 2007-12-06
US20030009325A1 (en) 2003-01-09
ATE302991T1 (de) 2005-09-15
EP0932141B1 (en) 2005-08-24

Similar Documents

Publication Publication Date Title
ES2247741T3 (es) Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.
Gersho Advances in speech and audio compression
JP5373217B2 (ja) 可変レートスピーチ符号化
EP2573765B1 (en) Audio encoder and decoder
US6377916B1 (en) Multiband harmonic transform coder
RU2351907C2 (ru) Способ осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком (amr-wb-кодеком) и многорежимным широкополосным кодеком с переменной скоростью в битах (vbr-wb-кодеком)
US6134518A (en) Digital audio signal coding using a CELP coder and a transform coder
ES2337270T3 (es) Clasificacion de señales audio.
US6078880A (en) Speech coding system and method including voicing cut off frequency analyzer
JP4166673B2 (ja) 相互使用可能なボコーダ
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
EP0878790A1 (en) Voice coding system and method
US6094629A (en) Speech coding system and method including spectral quantizer
US6138092A (en) CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency
JPH09120298A (ja) フレーム消失の間の音声復号に使用する音声の有声/無声分類
KR20070112832A (ko) 잔여분 변경에 의한 보코더 내부의 시간 와핑 프레임들
CN103594090A (zh) 使用时间分辨率能选择的低复杂性频谱分析/合成
US6778953B1 (en) Method and apparatus for representing masked thresholds in a perceptual audio coder
Combescure et al. A 16, 24, 32 kbit/s wideband speech codec based on ATCELP
CA2156558C (en) Speech-coding parameter sequence reconstruction by classification and contour inventory
Yeldener et al. Multiband linear predictive speech coding at very low bit rates
Papanastasiou LPC-Based Pitch Synchronous Interpolation Speech Coding
Yaghmaie Prototype waveform interpolation based low bit rate speech coding
Gersho Advances in speech and audio compression
Hernandez-Gomez et al. Short-time synthesis procedures in vector adaptive transform coding of speech