ES2439549T3 - Un aparato y un método para decodificar una señal de audio codificada - Google Patents

Un aparato y un método para decodificar una señal de audio codificada Download PDF

Info

Publication number
ES2439549T3
ES2439549T3 ES11162255.1T ES11162255T ES2439549T3 ES 2439549 T3 ES2439549 T3 ES 2439549T3 ES 11162255 T ES11162255 T ES 11162255T ES 2439549 T3 ES2439549 T3 ES 2439549T3
Authority
ES
Spain
Prior art keywords
frequency
signal
coding
encoder
bandwidth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES11162255.1T
Other languages
English (en)
Inventor
Max Neuendorf
Ulrich Krämer
Bernhard Grill
Markus Multrus
Harald Popp
Nikolaus Rettelbach
Frederik Nagel
Markus Lohwasser
Marc Gayer
Manuel Jander
Virgilio Bacigalupo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2439549T3 publication Critical patent/ES2439549T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Abstract

Un aparato para codificar (200) una señal de audio (105) que comprende: un primer codificador (210a) configurado para codificar de acuerdo con un primer algoritmo decodificación, el primer algoritmo de codificación posee un primer ancho de banda de frecuencia, en el queel primer codificador (210a) es un codificador de voz; un segundo codificador (210b) configurado para codificar de acuerdo con un segundo algoritmo decodificación, el segundo algoritmo de codificación posee un ancho de banda de frecuencia menor que elprimer ancho de banda de frecuencia, en el que el segundo codificador (210b) comprende un codificadorde música; una etapa de decisión (220) para indicar el primer algoritmo de codificación para una primera porción detiempo (204a) de la señal de audio (105) y para indicar el segundo algoritmo de codificación para unasegunda porción de tiempo (204b) de la señal de audio (105), siendo la segunda porción de tiempo(204b) diferente a la primera porción de tiempo (204a); y un módulo de ampliación de ancho de banda (230) para calcular parámetros de ampliación de ancho debanda (106) para la señal de audio (105), en el que el módulo de ampliación de ancho de banda (230)está configurado para ser controlado por la etapa de decisión (220) para calcular los parámetros deampliación de ancho de banda (106) para una primera banda que no incluye el primer ancho de banda defrecuencia en la primera porción de tiempo (204a) de la señal de audio (105) y para una segunda bandaque no incluye el segundo ancho de banda de frecuencia en la segunda porción (204b) de la señal deaudio (105), en el que el primer ancho de banda de frecuencia o el segundo ancho de banda defrecuencia está definido por una frecuencia de cruce (fx) variable controlada por la etapa de decisión(220), en el que la primera banda comprende componentes de frecuencia de la señal de audio (105) que estánfuera del primer ancho de banda de frecuencia y están limitados hacia el extremo inferior del espectro porla frecuencia de cruce, en el que la segunda banda comprende componentes de frecuencia de la señal de audio (105) que estánfuera del segundo ancho de banda de frecuencia y están limitados hacia el extremo inferior del espectropor la frecuencia de cruce, y en el que la frecuencia de cruce para la primera banda es mayor que lafrecuencia de cruce de la segunda banda.

Description

Un aparato y un método para decodificar una señal de audio codificada
5 [0001] La presente invención se refiere a un aparato y un método para codificar.
[0002] En la técnica, se conocen esquemas de codificación de dominio de frecuencia como MP3 o AAC (codificación de audio avanzada). Estos codificadores de dominio de frecuencia se basan en una conversión de dominio de tiempo/dominio de frecuencia, una etapa de cuantización subsecuente, donde el error de cuantización es
10 controlado utilizando información desde un módulo psicoacústico, y una etapa de codificación, donde los coeficientes espectrales cuantizados y la información lateral correspondiente son codificados por entropía utilizando tablas de códigos.
[0003] Por otro lado, existen codificadores muy apropiados para el procesamiento de voz como AMR-WB+
15 (velocidad múltiple adaptativa - banda ancha) como se describe en 3GPP TS 26.290. Dichos esquemas de codificación de voz realizan un filtro Predictivo Lineal de una señal de dominio del tiempo. Dicho filtro LP deriva de un análisis Predictivo Lineal de la señal de entrada de dominio del tiempo. Los coeficientes del filtro LP resultantes son luego cuantizados/codificados y transmitidos como información lateral. El proceso se conoce como Codificación de Predicción Lineal (LPC). En la salida del filtro, la señal residual de predicción o señal de error de predicción
20 también conocida como señal de excitación es codificada utilizando las etapas de análisis-por-síntesis del codificador ACELP (predicción lineal con excitación por código algebraico) o, en forma alternativa, es codificada utilizando un codificador de transformación, que utiliza una transformada de Fourier con solapamiento. La decisión entre la codificación ACELP y la codificación de excitación Codificada de Transformación también llamada codificación TCX se realiza utilizando un algoritmo de bucle cerrado o bucle abierto. Los esquemas de codificación
25 de audio en dominio de frecuencia como el esquema de codificación de alta eficiencia AAC, que combina un esquema de codificación AAC y una técnica de replicación de banda espectral puede combinarse también con una herramienta de codificación de estero conjunto o multi-canal conocida bajo la denominación “MPEG surround” (Grupo de Expertos en Imágenes en Movimiento). Por otra parte, codificadores de voz tales como AMR-WB+ también tienen un estado de mejora de frecuencia alta y una funcionalidad estéreo.
30 [0004] Dicha replicación de banda espectral (SBR) comprende una técnica que obtuvo popularidad como complemento de la codificación de audio de percepción popular como MP3 y la codificación de audio avanzada (AAC). SBR comprende un método de ampliación de ancho de banda (BWE) donde la banda baja (banda base o banda núcleo) del espectro es codificada utilizando una codificación existente, en tanto que la banda superior (o
35 banda alta) es parametrizada en forma grosera utilizando pocos parámetros. SBR hace uso de una correlación entre la banda baja y la banda alta con el fin de predecir la señal de banda alta extrayendo rasgos de la banda inferior.
[0005] SBR es, por ejemplo, utilizada en HE-AAC o AAC+SBR. En SBR es posible cambiar en forma dinámica la
40 frecuencia de cruce (frecuencia de inicio de BWE) como también la resolución temporal que implica la cantidad de conjuntos de parámetros (envolvente) por cuadro. AMR-WB+ implementa una ampliación de ancho de banda en dominio de tiempo combinada con un decodificador de núcleo de dominio de tiempo/frecuencia conmutada, otorgando una buena calidad de audio especialmente para señales de voz. Un factor limitante de la calidad de audio de AMR-WB+ es el ancho de banda de audio común a ambos codificadores de núcleo y frecuencia de inicio BWE
45 que represente un cuarto de la frecuencia de muestreo interna del sistema. Mientras que el modelo de voz ACELP es capaz de modelar señales de voz lo suficientemente bien por todo el ancho de banda, el codificador de audio en dominio de frecuencia fracasa en el envío de una calidad decente para algunas señales de audio generales. En consecuencia, los esquemas de codificación de voz muestran una alta calidad para las señales de voz aún a baja tasa de bits, pero muestran una pobre calidad para las señales de música a baja tasa de bits.
50 [0006] Esquemas de codificación en frecuencia de dominio como HE-AAC son ventajosos porque muestran una alta calidad a baja tasa de bits para señales de música. Sin embargo, es problemático, la calidad de señales de voz a baja tasa de bits.
55 [0007] Por lo tanto, las diferentes clases de señal de audio demandan diferentes características de la herramienta de ampliación de ancho de banda.
[0008] Propuestas de extensión de ancho de banda son por ejemplo las descritas en las patentes WO 02/41302 A y WO 2008/031458 A1.
[0009] El objetivo de la presente invención es proveer un concepto mejorado de codificación.
[0010] El objetivo se logra por medio de un decodificador de audio de acuerdo con la reivindicación 1, un método 5 para decodificar de acuerdo con la reivindicación 2 o un programa de computación de acuerdo con la reivindicación
3.
[0011] La presente invención se basa en descubrir que la frecuencia de cruce o la frecuencia de inicio BWE es un parámetro que ejerce influencia en la calidad de audio. Mientras que los codificadores de domino de tiempo (voz) 10 usualmente codifican todo el rango de frecuencia para una velocidad de muestreo dada, el ancho de banda del audio es un parámetro de sintonía (por ejemplo codificadores para música), que disminuye la cantidad total de líneas espectrales para codificar y al mismo tiempo aumentará la cantidad de bits por línea espectral disponible para codificar, significando que se realiza un intercambio de calidad versus ancho de banda de audio. Por lo tanto, en el nuevo enfoque, se combinan diferentes codificadores de núcleo con anchos de banda de audio variable con un
15 sistema conmutado con un módulo BWE común, donde el módulo BWE debe representar los diferentes anchos de banda de audio.
[0012] Un modo directo sería hallar el menor de todos los anchos de bandas de los codificadores de núcleo y utilizarlo como frecuencia de inicio de BWE, pero esto deterioraría la calidad de audio percibida. Además, la
20 eficiencia de codificación sería reducida, ya que en secciones de tiempo donde un codificador de núcleo es activo el cual tiene un mayor ancho de banda que la frecuencia de inicio BWE, algunas regiones de frecuencia serían representadas dos veces, por el codificador de núcleo sí como BWE que introduce redundancia. Una mejor solución consiste por lo tanto en adaptar la frecuencia de inicio BWE al ancho de banda de audio del codificador de núcleo utilizado.
25 [0013] Por lo tanto, de acuerdo con las formas de realización de la presente invención un sistema de codificación de audio combina una herramienta de ampliación de ancho de banda con un codificador de núcleo que depende de la señal (por ejemplo codificador de voz/audio conmutado), donde la frecuencia de cruce comprende un parámetro variable. Una salida clasificadora de señal que controla la conmutación entre diferentes modos de codificación de
30 núcleo puede también ser utilizada para conmutar las características del sistema BWE como la resolución temporal y borrosidad, resolución espectral y la frecuencia de cruce.
[0014] En contraposición con las formas de realización, SBR en técnicas previas se aplica a un codificador de audio sin conmutador que solamente dan por resultado las siguientes desventajas. La resolución temporal así como 35 la frecuencia de cruce podrían aplicarse en forma dinámica, pero implementaciones de vanguardia como la fuente 3GPP aplican sólo un cambio de resolución temporal para tasa de bits como, por ejemplo, castañuelas. Asimismo, una resolución temporal total más fina podría escogerse velocidades mayores como un parámetro de sintonía que depende de o un valor umbral de decisión que controla la resolución temporal, que combina de la mejor manera la tasa de bits de al señal. No se lleva a cabo una clasificación explícita que determina el tipo de resolución temporal,
40 como por ejemplo, música tonal estacionaria versus voz. Las formas de realización de la presente invención superan estas desventajas. Las formas de realización permiten especialmente una frecuencia de cruce adaptada combinada con una opción flexible para el codificador de núcleo utilizado para que la señal codificada provea una calidad significantemente mayor en comparación con un codificador/decodificador de técnicas previas
45 Breve descripción de los dibujos
[0015] Las formas de realización preferidas de la presente invención se describen a continuación con respecto a los dibujos adjuntos, donde: 50 Fig. 1 muestra un diagrama de bloque de un aparato para decodificar;
Fig. 2 muestra un diagrama de bloque de un aparato para decodificar de acuerdo con el primer aspecto de la presente invención; 55 Fig. 3 muestra un diagrama de bloque de un esquema de codificación con mayor detalle;
Fig. 4 muestra un diagrama de bloque de un esquema de decodificación con mayor detalle;
Fig. 5 muestra un diagrama de bloque de un esquema de codificación de acuerdo con un segundo aspecto;
Fig. 6 es un diagrama esquemático de un esquema de decodificación de acuerdo con el segundo aspecto;
5 Fig. 7 ilustra una etapa LPC del lado del codificador que provee información de predicción a corto plazo y la señal de error de predicción;
Fig. 8 ilustra otra forma de realización de un dispositivo LPC para generar una señal ponderada;
10 Figs. 9a-9b muestran un codificador que comprende un conmutador de audio/voz que da por resultado diferentes resoluciones temporales para una señal de audio;
Fig. 10 ilustra una representación para una señal de audio codificada.
15 Descripción detallada de la invención
[0016] La Fig. 1 muestra un aparato decodificador 100 para decodificar una señal de audio codificada 102. La señal de audio codificada 102 comprende una primera porción 104a codificada de acuerdo con el primer algoritmo 20 de codificación, una segunda porción 104b codificada de acuerdo con un segundo algoritmo de codificación, un parámetro BWE 106 para la primera porción de tiempo 104a y la segunda porción de tiempo 104b y una información de modo de codificación 108 que indican un primer algoritmo de decodificación o un segundo algoritmo de decodificación para las respectivas porciones de tiempo. El aparato para decodificar 100 comprende un primer decodificador 110a, un segundo decodificador 110b, un módulo BWE 130 y un controlador 140. El primer 25 decodificador 110a está adaptado para decodificar la primera porción 104a de acuerdo con el primer algoritmo de decodificación para la primera porción de tiempo de la señal codificada 102 para obtener una primera señal decodificada 114a. El segundo decodificador 110b está configurado para decodificar la segunda porción 104b de acuerdo con el segundo algoritmo de decodificación para una segunda porción de tiempo de la señal codificada para obtener una segunda señal decodificada 114b. El módulo BWE 130 posee una frecuencia de cruce controlable fx 30 que ajusta la conducta del módulo BWE 130. El módulo BWE 130 está configurado para desarrollar un algoritmo de ampliación de ancho de banda para generar componentes de la señal de audio en la banda de frecuencia superior basados en la primera señal de decodificación 114a y los parámetros BWE 106 para la primera porción, y para generar componentes de la señal de audio en la banda de frecuencia superior basados en la segunda señal decodificada 114b y el parámetro de ampliación de ancho de banda 106 para la segunda porción. El controlador
35 140 está configurado para controlar la frecuencia de cruce fx del módulo BWE 130 de acuerdo con la información del modo de codificación 108.
[0017] El módulo BWE 130 puede comprender también un combinador que combina los componentes de la señal de audio de la banda de frecuencia inferior y superior y emisiones de la señal de audio resultante 105.
40 [0018] La información del modo de codificación 108 indica, por ejemplo cual porción de tiempo de la señal de audio codificada 102 es codificada por cual algoritmo de codificación. Esta información puede al mismo tiempo identificar el decodificador a utilizar para las diferentes porciones de tiempo. Además, la información del modo de codificación 108 puede controlar un conmutador para conmutar entre diferentes decodificadores para diferentes
45 porciones de tiempo.
[0019] Por ende, la frecuencia de cruce fx es un parámetro ajustable que se ajusta de acuerdo con el decodificador utilizado el cual puede, por ejemplo, comprender un codificador de voz como primer decodificador 110a y un decodificador de audio como segundo decodificador 110b. Como se dijo anteriormente, la frecuencia de 50 cruce fx para un decodificador de voz (como por ejemplo basada en LPC) puede ser mayor que la frecuencia de cruce usada para un decodificador de audio (por ejemplo para música). En consecuencia, en otros ejemplos el controlador 220 está configurado para aumentar la frecuencia de cruce fx o para disminuir la frecuencia de cruce fx dentro de una de las porciones de tiempo (por ejemplo la segunda porción de tiempo) para que la frecuencia de cruce pueda ser cambiada sin cambiar el algoritmo de decodificación. Esto significa que un cambo en la frecuencia
55 de cruce puede no estar relacionado con un cambio en el decodificador utilizado: la frecuencia de cruce puede ser cambiada sin cambiar el decodificador utilizado o vice versa el decodificador puede ser cambiado sin cambiar la frecuencia de cruce.
[0020] El módulo BWE 130 puede también comprender un conmutador controlado por el controlador 140 y/o por el parámetro BWE 106 para que la primera señal decodificada 114a es procesada por el módulo BWE 130 durante la primera porción de tiempo y la segunda señal de decodificación 114b es procesada por el módulo BWE 130 durante la segunda porción de tiempo. Este conmutador puede ser activado por un cambio en la frecuencia de cruce fx o por un bit explícito dentro de la señal de audio codificada 102 indicando el algoritmo de codificación
5 utilizado durante la respectiva porción de tiempo.
[0021] En otros ejemplos el conmutador está configurado para conmutar entre la primera y segunda porción de tiempo desde el primer decodificador al segundo decodificador para que el algoritmo de ampliación de ancho de banda se aplique a la primera señal decodificada o a la segunda señal decodificada. De manera alternativa, el
10 algoritmo de ampliación de ancho de banda se aplica a la primera y/o segunda señal decodificada y el conmutador de ubica después de esto para que caiga una de las señales extendidas de ancho de banda.
[0022] La Fig. 2 muestra un diagrama de bloque para un aparato 200 codificador de una señal de audio 105. El aparato codificador 200 comprende un primer codificador 210a, un segundo codificador 210b, una etapa de decisión 15 220 y un módulo de ampliación de ancho de banda (módulo BWE) 230. El primer codificador 210a es operativo para codificar de acuerdo con un primer algoritmo de codificación con un primer ancho de banda de frecuencia. El segundo codificador 210b es operativo para codificar de acuerdo con un segundo algoritmo de codificación con un segundo ancho de banda de frecuencia menor al primer ancho de banda de frecuencia. El primer codificador es un codificador de voz como el codificador basado en LPC, mientras que el segundo codificador 210b comprende un 20 codificador de audio (música). La etapa de decisión 220 está configurada para indicar el primer algoritmo de codificación para la primera porción 204a de la señal de audio 105 y para indicar el segundo algoritmo de codificación para una segunda porción 204b de la señal de audio 105, donde la segunda porción de tiempo es diferente de la primera porción de tiempo. La primera porción 204a corresponde a la primera porción de tiempo y la segunda porción 204b corresponde a la segunda porción de tiempo la cual es diferente de la primera porción de
25 tiempo.
[0023] El módulo BWE 230 está configurado para calcular los parámetros BWE 106 para la señal de audio 105 y está configurado para ser controlado por la etapa de decisión 220 para calcular el parámetro BWE 106 para una primera banda que no incluye el primer ancho de banda de frecuencia en la primera porción de tiempo 204a de la 30 señal de audio 105. El módulo BWE 230 está además configurado para calcular el parámetro BWE 106 para una segunda banda que no incluye el segundo ancho de banda en la segunda porción de tiempo 204b de la señal de audio 105. La primera (segunda) banda comprende por lo tanto componentes de frecuencia de la señal de audio 105 que están fuera del primer (segundo) ancho de banda de frecuencia y están limitados hacia el extremo inferior del espectro por la frecuencia de cruce fx. El primer o el segundo ancho de banda por lo tanto está definido por una
35 frecuencia de cruce variable controlada por la etapa de decisión 220.
[0024] Además, el módulo BWE 230 puede comprender un conmutador controlado por la etapa de decisión 220. La etapa de decisión 220 puede determinar un algoritmo de codificación preferido para una porción de tiempo dada y controla el conmutador para que durante la porción de tiempo dada se utilice el codificador preferido. La 40 información del modo de codificación modificada 108’ comprende la señal de conmutación correspondiente. Además, el módulo BWE 230 puede también comprender un filtro para obtener componentes de la señal de audio 105 en la banda de frecuencia inferior/superior que están separados por la frecuencia de cruce fx que puede comprender un valor de aproximadamente 4 kHz o 5 kHz. Finalmente el módulo BWE 130 puede también comprender una herramienta de análisis para determinar el parámetro BWE 106. La información del modo de
45 codificación modificado 108’ puede ser equivalente (o igual) a la información del modo de codificación 108. La información del modo de codificación 108 indica, por ejemplo, el algoritmo de codificación utilizado para las respectivas porciones de tiempo en la secuencia de bits de la señal de audio codificada 105.
[0025] De acuerdo con otras formas de realización, la etapa de decisión 220 comprende una herramienta de
50 clasificación de señal que analiza la señal de entrada original 105 y genera la información de control 108 que provoca la selección de los diferentes modos de codificación. El análisis de la señal de entrada 105 depende del objetivo de elegir el óptimo modo de codificación de núcleo para un cuadro de señal de entrada dado. La salida del clasificador de señal puede (opcionalmente) ser utilizada también para influenciar en el comportamiento de otras herramientas, por ejemplo, sonido envolvente MPEG, SBR ampliado, banco de filtro con intercalación en el tiempo y
55 otras. La entrada a la herramienta clasificadora de señal comprende, por ejemplo, la señal de entrada no modificada original 105, pero también parámetros que dependen de la implementación adicional en forma opcional. La salida de la herramienta clasificadora de la señal comprende la señal de control 108 para controlar la selección del codificador de núcleo (por ejemplo dominio de frecuencia no filtrada LP o tiempo filtrado LP o codificación de dominio de frecuencia o demás algoritmos de codificación).
[0026] De acuerdo con las formas de realización, la frecuencia de cruce fx es una señal ajustada dependiente combinada con la decisión de conmutación para utilizar un algoritmo de codificación diferente. Por lo tanto, una señal de conmutación simple puede ser simplemente un cambio (un salto) en la frecuencia de cruce fx. Además, la
5 información del modo de codificación 108 puede también comprender el cambio de frecuencia de cruce fx que indica al mismo tiempo un esquema de codificación preferido (por ejemplo voz/audio/música).
[0027] De acuerdo con otras formas de realización la etapa de decisión 220 es operativa para analizar la señal de audio 105 o una primera salida del primer codificador 210a o una segunda salida del segundo codificador 210b o 10 una señal obtenida por la decodificación de una señal de salida del codificador 210a o el segundo codificador 210b con respecto a la función de destino. La etapa de decisión 220 puede opcionalmente ser operativa para realizar una discriminación de voz/música de modo tal que una decisión de voz es favorecida con respecto a la decisión de música para que se tome la decisión de voz, por ejemplo, aún cuando una porción menor al 50% de un cuadro para el primer conmutador es de voz y una porción mayor al 50% del cuadro para el primer conmutador es de música. Por
15 lo tanto, la etapa de decisión 220 puede comprender una herramienta de análisis que analiza la señal de audio para decidir si la señal de audio es principalmente una señal de voz o principalmente una señal de música para que teniendo en cuenta el resultado de la etapa de decisión pueda decidir cual es el mejor codificador a utilizar para la porción de tiempo analizada de la señal de audio.
20 [0028] Las Figs. 1 y 2 no muestran muchos de estos detalles para el codificador/decodificador. Algunos posibles ejemplos detallados para el codificador/decodificador se muestran en las siguientes figuras. Además, con respecto al primer y segundo decodificador 110a, b de la Fig. 1 otros decodificadores pueden estar presentes los que pueden
o no utilizar por ejemplo otros algoritmos de codificación. Del mismo modo, también el codificador 200 de la Fig. 2
puede comprender codificadores adicionales que pueden utilizar algoritmos de codificación adicionales. En el 25 siguiente ejemplo con dos codificadores/decodificadores serán explicados con mayor detalle.
[0029] La Fig. 3 ilustra con mayor detalle un codificador con dos conmutadores en cascada. Una señal mono, una señal estéreo o señal multi-canal es ingresada e la etapa de decisión 220 y en un conmutador 232 que forma parte del módulo BWE 230 de la Fig. 2. El conmutador 232 es controlado por la etapa de decisión 220. De manera
30 alternativa, la etapa de decisión 220 puede también recibir una información lateral incluida en la señal mono, la señal estéreo o la señal multi-canal o es al menos asociada con dicha señal, donde la información es existente, la cual fue, por ejemplo, generada al producir originalmente la señal mono, la señal estéreo o la señal multi-canal.
[0030] La etapa de decisión 220 activa el conmutador con el fin de suministrar una señal en una porción de
35 codificación de frecuencia 210b ilustrada en una ramificación superior de la Fig. 3 o una porción de codificación de dominio LPC-210a ilustrada en una ramificación inferior en la Fig. 3. Un elemento clave de la ramificación de codificación de dominio de frecuencia consiste en un bloque de conversión espectral 410 el cual es operativo para convertir una señal de salida de etapa de pre-procesamiento común (como se analiza más adelante) en un dominio espectral. El bloque de conversión espectral puede incluir un algoritmo MDCT, un algoritmo QMF, un algoritmo FFT,
40 un análisis Wavelet o un banco de filtro como un banco de filtro tomado por muestreo en forma crítica con una cierta cantidad de canales de banco de filtro, donde las señales de sub-bandas en este banco de filtro pueden ser señales de valor real o valor complejo. La salida del bloque de conversión espectral 410 se codifica utilizando un codificador de audio espectral 421, el cual puede incluir bloques de procesamiento como se conocen del esquema de codificación AAC.
45 [0031] Por lo general, el procesamiento en la ramificación 210b es un procesamiento en un modelo basado en la percepción o modelo de información de sumidero. De esa manera, esta ramificación modela el sonido de sumidero del sistema auditivo humano. En contraposición, el procesamiento en la ramificación 210a debe generar una señal en el dominio de excitación, residual o LPC. Por lo general, el procesamiento en la ramificación 210a es un
50 procesamiento de un modelo de voz o modelo generador de información. Para señales de voz, este modelo es un modelo de voz humana/sistema generador del sonido. Sin embargo, si un sonido de una fuente diferente que requiera un modelo generador de sonido diferente debe ser codificado, entonces el procesamiento en la ramificación 210a puede ser diferente. Además de las ramificaciones de codificación mostradas, otras formas de realización comprenden ramificaciones adicionales o codificadores de núcleo. Por ejemplo, diferentes codificadores pueden
55 estar opcionalmente presentes para diferentes fuentes, para que el sonido de cada fuente pueda estar codificado al emplear un codificador preferido.
[0032] En la ramificación de codificación inferior 210a, un elemento clave consiste en un dispositivo LPC 510, que emite una información LPC utilizada para controlar las características de un filtro LPC. Esta información LPC se transmite a un decodificador. La señal de salida 510 de la etapa LPC es una señal de dominio LPC que consiste en una señal de excitación y/o señal ponderada.
[0033] El dispositivo LPC generalmente emite una señal de dominio LPC, la cual puede ser cualquier señal en el
5 dominio LPC u otra señal, que haya sido generada aplicando coeficientes de filtro LPC a una señal de audio. Asimismo, un dispositivo LPC puede también determinar estos coeficientes y puede además cuantizar/codificar estos coeficientes.
[0034] La decisión en la etapa de decisión 220 puede ser una señal adaptable para que la etapa de decisión
10 desarrolle una discriminación de música/ voz y controle el conmutador 232 de tal modo que las señales musicales sean ingresadas en la ramificación superior 210b, y las señales de voz sean ingresadas en la ramificación inferior 210a. En una forma de realización, la etapa de decisión 220 suministra su información de decisión en una secuencia de bits de salida para que un decodificador pueda utilizar esta información de decisión con el fin de llevar a cabo las operaciones de decodificación correctas. Esta información de decisión puede, por ejemplo, comprender la
15 información del modo de codificación 108 que también puede comprender información sobre la frecuencia de cruce fx o un cambio de la frecuencia de cruce fx.
[0035] Dicho decodificador se ilustra en la Fig. Fig. 4. La emisión de la señal por el codificador de audio espectral 421 es, luego de la transmisión, ingresada en un decodificador de audio espectral 431. La emisión de 20 señal del decodificador de audio espectral 431 es ingresada en un conversor de dominio de tiempo 440. (el conversor de tiempo-dominio puede en general ser un conversor del primer al segundo dominio). De forma análoga, la emisión de la ramificación de codificación de dominio de LPC 210a de la Fig. 3 es recibida en el lado del decodificador y procesada por los elementos 531, 533, 534, y 532 para obtener una señal de excitación LPC. La excitación de la señal LPC es ingresada en una etapa de síntesis LPC 540, que recibe, como entrada adicional, la 25 información LPC generada por la etapa de análisis LPC correspondiente 510. La salida del conversor de tiempodominio 440 y/o la salida de la etapa de síntesis LPC 540 son ingresadas en un conmutador 132 que puede ser parte del módulo BWE 130 in Fig. 1. El conmutador 132 es controlado a través de una señal de control del conmutador (como la información del modo de codificación 108 y/o parámetro BWE 106) que fue, por ejemplo, generada por la etapa de decisión 220, o que fue proporcionada en forma externa por medio de un creador de la
30 señal mono, señal estéreo o señal multi-canal original.
[0036] En la Fig. 3, la señal de entrada en el conmutador 232 y la etapa de decisión 220 puede ser una señal mono, señal estéreo o señal multi-canal o generalmente una señal de audio. Dependiendo de la decisión que puede derivar de la señal de entrada del conmutador 232 o de cualquier fuente externa como un productor de la señal de 35 audio original subyaciendo la emisión de señal en la etapa 232, el conmutador conmuta entre la ramificación de codificación de frecuencia 210b y la ramificación de codificación LPC 210a. La ramificación de codificación de frecuencia 210b comprende una etapa de conversión espectral 410 y una etapa de cuantización/codificación subsecuentemente conectada 421. La etapa de cuantización/codificación puede incluir cualquiera de las funcionalidades conocidas de los codificadores de dominio de frecuencia modernos como el codificador AAC.
40 Además, la operación de cuantización en la etapa de cuantización/codificación 421 puede ser controlada a través de un módulo psicoacústico que genera información psicoacústica como el valor umbral del enmascaramiento psicoacústico sobre la frecuencia, donde esta información es ingresada en la etapa 421.
[0037] En la ramificación de codificación LPC 210a, la señal de salida del conmutador es procesada a través de
45 la etapa de análisis LPC 510 que genera información del lado LPC y una señal de dominio LPC. El codificador de excitación inventivamente comprende un conmutador adicional para conmutar el procesamiento adicional de la señal de dominio LPC entre la operación de cuantización/codificación 522 en el dominio LPC o una etapa de cuantización/codificación 524, que procesa valores en el dominio espectral LPC. Para este fin, un conversor espectral 523 se provee en la entrada de la etapa de cuantización/codificación 524. El conmutador 521 es controlado
50 de modo de bucle abierto o modo de bucle cerrado dependiendo de las configuraciones específicas como, por ejemplo, se describen en la especificación técnica AMR-WB+. . [0038] Para el modo de control de bucle cerrado, el codificador además incluye un cuantizador/codificador inverso 531 para la señal de dominio LPC, una cuantizador/codificador inverso 533 para a señal de dominio
55 espectral LPC y un conversor espectral inverso 534 para la salida el ítem 533. Ambas señales codificadas y nuevamente decodificadas en las ramificaciones de procesamiento de la segunda ramificación de codificación son ingresadas en el dispositivo de control del conmutador 525. En el dispositivo de control del conmutador 525, estas dos señales de salida se comparan entre sí y/o con una función de destino o se calcula una función de destino la cual puede basarse en una comparación de la distorsión en ambas señales para que la señal con menor distorsión
se use para decidir, que posición debería tomar el conmutador 521. De manera alternativa, en caso de que ambas ramificaciones provean velocidades binarias no-constantes, la ramificación que provea la tasa de bits menor podría ser seleccionada aún cuando la distorsión o la distorsión percepcional de esta ramificación es menor a la distorsión o la distorsión percepcional de la otra ramificación (un ejemplo para la distorsión puede ser una relación señal-ruido). 5 De manera alternativa, la función de destino podría utilizar, como entrada, la relación señal-ruido de cada señal y una tasa de bits de cada señal y/o criterios adicionales con el fin de encontrar la mejor decisión para un objetivo específico. Si, por ejemplo, el objetivo es tal que la tasa de bits debería ser lo más baja posible, entonces la función de destino se basaría en gran medida en la tasa de bits de la emisión de las dos señales por medio de los elementos 531, 534. Sin embargo, cuando el objetivo principal es obtener la mejor calidad para una cierta tasa de bits,
10 entonces el control del conmutador 525 podría, por ejemplo, descartar cada señal que se encuentre por sobre la tasa de bits permitida cuando ambas señales se encuentran por debajo de la tasa de bits permitida, el control del conmutador seleccionaría la señal con mejor calidad subjetiva estimada o una mejor relación señal-ruido, es decir, con la menor distorsión de cuantización/codificación.
15 [0039] El esquema de codificación de acuerdo con un ejemplo, como se ha establecido previamente, se ilustra en la Fig. 4. Para cada tipo de las tres señales de salida, existe una etapa específica de decodificación/recuantización 431, 531 o 533. Mientras que la etapa 431 emite un espectro de tiempo que se convierte en dominio de tiempo utilizando el conversor frecuencia/tiempo 440, la etapa 531 emite una señal de dominio LPC, y el ítem 533 emite un espectro LPC. Con el fin de asegurarse que las señales de entrada en el conmutador 532 se encuentran
20 ambas en el dominio LPC, se proporciona el espectro LPC/conversor LPC 534. Los datos de salida del conmutador 532 se transforman nuevamente en el dominio de tiempo utilizando una etapa de síntesis LPC 540, controlada a través de información LPC generada y transmitida del lado del codificador. Luego, subsecuente al bloque 540, ambas ramificaciones poseen información de domino de tiempo conmutada de acuerdo con una señal de control de conmutación con el fin de finalmente obtener una señal de audio como por ejemplo una señal mono, señal estéreo, o
25 señal multi-canal, que depende de la entrada de señal en el esquema de codificación de la Fig. 3.
[0040] Las Figs. 5 y 6 muestran otra forma de realización para el codificador, y otro ejemplo para el decodificador, donde las etapas BWE como parte de los módulos BWE 130, 230 representan una unidad de procesamiento común.
30 [0041] La Fig. 5 ilustra un esquema de codificación, donde el esquema de preprocesamiento común conectado a la entrada del conmutador 232 puede comprender un bloque estéreo envolvente/conjunto 101 el cual genera, como salida, parámetros de estéreo conjunto y una señal de salida mono, generada al mezclar en forma descendente la señal de entrada que es una con dos o más canales. Generalmente, la señal en la salida del bloque
35 101 puede también ser una señal con más canales, pero debido a la funcionalidad de mezcla descendente del bloque 101, la cantidad de canales en la salida del bloque 101 será menor a la cantidad de canales de la entrada del bloque 101.
[0042] El esquema de preprocesamiento común puede comprender además del bloque 101 una etapa de
40 ampliación de ancho de banda 230. En la forma de realización de la Fig. 5 la salida del bloque 101 es ingresada al bloque de de ancho de banda 230 el cual emite una señal de banda limitada como la señal de banda baja o señal de paso bajo en su salida. Preferentemente, esta señal es también sometida a submuestreo (por ejemplo por un factor de dos). Los parámetros de ampliación de ancho de banda como los parámetros de envolvente espectral, parámetros de filtrado inverso, parámetros de piso de ruido etc. como se conocen del perfil HE-AAC de MPEG-4 son
45 generados y emitidos a un multiplexor de secuencia de bits 800.
[0043] Preferentemente, la etapa de decisión 220 recibe la entrada de la señal en el bloque 101 o entrada en el bloque 230 con el fin de decidir entre, por ejemplo, un modo de música o modo de voz. En el modo de música, se selecciona la ramificación de codificación superior 210b (segundo codificador en Fig. 2) 210a mientras que en el 50 modo de voz, se selecciona la ramificación de codificación inferior 101 y/o el bloque de ampliación de ancho de banda 230 para adaptar la funcionalidad de estos bloques a la señal específica. De esta manera, cuando la etapa de decisión 220 determina que cierta porción de tiempo de la señal de entrada corresponde al primer modo como el modo música, las características específicas el bloque 101 y/o bloque 230 pueden ser controladas por la etapa de decisión 220. Alternativamente, cuando la etapa de decisión 220 determina que la señal se encuentra en un modo
55 de voz o, generalmente, en un modo de segundo dominio LPC, se pueden controlar las características específicas de los bloques, 101 y 230 de acuerdo con la salida de la etapa de decisión. La etapa de decisión 220 produce además la información de control 108 y/o la frecuencia de cruce fx que también puede transmitirse al bloque BWE 230 y, además, al multiplexor de secuencia de bits 800 para que sea transmitida al lado del decodificador.
[0044] Preferentemente, la conversión espectral de la ramificación de codificación 210b se realiza utilizando una operación MDCT la cual, con mayor preferencia, consiste en la operación MDCT distorsionada en el tiempo, donde la fuerza o, generalmente, la fuerza de distorsión (warp) puede ser controlada entre cero y una alta fuerza de distorsión (warp). En una fuerza de distorsión (warp) cero, la operación MDCT en el bloque 411 es una operación MDCT sencilla conocida en la técnica. La fuerza de intercalación en el tiempo junto con la información lateral de intercalación en el tiempo puede ser transmitida/ingresada en un multiplexor de secuencia de bits 800 como información lateral.
[0045] En la ramificación de codificación LPC, el codificador de dominio LPC puede incluir un núcleo ACELP 526 que calcula una ganancia de tono, un retardo de tono y/o información del libro de información como un índice del libro de información y ganancia del código El modo TCX como se conoce de 3GPP TS 26.290 incurre en un procesamiento de una señal perceptivamente ponderada en el dominio de transformación. Una señal ponderada transformada de Fourier es cuantizada utilizando una cuantización entramada con velocidad múltiple dividida (algebraica VQ) con cuantización de factor ruido. Una transformación se calcula en 1024, 512, o ventanas de muestra 256. La señal de excitación se recupera por filtrado inverso de la señal ponderada cuantizada a través de un filtro de ponderación. El modo TCX puede también ser utilizado en forma modificada en la cual MDCT es utilizado con solapado ampliado, cuantización escalar, y un codificador aritmético para codificar líneas espectrales.
[0046] En la ramificación de codificación de “música” 210b, un conversor espectral preferentemente comprende una operación MDCT específicamente adaptada MDCT con ciertas funciones de ventana seguidas por una etapa de codificación de cuantización/entropía la cual puede consistir en una etapa de cuantización con un solo vector, pero preferentemente es un codificador combinado escalar de cuantización/entropía similar al codificador de cuantización/entropía en la ramificación de codificación en dominio de frecuencia, es decir, en el ítem 421 de la Fig.
5.
[0047] En la ramificación de codificación de “voz” 210a, existe el bloque LPC 510 seguido de un conmutador 521, nuevamente seguida por un bloque ACELP 526 o bloque TCX 527. ACELP se describe en 3GPP TS 26.190 y TCX se describe en 3GPP TS 26.290. Generalmente, el bloque ACELP 526 recibe una señal de excitación LPC calculada por un procedimiento descripto en la Fig. 7. El bloque TCX 527 recibe una señal ponderada generada por la Fig. 8.
[0048] En el lado del decodificador ilustrado en la Fig. 6, después que la transformación espectral inversa en el
−1
bloque 537, se aplica la inversa del filtro de ponderación, es decir (1−μz )1(1−A(z1γ)). Luego, la señal es filtrada a través de (1-A(z)) para dirigirse al dominio de excitación LPC. De esta manera, la conversión al bloque de dominio
−1
LPC 534 y el bloque TCX-1 537 incluyen transformación inversa y luego la filtrado a través de (1−μz)
(1−A(z))(1−A(z1γ))
para convertirse del dominio ponderado al dominio de excitación.
[0049] Aunque el ítem 510 en las Figs. 3, 5 ilustra un solo bloque, el bloque 510 puede emitir diferentes señales siempre y cuando estas señales se encuentren en el dominio LPC. El modo real del bloque 510 como el modo de señal de excitación o el modo de señal ponderada puede depender del estado real del conmutador. En forma alternativa, el bloque 510 puede tener dos dispositivos de procesamiento paralelos, donde un dispositivo es implementado de manera similar a la Fig. 7 y el otro dispositivo es implementado como la Fig. 8. Por lo tanto, el dominio LPC en la salida de 510 puede representar la señal de excitación LPC o la señal ponderada LPC, o u otra señal de dominio LPC.
[0050] En la segunda ramificación de codificación (ACELP/TCX) de la Fig. 5, la señal es preferentemente pre
1−μZ−
enfatizada a través de un filtro antes de la codificación. En el decodificador ACELP/TCX en la Fig. 6 la señal
11(1−μZ− )
sintetizada es desenfatizada con el filtro . En una forma de realización preferida, el parámetro μ posee el valor 0,68. El pre-énfasis puede ser parte del bloque LPC 510 donde la señal es pre-enfatizada antes del análisis y cuantización LPC. De manera similar, la desenfatización puede ser parte del bloque de síntesis bloque LPC-1 540.
[0051] La Fig. 6 ilustra un esquema de decodificación correspondiente al esquema de codificación de la Fig. 5. La secuencia de bits generada por un multiplexor de secuencia de bits 800 (o interfaz de salida) de la Fig. 5 es ingresada en un multiplexor de secuencia de bits 900 (o interfaz de entrada). Dependiendo de la información derivada por ejemplo de una secuencia de bits a través de un bloque de detección de modo 601 (por ejemplo parte del controlador 140 en Fig. 1), es controlado para emitir señales desde la ramificación superior o señales desde la ramificación inferior al bloque de ampliación de ancho de banda 701. El bloque de ampliación de ancho de banda 701 recibe, desde el desmultiplexor de secuencia de bits 900, información lateral y, basado en esta información lateral y la emisión de la decisión de modo 601, reconstruye la banda alta basado en la salida de banda baja por el conmutador 600. La señal de control 108 controla la frecuencia de cruce fx utilizada.
5 [0052] La señal de banda completa generada por el bloque 701 es ingresada en la etapa de procesamiento conjunta estéreo/envolvente 702, la cual reconstruye dos canales estéreo o varios multi-canales. Generalmente, el bloque 702 emitirá más canales que fueron ingresados en este bloque. Dependiendo de la aplicación, el ingreso en el bloque 702 puede aún incluir dos canales como en el modo estéreo y puede aún incluir más canales siempre que
10 la emisión por este bloque tenga más canales que el ingreso en este bloque.
[0053] Se ha observado que el conmutador 232 en la Fig. 5 conmuta entre ambas ramificaciones para que sólo una ramificación reciba una señal para procesar y la otra ramificación no reciba una señal para procesar. En una forma de realización alternativa, sin embargo, el conmutador 232 conmutador puede también estar dispuesto en 15 forma subsecuente a por ejemplo el codificador de audio 421 y el codificador de excitación 522, 523, 524, lo que significa que ambas ramificaciones 210a, 210b procesan la misma señal en paralelo. Con el fin de no duplicar la tasa de bits, sin embargo, sólo la salida de señal por una de esas ramificaciones de codificación 210a o 210b es seleccionada para ser escrita en la secuencia de bits de salida. La etapa de decisión operará para que la señal escrita en la secuencia de bits minimice una cierta función de costo, donde la función de costo puede ser la 20 secuencia de bits generada o la distorsión perceptiva generada una función de costo combinada de velocidad/distorsión. En consecuencia, ya sea en este modo o en el modo ilustrado en las Figuras, la etapa de decisión puede también operar en el modo de bucle cerrado con el fin de asegurarse que, finalmente, sólo la salida de ramificación de codificación es escrita en la secuencia de bits al cual tiene para una distorsión perceptivo dada la tasa de bits más baja o, para una tasa de bits dada, la distorsión perceptivo más baja. En el modo de bucle cerrado,
25 la entrada de retroalimentación puede ser derivada de las emisiones de los tres bloques cuantizadores/escaladores 421, 522 y 424 en la Fig. 3.
[0054] Además en el ejemplo de la Fig. 6, el conmutador 132 puede en ejemplos alternativos estar dispuesto después del módulo BWE 701 para que la ampliación de ancho de banda se realice en paralelo para ambas
30 ramificaciones y el conmutador selecciona una de las dos señales extendidas de ancho de banda.
[0055] En la implementación con dos conmutadores, es decir, el primer conmutador 232 y el segundo conmutador 521, es preferible que la resolución de tiempo para el primer conmutador sea menor que la resolución de tiempo para el segundo conmutador. Expresado de manera diferente, los bloques de la señal de entrada en el
35 primer conmutador, que pueden ser conmutados a través de una operación del conmutador son mayores que los bloques conmutados por el segundo conmutador 521 operando en el dominio LPC. Por ejemplo, el conmutador del dominio de frecuencia/dominio LPC 232 puede conmutar bloques de una longitud de 1024 muestras, y el segundo conmutador 521 puede conmutar bloques con 256 muestras cada uno.
40 [0056] La Fig. 7 ilustra una implementación más detallada del bloque de análisis de LPC 510. La señal de audio es ingresada en un bloque de determinación de filtro que determina la información del filtro A(z). Esta información es emitida como información de predicción a corto plazo necesaria para un decodificador. La información de predicción a corto plazo es requerida por el filtro de predicción real 85. En un subtractor 86, una muestra corriente de la señal de audio es ingresada y un valor predecible para la muestra corriente es sustraído para que para esta muestra, la
45 señal de error de predicción es generada en la línea 84.
[0057] Mientras que la Fig. 7 ilustra un modo preferido para calcular la señal de excitación, la Fig. 7f ilustra un modo preferido de calcular la señal ponderada. En contraposición a la Fig. 7e, el filtro 85 es diferente, cuando D es diferente de 1. Un valor menor a 1 se prefiere para D. Asimismo, el bloque 87 está presente, y D es preferible un 50 número menor a 1. Generalmente, los elementos en la Fig. 7e y 7f pueden implementarse como en 3GPP TS 26,190
o 3GPP TS 26,290.
[0058] En forma subsecuente, un codificador CELP de análisis por síntesis será analizado en relación con la Fig. 6 con el fin de ilustrar las modificaciones aplicadas a este algoritmo. Este codificador CELP se analiza en detalle en
55 “Codificación de la voz: Una Revisión Tutorial”, Andreas Spanias, Procedimientos de IEEE, Vol. 82, No. 10, Octubre 1994, páginas 1541-1582.
[0059] Para casos específicos, cuando un cuadro es una mezcla del discurso vocalizado y no vocalizado o cuando ocurre voz sobre música, una codificación TCX puede ser más apropiada para codificar la excitación en el dominio LPC. La codificación TCX procesa la señal a ponderada en el dominio de frecuencia sin presuponer producciones de excitación. TCX es más genérica que la codificación CELP y no está restringida a un modelo de fuente vocalizada o no vocalizada de la excitación. TCX es aún una codificación con modelo filtro-fuente que utiliza un filtro de predicción lineal para modelar los formantes de las señales del tipo voz.
5 [0060] En la codificación tipo AMR-WB+-, se lleva a cabo una selección entre los diferentes modos TCX y ACELP como se conoce de la describió AMR-WB+. Los modos TCX so diferentes ya que la longitud de la Transformada Discreta de Fourier en sentido del bloque es diferente para diferentes modos y el mejor modo puede seleccionarse mediante un enfoque de análisis por síntesis o modo de “prealimentación” directa.
10 [0061] Como se analizó en relación a las Fig. 5 y 6, la etapa de pre-procesamiento común 100 preferentemente incluye un dispositivo multi-canal conjunto (envolvente/estéreo conjunto) 101 y, además, una etapa de ampliación de ancho de banda 230. De manera correspondiente, el decodificador incluye una etapa de ampliación de ancho de banda 701y una etapa de multicanal conjunto subsecuentemente conectada 702. Preferentemente, la etapa de
15 multicanal conjunto 101 está, con respecto al codificador, conectada antes de la etapa de ampliación de ancho de banda 230, y, del lado del decodificador, la etapa de ampliación de ancho de banda 701 está conectada antes de la etapa de multicanal conjunto 702 con respecto a la dirección de procesamiento de señal. De manera alternativa, sin embargo, la etapa de pre-procesamiento común puede incluir una etapa de multicanal conjunto sin la ampliación de ancho de banda subsecuentemente conectada o etapa de ampliación de ancho de banda sin una etapa de
20 multicanal conjunto conectada.
[0062] Las Figs. 9a a 9b muestran una vista simplificada en el codificador de la Fig. 5, donde el codificador comprende la unidad de decisión de conmutación 220 y la unidad de codificación estéreo 101. Además, el codificador también comprende herramientas de ampliación de ancho de banda 230 como, por ejemplo, un
25 calculador de datos envolventes y módulos relacionados con SBR. La unidad de decisión de conmutación 220 provee una señal de decisión de conmutación 108’ que conmuta entre el codificador de audio 210b y el codificador de voz 210a. El codificador de voz 210a puede además dividirse en un codificador vocalizado y uno no vocalizado. Cada codificador puede codificar la señal de audio en la banda de frecuencia del núcleo utilizando diferentes números de valores de muestra (por ejemplo, 1024 para una resolución mayor o 256 para una resolución menor).
30 La señal de decisión de conmutación 108’ es también suministrada a la herramienta de la ampliación de ancho de banda (BWE) 230. La herramienta BWE 230 utilizará la decisión de comulación 108’ con el fin de, por ejemplo, ajustar el número de envolventes espectrales 104 y para encender/apagar un detector de tasa de bits opcional y ajustar la frecuencia de cruce fx. La señal de audio 105 es ingresada a la unidad de decisión de comulación 220 y es ingresada en la codificación estéreo 101 para que la codificación estéreo 101 pueda producir los valores de muestra
35 ingresados en la unidad de ampliación de ancho de banda 230. Dependiendo de la decisión 108’ generada por unidad de decisión de unidad de conmutación 220, la herramienta de ampliación de ancho de banda 230 generará los datos de replicación de banda espectral los cuales, a su vez, son enviados al codificador de audio 210b o al codificador de voz 210a.
40 [0063] La señal de decisión de conmutación 108’ depende de una señal y puede obtenerse de la unidad de decisión de conmutación 220 analizando la señal de audio, por ejemplo, utilizando un detector de tasa de bits u otros detectores que pueden o no comprender un valor umbral variable. De manera alternativa, la señal de decisión de conmutación 108’ puede ajustare en forma manual (por ejemplo por un usuario) u obtenerse de una secuencia de datos (incluida en la señal de audio).
45 [0064] La salida del codificador de audio 210b y el codificador de voz 210a puede nuevamente ser ingresada en el formateador se secuencia de bits 800 (ver Fig. 5).
[0065] La Fig. 9b muestra un ejemplo para la señal de decisión de conmutación 108’ que detecta una señal de
50 audio para un período de tiempo antes de un primer tiempo ta después de un segundo tiempo tb. Entre el primer tiempo ta y el segundo tiempo tb, la unidad de decisión de conmutación 220 detecta una señal de voz que da por resultado diferentes valores discretos para la señal de decisión de conmutación 108’.
[0066] La decisión que utiliza una frecuencia de cruce fx mayor es controlada por la unidad de decisión de
55 conmutación 220. Esto significa que el método descripto es además utilizable dentro de un sistema donde el módulo SBR se combina con un codificador con un solo núcleo y frecuencia de cruce fx variable.
[0067] Aunque algunas de las Figs. 1 a 9 se ilustran como diagramas de bloque de un aparato, estas figuras simultáneamente son una ilustración de un método, donde las funcionalidades del bloque corresponden a los pasos del método.
[0068] La Fig. 10 ilustra una representación para una señal de audio codificada 102 que comprende una primera porción 104a, la segunda porción 104b, una tercera porción 104c y una cuarta porción 104d. En esta representación
5 la señal de audio codificada 102 es una secuencia de bits transmitida por un canal de transmisión que comprende además la información del modo de codificación 108. Cada porción 104 de la señal de audio codificada 102 puede representar una diferente porción de tiempo, aunque diferentes porciones 104 pueden estar en el dominio de frecuencia como en el domino de tiempo para que la señal de audio codificada 102 no pueda representar una línea de tiempo.
10 [0069] En este ejemplo la señal de audio codificada 102 comprende además una primera información del modo de codificación 108a identificando el algoritmo de codificación utilizado para la primera porción 104a; una segunda información del modo de codificación 108b identificando el algoritmo de codificación utilizado para la segunda porción 104b; una tercera información del modo de codificación 108d identificando el algoritmo de codificación
15 utilizado para la cuarta porción 104d. La primera información del modo de codificación 108a puede además identificar la primera frecuencia de cruce fx1 utilizada dentro de la primera porción 104a, y la segunda información del modo de codificación 108b puede además identificar la segunda frecuencia de cruce fx2 utilizada dentro de la segunda porción 104b. Por ejemplo, dentro de la primera porción 104a el modo de codificación de “voz” puede ser utilizado dentro de la segunda porción 104b el modo de codificación de “música” puede ser utilizado para que la
20 primera frecuencia de cruce fx1 pueda ser mayor a la segunda frecuencia de cruce fx2.
[0070] En este ejemplo la señal de audio codificada 102 no comprende información del modo de codificación para al tercera porción 104c que indica que no hay cambio en el codificador y/o frecuencia de cruce fx utilizados entre la primera y la tercera porción 104a, c. Por lo tanto, la información del modo de codificación 108 puede
25 aparecer como encabezado sólo para las porciones 104 que utilizan un codificador de núcleo y/o frecuencia de cruce diferentes comparados con la porción precedente. En otros ejemplos en vez de señalizar los valores de las frecuencias de cruce para las diferentes porciones 104, la información del modo de codificación 108 puede comprender un sólo bit que indica el codificador de núcleo (primer o segundo codificador 210a,b) utilizado para la respectiva porción 104.
30 [0071] Por lo tanto, la señalización del comportamiento del conmutador entre las diferentes herramientas SBR puede realizarse presentando, por ejemplo, como bit específico dentro de la secuencia de bits, para que este bit específico pueda encender o apagar un comportamiento específico en el decodificador. En forma alternativa, en sistemas con dos codificadores de núcleo de acuerdo con ejemplos la señalización del conmutador puede también
35 iniciarse analizando el codificador del núcleo. En este caso la presentación de la adaptación de las herramientas SBR se realiza en forma implícita, lo que significa que se determina por la actividad del codificador de núcleo correspondiente.
[0072] Más detalles de la descripción estándar de los elementos de secuencia de bits para la carga útil de SBR
40 puede encontrarse en ISO/IEC 14496-3, sub-cláusula 4.5.2.8. Una modificación de esta secuencia de bits estándar comprende una ampliación del índice a la tabla de frecuencia maestra (para identificar la frecuencia de cruce utilizada). El índice usado es codificado, por ejemplo, con cuatro bits que permiten la banda de cruce variable sobre un rango de 0 a 15 bandas.
45 [0073] Las formas de realización de la presente invención pueden entonces ser sintetizadas de la siguiente manera. Las diferentes señales con diferentes características de tiempo/frecuencia poseen diferentes demandas en la característica en la ampliación de ancho de banda. Las señales de tasa de bits (por ejemplo dentro de la señal de voz) necesitan una resolución temporal fina de BWE y la frecuencia de cruce fx (el borde de frecuencia superior del codificador de núcleo) debería ser lo más alto posible (por ejemplo 4 kHz o 5 kHz o 6 kHz). Especialmente en
50 discursos vocalizados, una estructura temporal distorsionada puede disminuir la calidad percibida. Las señales tonales necesitan una reproducción estable de los componentes espectrales y un patrón armónico combinado de las porciones de frecuencia alta reproducidas. La reproducción estable de las partes tonales limita el ancho de banda del codificador de núcleo pero no necesita un BWE con resolución temporal fina sino resolución espectral más fina. En un diseño de codificador de núcleo de voz/audio conmutado, es posible usar la decisión del codificador
55 de núcleo también para adaptar las características temporales y espectrales de BWE así como adaptar la frecuencia de inicio BWE (frecuencia de cruce) a las características de la señal. En consecuencia, las formas de realización proveen una ampliación de ancho de banda donde la decisión del codificador de núcleo actúa como criterio de adaptación a las características de ampliación de ancho de banda.
[0074] La señalización de la frecuencia de inicio BWE cambiada (cruce) puede realizarse en forma explícita enviando información adicional (como, por ejemplo, la información del modo de codificación 108) en la secuencia de bits implícitamente derivando la frecuencia de cruce fx directamente desde el codificador de núcleo usado (en caso que el codificador de núcleo esté, por ejemplo señalizado dentro de la secuencia de bits). Por ejemplo, una
5 frecuencia BWE fx menor para el codificador de transformación (por ejemplo codificador de audio/música) y una mayor para un codificador en domino de tiempo (voz). En este caso, la frecuencia de cruce puede estar en el rango de 0 Hz a frecuencia Nyquist.
[0075] Aunque se han descriptos algunos aspectos en el contexto de un aparato, es claro que estos aspectos
10 también representan una descripción del método correspondiente, donde un bloque o dispositivo corresponde a un paso del método o rasgo de un paso del método. En forma análoga, los aspectos descriptos en el contexto de un paso del método también representan una descripción de un bloque o ítem correspondiente o rasgo de un aparato correspondiente.
15 [0076] La señal de audio codificada ejemplar puede almacenarse en un medio de almacenamiento digital o transmitida en un medio de transmisión como un medio de transmisión inalámbrico o por cable como Internet. Dependiendo de ciertos requisitos de implementación, las formas de realización de la invención pueden implementarse en hardware o software. La implementación puede realizarse utilizando un medio de almacenamiento digital por ejemplo un disquete, DVD, CD, memoria ROM, PROM, EPROM, EEPROM o FLASH,
20 con señales de control capaces de ser leídas en forma electrónica almacenados en ellos, que cooperan (o son capaces de cooperar) con un sistema de computación programable tal que se lleve a cabo el método respectivo.
[0077] Algunos ejemplos comprenden un portador de datos con señales de control capaces de ser leídas en forma electrónica, capaces de cooperar con un sistema de computación programable tal que se lleve a cabo uno de
25 los métodos descriptos.
[0078] Generalmente, las formas de realización de la presente invención pueden implementarse como un producto de programa de computación con un código de programa, el código de programa es operativo para desarrollar uno de los métodos cuando el producto de programa de computación es utilizado en una computadora.
30 El código de programa puede por ejemplo ser almacenado en un portador capaz de ser leído por una máquina.
[0079] Otras formas de realización comprenden el programa de computación para desarrollar uno de los métodos descriptos en la presente, almacenado en un portador capaz de ser leído por una máquina.
35 [0080] En otras palabras, una forma de realización del método de invención consiste, por lo tanto, en un programa de computación con un código de programa para desarrollar uno de los métodos descriptos en la presente, cuando el programa de computación es utilizado en una computadora.
[0081] Otro ejemplo consiste, por lo tanto, en un portador de datos (o medio almacenador digital, o medio capaz
40 de ser leído por una computadora) que comprende, el programa de computación grabado en los mismos, para desarrollar uno de los métodos descriptos en la presente.
[0082] Otro ejemplo consiste, por lo tanto, en una secuencia de datos o secuencia de señales que representan el programa de computación para desarrollar uno de los métodos descriptos en la presente. La secuencia de datos o
45 secuencia de señales puede por ejemplo ser configurada para ser transferida a través de una conexión de comunicación de datos, por ejemplo por Internet.
[0083] Otra forma de realización comprende un medio de procesamiento, por ejemplo una computadora, o un dispositivo lógico programable, configurado o adaptado para desarrollar uno de los métodos descriptos en la
50 presente.
[0084] Otra forma de realización comprende una computadora con programa de computación instalado en la misma, para desarrollar uno de los métodos descriptos en la presente.
55 [0085] En algunas formas de realización, un dispositivo lógico programable (por ejemplo una matriz de puertas programables por campo) puede utilizarse para desarrollar una de las funcionalidades de los métodos descriptos en la presente. En algunas formas de realización, una matriz de puertas programables por campo puede cooperar con un microprocesador con el fin de desarrollar uno de los métodos descriptos en la presente. Generalmente, los métodos son preferentemente desarrollados por cualquier aparato de hardware.
[0086] Las formas de realización descriptas anteriormente son meramente ilustrativas para los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descriptos en la presente resultarán evidentes para los expertos en la técnica. Por lo tanto, se intenta limitar sólo por el alcance de las reivindicaciones de la patente inminentes y no por los detalle específicos presentados a modo de descripción y explicación de las formas de realización de la presente.

Claims (2)

  1. REIVINDICACIONES
    1.
    Un aparato para codificar (200) una señal de audio (105) que comprende:
    5
    un primer codificador (210a) configurado para codificar de acuerdo con un primer algoritmo de
    codificación, el primer algoritmo de codificación posee un primer ancho de banda de frecuencia, en el que
    el primer codificador (210a) es un codificador de voz;
    10
    un segundo codificador (210b) configurado para codificar de acuerdo con un segundo algoritmo de
    codificación, el segundo algoritmo de codificación posee un ancho de banda de frecuencia menor que el
    primer ancho de banda de frecuencia, en el que el segundo codificador (210b) comprende un codificador
    de música;
    15
    una etapa de decisión (220) para indicar el primer algoritmo de codificación para una primera porción de
    tiempo (204a) de la señal de audio (105) y para indicar el segundo algoritmo de codificación para una
    segunda porción de tiempo (204b) de la señal de audio (105), siendo la segunda porción de tiempo
    (204b) diferente a la primera porción de tiempo (204a); y
    20
    un módulo de ampliación de ancho de banda (230) para calcular parámetros de ampliación de ancho de
    banda (106) para la señal de audio (105), en el que el módulo de ampliación de ancho de banda (230)
    está configurado para ser controlado por la etapa de decisión (220) para calcular los parámetros de
    ampliación de ancho de banda (106) para una primera banda que no incluye el primer ancho de banda de
    frecuencia en la primera porción de tiempo (204a) de la señal de audio (105) y para una segunda banda
    25
    que no incluye el segundo ancho de banda de frecuencia en la segunda porción (204b) de la señal de
    audio (105), en el que el primer ancho de banda de frecuencia o el segundo ancho de banda de
    frecuencia está definido por una frecuencia de cruce (fx) variable controlada por la etapa de decisión
    (220),
    30
    en el que la primera banda comprende componentes de frecuencia de la señal de audio (105) que están
    fuera del primer ancho de banda de frecuencia y están limitados hacia el extremo inferior del espectro por
    la frecuencia de cruce,
    en el que la segunda banda comprende componentes de frecuencia de la señal de audio (105) que están
    35
    fuera del segundo ancho de banda de frecuencia y están limitados hacia el extremo inferior del espectro
    por la frecuencia de cruce, y en el que la frecuencia de cruce para la primera banda es mayor que la
    frecuencia de cruce de la segunda banda.
    40
    2. Un método para codificar una señal de audio (105) que comprende:
    la codificación de acuerdo con un primer algoritmo de codificación, el primer algoritmo de codificación
    posee un primer ancho de banda de frecuencia, en el que la etapa de codificación de acuerdo con un
    primer algoritmo de codificación usa un codificador de voz;
    45
    la codificación de acuerdo con un segundo algoritmo de codificación, el segundo algoritmo de
    codificación posee un segundo ancho de banda de frecuencia menor al primer ancho de banda de
    frecuencia, en el que la etapa de codificación de acuerdo con un segundo algoritmo de codificación
    comprende el uso de un codificador de música;
    50
    la indicación, mediante una etapa de decisión (220), del primer algoritmo de codificación para una
    primera porción de tiempo (204a) de la señal de audio (105) y el segundo algoritmo de codificación para
    una segunda porción de tiempo (204b) de la señal de audio (105), siendo la segunda porción de tiempo
    (204b) diferente de la primera porción de tiempo (204a); y
    55
    el cálculo de parámetros de ampliación de ancho de banda (106) para la señal de audio (105) de modo
    tal que los parámetros de ampliación de ancho de banda (106) se calculan para una banda que no
    incluye el primer ancho de banda de frecuencia en la primera porción de tiempo (204a) de la señal de
    audio (105) y para una banda que no incluye el segundo ancho de banda de frecuencia en la segunda
    porción de tiempo (204b) de la señal de audio (105),
    en el que la primera banda comprende componentes de frecuencia de la señal de audio (105) que están
    5
    fuera del primer ancho de banda de frecuencia y están limitados hacia el extremo inferior del espectro por
    la frecuencia de cruce,
    en el que la segunda banda comprende componentes de frecuencia de la señal de audio (105) que están
    fuera del segundo ancho de banda de frecuencia y están limitados hacia el extremo inferior del espectro
    10
    por la frecuencia de cruce, en el que el primer ancho de banda de frecuencia o el segundo ancho de
    banda de frecuencia está definido por una frecuencia de cruce variable (fx) controlada por la etapa de
    decisión (220), y en el que la frecuencia de cruce para la primera banda es mayor que la frecuencia de
    cruce de la segunda banda.
    15
  2. 3.
    Un programa de computación adaptado para desarrollar, al ser utilizado en una computadora, el método de la
    reivindicación 2.
ES11162255.1T 2008-07-11 2009-06-23 Un aparato y un método para decodificar una señal de audio codificada Active ES2439549T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US7984108P 2008-07-11 2008-07-11
US79841P 2008-07-11
US10382008P 2008-10-08 2008-10-08
US103820P 2008-10-08

Publications (1)

Publication Number Publication Date
ES2439549T3 true ES2439549T3 (es) 2014-01-23

Family

ID=40886797

Family Applications (2)

Application Number Title Priority Date Filing Date
ES09776810T Active ES2396927T3 (es) 2008-07-11 2009-06-23 Aparato y procedimiento para decodificar una señal de audio codificada
ES11162255.1T Active ES2439549T3 (es) 2008-07-11 2009-06-23 Un aparato y un método para decodificar una señal de audio codificada

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES09776810T Active ES2396927T3 (es) 2008-07-11 2009-06-23 Aparato y procedimiento para decodificar una señal de audio codificada

Country Status (19)

Country Link
US (1) US8275626B2 (es)
EP (2) EP2352147B9 (es)
JP (1) JP5325293B2 (es)
KR (1) KR101224560B1 (es)
CN (1) CN102089814B (es)
AR (1) AR072481A1 (es)
AU (1) AU2009267531B2 (es)
BR (1) BRPI0910511B1 (es)
CA (1) CA2730232C (es)
CO (1) CO6341674A2 (es)
ES (2) ES2396927T3 (es)
HK (2) HK1154432A1 (es)
IL (1) IL210414A (es)
MX (1) MX2011000370A (es)
PL (2) PL2352147T3 (es)
RU (1) RU2483366C2 (es)
TW (1) TWI435316B (es)
WO (1) WO2010003545A1 (es)
ZA (1) ZA201100087B (es)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101403340B1 (ko) * 2007-08-02 2014-06-09 삼성전자주식회사 변환 부호화 방법 및 장치
EP2198426A4 (en) * 2007-10-15 2012-01-18 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING A SIGNAL
ATE500588T1 (de) * 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
MY152252A (en) * 2008-07-11 2014-09-15 Fraunhofer Ges Forschung Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US8442837B2 (en) * 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core
BR122021003688B1 (pt) 2010-08-12 2021-08-24 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Reamostrar sinais de saída de codecs de áudio com base em qmf
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
CN102610231B (zh) * 2011-01-24 2013-10-09 华为技术有限公司 一种带宽扩展方法及装置
CN107516532B (zh) 2011-03-18 2020-11-06 弗劳恩霍夫应用研究促进协会 音频内容的编码和解码方法以及介质
KR101704482B1 (ko) * 2012-03-29 2017-02-09 텔레폰악티에볼라겟엘엠에릭슨(펍) 고조파 오디오 시그널의 대역폭 연장
GB201210373D0 (en) * 2012-06-12 2012-07-25 Meridian Audio Ltd Doubly compatible lossless audio sandwidth extension
EP2688066A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
CN104781877A (zh) * 2012-10-31 2015-07-15 株式会社索思未来 音频信号编码装置以及音频信号解码装置
MX345622B (es) * 2013-01-29 2017-02-08 Fraunhofer Ges Forschung Decodificador para generar una señal de audio mejorada en frecuencia, método de decodificación, codificador para generar una señal codificada y metodo de codificación utilizando informacion secundaria de selección compacta.
WO2014118179A1 (en) * 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, systems, methods and computer programs using an increased temporal resolution in temporal proximity of onsets or offsets of fricatives or affricates
ES2626809T3 (es) 2013-01-29 2017-07-26 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Concepto para compensación de conmutación del modo de codificación
PL3054446T3 (pl) 2013-01-29 2024-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koder audio, dekoder audio, sposób dostarczania kodowanej informacji audio, sposób dostarczania zdekodowanej informacji audio, program komputerowy i kodowana reprezentacja, stosujące adaptacyjne względem sygnału rozszerzenie szerokości pasma
CN117253498A (zh) * 2013-04-05 2023-12-19 杜比国际公司 音频信号的解码方法和解码器、介质以及编码方法
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
US20160064004A1 (en) * 2013-04-15 2016-03-03 Nokia Technologies Oy Multiple channel audio signal encoder mode determiner
US9426569B2 (en) 2013-06-13 2016-08-23 Blackberry Limited Audio signal bandwidth to codec bandwidth analysis and response
SG10201708531PA (en) 2013-06-21 2017-12-28 Fraunhofer Ges Forschung Time Scaler, Audio Decoder, Method and a Computer Program using a Quality Control
KR101953613B1 (ko) 2013-06-21 2019-03-04 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 지터 버퍼 제어부, 오디오 디코더, 방법 및 컴퓨터 프로그램
US9666202B2 (en) 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
CN108172239B (zh) * 2013-09-26 2021-01-12 华为技术有限公司 频带扩展的方法及装置
US9620134B2 (en) * 2013-10-10 2017-04-11 Qualcomm Incorporated Gain shape estimation for improved tracking of high-band temporal characteristics
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
US9293143B2 (en) 2013-12-11 2016-03-22 Qualcomm Incorporated Bandwidth extension mode selection
US9911423B2 (en) 2014-01-13 2018-03-06 Nokia Technologies Oy Multi-channel audio signal classifier
WO2015126228A1 (ko) * 2014-02-24 2015-08-27 삼성전자 주식회사 신호 분류 방법 및 장치, 및 이를 이용한 오디오 부호화방법 및 장치
US9685164B2 (en) * 2014-03-31 2017-06-20 Qualcomm Incorporated Systems and methods of switching coding technologies at a device
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
US9685166B2 (en) 2014-07-26 2017-06-20 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
RU2632151C2 (ru) 2014-07-28 2017-10-02 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ выбора одного из первого алгоритма кодирования и второго алгоритма кодирования с использованием уменьшения гармоник
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
CN106448688B (zh) 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US10803877B2 (en) * 2015-09-04 2020-10-13 Samsung Electronics Co., Ltd. Signal processing methods and apparatuses for enhancing sound quality
EP3208800A1 (en) * 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
MX371223B (es) * 2016-02-17 2020-01-09 Fraunhofer Ges Forschung Post-procesador, pre-procesador, codificador de audio, decodificador de audio y metodos relacionados para mejorar el procesamiento de transitorios.
US10157621B2 (en) * 2016-03-18 2018-12-18 Qualcomm Incorporated Audio signal decoding
GB201620317D0 (en) * 2016-11-30 2017-01-11 Microsoft Technology Licensing Llc Audio signal processing
US10734001B2 (en) * 2017-10-05 2020-08-04 Qualcomm Incorporated Encoding or decoding of audio signals
US10733318B2 (en) * 2017-11-21 2020-08-04 International Business Machines Corporation Processing analytical queries over encrypted data using dynamical decryption
KR102570480B1 (ko) * 2019-01-04 2023-08-25 삼성전자주식회사 오디오 신호 처리 방법 및 이를 지원하는 전자 장치
JP7092047B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 符号化復号方法、復号方法、これらの装置及びプログラム
CN111554312A (zh) * 2020-05-15 2020-08-18 西安万像电子科技有限公司 控制音频编码类型的方法、装置和系统

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6618701B2 (en) 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6978236B1 (en) 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
DE60202881T2 (de) * 2001-11-29 2006-01-19 Coding Technologies Ab Wiederherstellung von hochfrequenzkomponenten
CN1703736A (zh) * 2002-10-11 2005-11-30 诺基亚有限公司 用于源控制可变比特率宽带语音编码的方法和装置
JP4048956B2 (ja) * 2003-01-20 2008-02-20 ティアック株式会社 光ディスク装置
SE0301901L (sv) 2003-06-26 2004-12-27 Abb Research Ltd Metod för att diagnostisera utrustningsstatus
EP1672618B1 (en) 2003-10-07 2010-12-15 Panasonic Corporation Method for deciding time boundary for encoding spectrum envelope and frequency resolution
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
CN100511308C (zh) 2004-06-28 2009-07-08 Abb研究有限公司 用于抑制冗余报警的系统和方法
US8036394B1 (en) * 2005-02-28 2011-10-11 Texas Instruments Incorporated Audio bandwidth expansion
KR100803205B1 (ko) * 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
BRPI0616624A2 (pt) * 2005-09-30 2011-06-28 Matsushita Electric Ind Co Ltd aparelho de codificação de fala e método de codificação de fala
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
CN101385079B (zh) * 2006-02-14 2012-08-29 法国电信公司 在音频编码/解码中用于知觉加权的设备
EP1852849A1 (en) * 2006-05-05 2007-11-07 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
DE602006013359D1 (de) * 2006-09-13 2010-05-12 Ericsson Telefon Ab L M Ender und empfänger
US8417532B2 (en) * 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
WO2008151408A1 (en) * 2007-06-14 2008-12-18 Voiceage Corporation Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711
EP2198426A4 (en) * 2007-10-15 2012-01-18 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING A SIGNAL
KR101373004B1 (ko) * 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
WO2009081315A1 (en) * 2007-12-18 2009-07-02 Koninklijke Philips Electronics N.V. Encoding and decoding audio or speech
ATE500588T1 (de) * 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
CA2716817C (en) * 2008-03-03 2014-04-22 Lg Electronics Inc. Method and apparatus for processing audio signal
JP5108960B2 (ja) * 2008-03-04 2012-12-26 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing

Also Published As

Publication number Publication date
CA2730232A1 (en) 2010-01-17
KR101224560B1 (ko) 2013-01-22
ZA201100087B (en) 2011-10-26
JP2011527449A (ja) 2011-10-27
MX2011000370A (es) 2011-03-15
RU2483366C2 (ru) 2013-05-27
JP5325293B2 (ja) 2013-10-23
AU2009267531B2 (en) 2013-01-10
AR072481A1 (es) 2010-09-01
EP2352147A2 (en) 2011-08-03
EP2352147B9 (en) 2014-04-23
CA2730232C (en) 2015-12-01
IL210414A (en) 2014-04-30
AU2009267531A1 (en) 2010-01-14
CN102089814B (zh) 2012-11-21
HK1154432A1 (en) 2012-04-20
TW201009808A (en) 2010-03-01
PL2304723T3 (pl) 2013-03-29
EP2352147A3 (en) 2012-05-30
WO2010003545A1 (en) 2010-01-14
TWI435316B (zh) 2014-04-21
US8275626B2 (en) 2012-09-25
CN102089814A (zh) 2011-06-08
RU2011104000A (ru) 2012-08-20
BRPI0910511A2 (pt) 2020-08-18
CO6341674A2 (es) 2011-11-21
EP2304723B1 (en) 2012-10-24
HK1156433A1 (en) 2012-06-08
US20110202353A1 (en) 2011-08-18
ES2396927T3 (es) 2013-03-01
PL2352147T3 (pl) 2014-02-28
IL210414A0 (en) 2011-03-31
EP2352147B1 (en) 2013-09-04
EP2304723A1 (en) 2011-04-06
KR20110040828A (ko) 2011-04-20
BRPI0910511B1 (pt) 2021-06-01

Similar Documents

Publication Publication Date Title
ES2439549T3 (es) Un aparato y un método para decodificar una señal de audio codificada
ES2592416T3 (es) Esquema de codificación/decodificación de audio que tiene una derivación conmutable
US10621996B2 (en) Low bitrate audio encoding/decoding scheme having cascaded switches
ES2951090T3 (es) Codificador de audio para la codificación de una señal de múltiples canales y decodificador de audio para la decodificación de una señal de audio codificada
ES2380307T3 (es) Esquema de codificación/decodificación de audio de tasa de transmisión de bits baja con preprocesamiento común.
BR122023025649A2 (pt) Codificador e decodificador de áudio utilizando um processador de domínio de frequência, um processador de domínio de tempo e um processador cruzado para inicialização contínua