ES2644967T3 - Extensión adaptativa del ancho de banda y aparato para la misma - Google Patents

Extensión adaptativa del ancho de banda y aparato para la misma Download PDF

Info

Publication number
ES2644967T3
ES2644967T3 ES14844454.0T ES14844454T ES2644967T3 ES 2644967 T3 ES2644967 T3 ES 2644967T3 ES 14844454 T ES14844454 T ES 14844454T ES 2644967 T3 ES2644967 T3 ES 2644967T3
Authority
ES
Spain
Prior art keywords
band
subband
low
audio
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14844454.0T
Other languages
English (en)
Inventor
Yang Gao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Application granted granted Critical
Publication of ES2644967T3 publication Critical patent/ES2644967T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un método para descodificar una corriente de bits de audio codificada y generar una extensión del ancho de banda de frecuencia en un descodificador, comprendiendo el método: descodificar (1001, 1210) la corriente de bits de audio para producir una señal de audio descodificada de banda baja y generar un espectro de excitación de banda baja correspondiente a una banda de baja frecuencia; seleccionar (1003, 1220) una zona de subbanda del interior de la banda de baja frecuencia usando un parámetro que indica la información de energía de una envolvente espectral de la señal de audio descodificada de banda baja; generar (1005, 1230) un espectro de excitación de banda alta para una banda de alta frecuencia copiando un espectro de excitación de subbanda desde la zona seleccionada de subbanda hasta una zona de subbanda alta correspondiente a la banda de alta frecuencia; usar (1240) el espectro de excitación generado de banda alta para generar (1007) una señal de audio de banda alta extendida aplicando (1006) una envolvente espectral de banda alta; y añadir la señal de audio de banda alta extendida a la señal de audio descodificada de banda baja para generar una señal de salida de audio que tiene un ancho de banda de frecuencia extendido; en donde seleccionar una zona de subbanda del interior de la banda de baja frecuencia usando el parámetro que indica la información de energía de la envolvente espectral comprende identificar una subbanda en el interior de la banda baja usando parámetros que reflejan la energía más alta de la envolvente espectral, o del pico del formante espectral, y seleccionar la subbanda identificada.

Description

5
10
15
20
25
30
35
40
45
50
55
DESCRIPCION
Extension adaptativa del ancho de banda y aparato para la misma Campo tecnico
La presente invencion pertenece, en general, al campo del procesamiento del habla y, en particular, a la extension adaptativa del ancho de banda y al aparato para la misma.
Antecedentes
En sistemas de comunicacion modernos con senales digitales de audio/habla, una senal digital se comprime en un codificador; la informacion comprimida (corriente de bits) se puede paquetizar y enviar a un descodificador a traves de un canal de comunicacion, trama a trama. El sistema de codificador y descodificador, juntos, se denomina codec. Se puede usar compresion de habla/audio para reducir el numero de bits que representan la senal de habla/audio, reduciendo por ello la tasa de bits necesaria para la transmision. La tecnologfa de compresion de habla/audio se puede clasificar, en general, en codificacion en el dominio del tiempo y codificacion en el dominio de la frecuencia. La codificacion en el dominio del tiempo se utiliza usualmente para codificar senales de habla o para codificar senales de audio a tasas de bits bajas. La codificacion en el dominio de la frecuencia se utiliza usualmente para codificar senales de audio o para codificar senales de habla a tasas de bits altas. La Extension del ancho de banda (BWE) puede ser una parte de la codificacion en el dominio del tiempo o de la codificacion en el dominio de la frecuencia a fin de generar una senal de banda alta a tasa de bits muy baja o a tasa de bits nula.
Sin embargo, los codificadores del habla son codificadores con perdidas, es decir, la senal descodificada es diferente de la original. Por lo tanto, uno de los objetivos de la codificacion del habla es minimizar la distorsion (o perdida perceptible) a una tasa de bits dada, o minimizar la tasa de bits para alcanzar una distorsion dada.
La codificacion del habla difiere de otras formas de codificacion de audio en que el habla es una senal mucho mas sencilla que la mayona de las otras senales de audio, y esta disponible mucha mas informacion estadfstica sobre las propiedades del habla. Como consecuencia, parte de la informacion auditiva, que es relevante en codificacion de audio, puede ser innecesaria en el contexto de la codificacion del habla. En la codificacion del habla, el criterio mas importante es la conservacion de la inteligibilidad y “lo agradable” del habla, con una cantidad restringida de datos transmitidos.
La inteligibilidad del habla incluye, ademas del contenido literal real, tambien la identidad, las emociones, la entonacion, el timbre, etc. del hablante, que son todos importantes para una inteligibilidad perfecta. El concepto mas abstracto de lo agradable del habla degradada es una propiedad diferente de la inteligibilidad, ya que es posible que el habla degradada sea completamente inteligible, pero molesta subjetivamente para el oyente.
La redundancia de las formas de onda del habla se puede considerar con respecto a varios tipos diferentes de senal del habla, tales como las senales del habla con voz y sin voz. Los sonidos con voz, p. ej., 'a', 'b', se deben esencialmente a vibraciones de las cuerdas vocales, y son oscilatorios. Por lo tanto, durante penodos cortos de tiempo, estan bien modelados por sumas de senales periodicas, tales como sinusoides. En otras palabras, para el habla con voz, la senal del habla es esencialmente periodica. Sin embargo, esta periodicidad puede ser variable durante la duracion de un segmento del habla y la forma de la onda periodica cambia usualmente de manera gradual de segmento a segmento. Una codificacion del habla de tasa de bits baja podna beneficiarse mucho de la exploracion de tal periodicidad. El penodo del habla con voz se denomina tambien tono, y la prediccion del tono se llama a menudo Prediccion a largo plazo (LTP). En contraste a esto, los sonidos sin voz, tales como 's', 'sh', son mas semejantes al ruido. Esto se debe a que una senal del habla sin voz es mas semejante a un ruido aleatorio y tiene una magnitud mas pequena de predictibilidad.
Tradicionalmente, todos los metodos de codificacion del habla parametricos, tales como la codificacion en el dominio del tiempo, hacen uso de la redundancia intnnseca en la senal del habla para reducir la cantidad de informacion que se debe enviar y para estimar los parametros de las muestras del habla de una senal a intervalos cortos. Esta redundancia surge principalmente de la repeticion de las formas de onda del habla a una tasa cuasiperiodica y de la envolvente espectral de cambio lento de la senal del habla.
La redundancia de las formas de onda del habla se puede considerar con respecto a varios tipos diferentes de senal del habla, tales como con voz y sin voz. Aunque la senal del habla es esencialmente periodica para el habla con voz, esta periodicidad puede ser variable durante la duracion de un segmento del habla y la forma de la onda periodica cambia usualmente de manera gradual de segmento a segmento. Una codificacion del habla de tasa de bits baja podna beneficiarse mucho de la exploracion de tal periodicidad. El penodo del habla con voz se denomina tambien tono, y la prediccion del tono se llama a menudo Prediccion a largo plazo (LTP). Como para el habla sin voz, la senal es mas semejante a un ruido aleatorio y tiene una magnitud mas pequena de predictibilidad.
En cualquier caso, se puede usar codificacion parametrica para reducir la redundancia de los segmentos del habla separando de la componente de la envolvente espectral la componente de excitacion de la senal del habla. La envolvente espectral que cambia lentamente se puede representar por Codificacion de prediccion lineal (LPC),
5
10
15
20
25
30
35
40
45
50
55
denominada tambien Prediccion a corto plazo (STP). Una codificacion del habla de tasa de bits baja podna beneficiarse tambien mucho de la exploracion de tal prediccion a corto plazo. La ventaja de la codificacion surge de la tasa lenta a la que cambian los parametros. No obstante, es raro que los parametros sean significativamente diferentes de los valores mantenidos en unos pocos milisegundos. Por consiguiente, a la tasa de muestreo de 8 kHz, 12,8 kHz o 16 kHz, el algoritmo de codificacion del habla es tal que la duracion nominal de la trama esta en el intervalo de diez a treinta milisegundos. Una duracion de la trama de veinte milisegundos es la eleccion mas comun.
Se usa ampliamente la codificacion de audio basada en la tecnologfa de banco de filtros, p. ej., la codificacion en el dominio de la frecuencia. En el procesamiento de senales, un banco de filtros es una agrupacion de filtros de paso de banda que separa la senal de entrada en multiples componentes, cada una llevando una unica subbanda de frecuencia de la senal original. El proceso de descomposicion realizado por el banco de filtros se denomina analisis, y a la salida del analisis del banco de filtros se hace referencia como a una senal de subbanda, con tantas subbandas como filtros hay en el banco de filtros. El proceso de reconstruccion se denomina sntesis del banco de filtros. En el procesamiento de senales digitales, la expresion banco de filtros se aplica tambien comunmente a un banco de receptores. La diferencia es que los receptores tambien convierten por reduccion las subbandas a una frecuencia central baja que puede volverse a muestrear a una tasa reducida. El mismo resultado se puede conseguir a veces submuestreando las subbandas de paso de banda. La salida del analisis del banco de filtros podna tener la forma de coeficientes complejos. Cada coeficiente complejo contiene un elemento real y un elemento imaginario que representa, respectivamente, el termino del coseno y el termino del seno para cada subbanda del banco de filtros.
En estandares bien conocidos mas recientes, tales como G.723.1, G.729, G.718, se han adoptado la Tasa completa mejorada (EFR), el Codificador de voz de modo seleccionable (SMV), la Tasa multiple adaptativa (AMR), la Banda ancha multimodo de tasa variable (VMR-WB) o la Banda ancha de tasa multiple adaptativa (AMR-WB), y la Tecnica de prediccion lineal excitada de codigos (“CELP”). La CELP se entiende comunmente como una combinacion tecnica de Excitacion codificada, Prediccion a largo plazo y Prediccion a corto plazo. La CELP se usa principalmente para codificar senales del habla beneficiandose de las caractensticas espedficas de la voz humana o del modelo de produccion de la voz vocal humana. La codificacion del habla CELP es un principio algontmico muy popular en el area de la compresion del habla, aunque los detalles de la CELP para codecs diferentes podnan ser significativamente diferentes. Debido a su popularidad, el algoritmo CELP se ha usado en diversos estandares como ITU-T, MPEG, 3GPP y 3GPP2. Las variantes de la CELP incluyen la CELP algebraica, la CELP relajada, la CELP de bajo retardo y la prediccion lineal excitada de suma de vectores, y otras. CELP es un termino generico para una clase de algoritmos y no para un codec particular.
El algoritmo CELP esta basado en cuatro ideas principales. En primer lugar, se usa un modelo de filtro fuente de la produccion del habla a traves de la prediccion lineal (LP). El modelo de filtro fuente de la produccion del habla modela el habla como una combinacion de una fuente sonora, tal como las cuerdas vocales, y un filtro acustico lineal, el tracto vocal (y la caractenstica de radiacion). En la implementacion del modelo de filtro fuente de produccion del habla, la fuente sonora, o senal de excitacion, esta modelada a menudo como un tren de impulsos periodico, para el habla con voz, o como ruido blanco, para el habla sin voz. En segundo lugar, se usa un libro de codigos adaptativo, y uno fijo, como la entrada (excitacion) del modelo LP. En tercer lugar, se realiza una busqueda de bucle cerrado en un “dominio perceptualmente ponderado”. En cuarto lugar, se aplica la cuantificacion de vectores (VQ).
El documento US2002128839A1 describe un metodo para generar una senal del habla de banda ancha a partir de una primera senal del habla de banda estrecha, que extiende la estructura armonica de la senal del habla durante los segmentos del habla con voz y presenta una cantidad estimada linealmente de energfa del habla en la banda ancha de frecuencias.
El documento US2001044722A1 describe un metodo para mejorar las senales del habla que sobremuestrea una senal del habla de banda estrecha en un receptor para generar una senal del habla de banda ancha.
Ulrich Kornagel: "Spectral widening of the excitation signal for telephone-band speech enhancement", que propone diferentes metodos para generar la senal de excitacion de banda ancha a partir de una version limitada de banda telefonica.
Compendio
Una realizacion de la presente invencion describe un metodo para descodificar una corriente de bits de audio codificada y generar una extension del ancho de banda de frecuencia en un descodificador. El metodo comprende descodificar la corriente de bits de audio para producir una senal de audio descodificada de banda baja y generar un espectro de excitacion de banda baja correspondiente a una banda de baja frecuencia. Se selecciona una zona de subbanda del interior de la banda de baja frecuencia usando un parametro que indica la informacion de energfa de una envolvente espectral de la senal de audio descodificada de banda baja, en donde la zona de subbanda se identifica en el interior de la banda baja usando parametros que reflejan la energfa mas alta de la envolvente espectral o del pico del formante espectral. Se genera un espectro de excitacion de banda alta para una banda de alta frecuencia copiando un espectro de excitacion de subbanda desde la zona seleccionada de subbanda hasta una zona de subbanda alta correspondiente a la banda de alta frecuencia. Usando el espectro de excitacion generado de
banda alta, se genera una senal de audio de banda alta extendida aplicando una envolvente espectral de banda alta. La senal de audio de banda alta extendida se anade a la senal de audio descodificada de banda baja para generar una senal de salida de audio que tiene un ancho de banda de frecuencia extendido.
De acuerdo con una realizacion alternativa de la presente invencion, un descodificador para descodificar una 5 corriente de bits de audio codificada y generar un ancho de banda de frecuencia comprende una unidad de descodificacion de banda baja configurada para descodificar la corriente de bits de audio para producir una senal de audio descodificada de banda baja y para generar un espectro de excitacion de banda baja correspondiente a una banda de baja frecuencia. El descodificador incluye ademas una unidad de extension del ancho de banda acoplada a la unidad de descodificacion de banda baja. La unidad de extension del ancho de banda comprende una unidad de 10 seleccion de subbandas y una unidad copiadora. La unidad de seleccion de subbandas esta configurada para seleccionar una zona de subbanda del interior de la banda de baja frecuencia usando un parametro que indica la informacion de energfa de una envolvente espectral de la senal de audio descodificada de banda baja; en donde la unidad de seleccion de subbandas esta configurada para identificar la subbanda en el interior de la banda baja usando la energfa mas alta de la envolvente espectral, o del pico del formante espectral, y seleccionar la subbanda 15 identificada. La unidad copiadora esta configurada para generar un espectro de excitacion de banda alta para una banda de alta frecuencia copiando un espectro de excitacion de subbanda desde la zona seleccionada de subbanda hasta una zona de subbanda alta correspondiente a la banda de alta frecuencia.
De acuerdo con una realizacion alternativa de la presente invencion, un descodificador para el procesamiento del habla comprende un procesador y un soporte de almacenamiento legible por ordenador, que almacena una 20 programacion para que la ejecute el procesador. La programacion incluye instrucciones para descodificar la corriente de bits de audio a fin de producir una senal de audio descodificada de banda baja y generar un espectro de excitacion de banda baja correspondiente a una banda de baja frecuencia. La programacion incluye instrucciones para seleccionar una zona de subbanda del interior de la banda de baja frecuencia usando un parametro que indica la informacion de energfa de una envolvente espectral de la senal de audio descodificada de banda baja, y generar 25 un espectro de excitacion de banda alta para una banda de alta frecuencia copiando un espectro de excitacion de subbanda desde la zona seleccionada de subbanda hasta una zona de subbanda alta correspondiente a la banda de alta frecuencia. La programacion incluye ademas instrucciones para usar el espectro de excitacion generado de banda alta para generar una senal de audio de banda alta extendida aplicando una envolvente espectral de banda alta, y anadir la senal de audio de banda alta extendida a la senal de audio descodificada de banda baja para 30 generar una senal de salida de audio que tiene un ancho de banda de frecuencia extendido.
Una realizacion alternativa de la presente invencion describe un metodo para descodificar una corriente de bits de audio codificada y generar una extension del ancho de banda de frecuencia en un descodificador. El metodo comprende descodificar la corriente de bits de audio para producir una senal de audio descodificada de banda baja y generar un espectro de banda baja correspondiente a una banda de baja frecuencia, y seleccionar una zona de 35 subbanda del interior de la banda de baja frecuencia usando un parametro que indica la informacion de energfa de una envolvente espectral de la senal de audio descodificada de banda baja. El metodo incluye ademas generar un espectro de banda alta copiando un espectro de subbanda desde la zona seleccionada de subbanda hasta una zona de subbanda alta, y usar el espectro generado de banda alta para generar una senal de audio de banda alta extendida aplicando energfa de la envolvente espectral de banda alta. El metodo incluye ademas anadir la senal de 40 audio de banda alta extendida a la senal de audio descodificada de banda baja para generar una senal de salida de audio que tiene un ancho de banda de frecuencia extendido.
Breve descripcion de los dibujos
Para una comprension mas completa de la presente invencion, y de sus ventajas, se hace referencia a continuacion a las siguientes descripciones, consideradas en union con los dibujos que se acompanan, en los que:
45 la figura 1 ilustra las operaciones realizadas durante la codificacion de un habla original usando un codificador CELP convencional;
la figura 2 ilustra las operaciones realizadas durante la descodificacion de un habla original usando un descodificador CELP en las realizaciones de implementacion de la presente invencion, como se describira mas adelante;
50 la figura 3 ilustra las operaciones realizadas durante la codificacion de un habla original en un codificador CELP convencional;
la figura 4 ilustra un descodificador CELP basico correspondiente al codificador de la figura 5 en las realizaciones de implementacion de la presente invencion, como se describira en lo que sigue;
las figuras 5A y 5B ilustran un ejemplo de codificacion/descodificacion con Extension del ancho de banda (BWE), en 55 donde la figura 5A ilustra las operaciones en el codificador con la informacion conexa de la BWE, mientras que la figura 5B ilustra las operaciones en el descodificador con la BWE;
5
10
15
20
25
30
35
40
45
50
las figuras 6A y 6B ilustran otro ejemplo de codificacion/descodificacion con una BWE sin transmitir informacion conexa, en donde la figura 6A ilustra las operaciones en un codificador, mientras que la figura 6B ilustra las operaciones en un descodificador;
la figura 7 ilustra un ejemplo de un espectro de excitacion ideal para el habla con voz o la musica armonica cuando se usa el tipo CELP de codec;
la figura 8 muestra un ejemplo de una extension convencional del ancho de banda de un espectro de excitacion descodificado para el habla con voz o la musica armonica cuando se usa el tipo CELP de codec;
la figura 9 ilustra un ejemplo de una realizacion de la presente invencion de la extension del ancho de banda aplicada al espectro de excitacion descodificado para el habla con voz o la musica armonica cuando se usa el tipo CELP de codec;
la figura 10 ilustra las operaciones en un descodificador de acuerdo con las realizaciones de la presente invencion para implementar el desplazamiento o la copia de subbandas para la BWE;
la figura 11 ilustra una realizacion alternativa del descodificador para implementar el desplazamiento o la copia de subbandas para la BWE;
la figura 12 ilustra las operaciones realizadas en un descodificador de acuerdo con las realizaciones de la presente invencion;
las figuras 13A y 13B ilustran un descodificador que implementa la extension del ancho de banda de acuerdo con las realizaciones de la presente invencion;
la figura 14 ilustra un sistema de comunicacion segun una realizacion de la presente invencion; y
la figura 15 ilustra un diagrama de bloques de un sistema de procesamiento que se puede usar para implementar los dispositivos y los metodos descritos en la presente memoria.
Descripcion detallada de las realizaciones ilustrativas
En sistemas de comunicacion modernos con senales digitales de audio/habla, una senal digital se comprime en un codificador, y la informacion comprimida o corriente de bits se puede paquetizar y enviar a un descodificador, trama a trama, a traves de un canal de comunicacion. El descodificador recibe y descodifica la informacion comprimida para obtener la senal digital de audio/habla.
La presente invencion se refiere, en general, a la codificacion de senales de habla/audio y a la extension del ancho de banda de senales de habla/audio. En particular, se pueden usar las realizaciones de la presente invencion para mejorar el estandar del codificador del habla ITU-T AMR-WB en el campo de la extension del ancho de banda.
Algunas frecuencias son mas importantes que otras. Las frecuencias importantes se pueden codificar con una gran resolucion. Son significativas las pequenas diferencias en estas frecuencias y se necesita un esquema de codificacion que conserve estas diferencias. Por otro lado, las frecuencias menos importantes no tienen que ser exactas. Se puede usar un esquema de codificacion mas basta, incluso aunque algunos de los detalles mas finos se perderan en la codificacion. Un esquema tfpico de codificacion mas basta esta basado en el concepto de Extension del ancho de banda (BWE). Este concepto de la tecnologfa se denomina tambien Extension de banda alta (HBE), Replica de subbanda (SBR) o Replicacion de banda espectral (SBR). Aunque el nombre podna ser diferente, todos tienen el significado similar de codificar/descodificar algunas subbandas de frecuencia (usualmente bandas altas) con poca asignacion de tasa de bits (incluso con asignacion nula de tasa de bits) o una tasa de bits significativamente menor que el enfoque normal de codificacion/descodificacion.
En la tecnologfa SBR, la estructura fina espectral en una banda de alta frecuencia se copia desde una banda de baja frecuencia y se puede anadir algo de ruido aleatorio. Entonces, la envolvente espectral en una banda de alta frecuencia se conforma usando informacion conexa transmitida de codificador a descodificador. El desplazamiento o la copia de bandas de frecuencia desde banda baja hasta banda alta es normalmente la primera etapa para la tecnologfa BWE.
Se describiran las realizaciones de la presente invencion para mejorar la tecnologfa BWE usando un proceso adaptativo para seleccionar una banda de desplazamiento basada en el nivel de energfa de la envolvente espectral.
La figura 1 ilustra las operaciones realizadas durante la codificacion de un habla original usando un codificador CELP convencional.
La figura 1 ilustra un codificador CELP inicial convencional en el que se minimiza a menudo un error ponderado 109 entre un habla sintetizada 102 y un habla original 101 usando un enfoque de analisis por smtesis, lo que significa que la codificacion (analisis) se realiza optimizando perceptualmente la senal descodificada (smtesis) en un bucle cerrado.
5
10
15
20
25
30
35
40
45
50
El principio basico que aprovechan todos los codificadores del habla es el hecho de que las senales del habla son formas de onda altamente correlacionadas. Como ilustracion, el habla se puede representar usando un modelo autorregresivo (AR) como en la Ecuacion (11) siguiente.
L
Xn + c» (11)
i-1
En la Ecuacion (11), cada muestra se representa como una combinacion lineal de las L muestras previas mas un ruido blanco. Los coeficientes de ponderacion ai, a2 ... ai_ se denominan Coeficientes de prediccion lineal (los LPC). Para cada trama, los coeficientes de ponderacion ai, a2, ... ai_ se eligen de manera que el espectro de {Xi, X2, ... , X«}, generado usando el modelo anterior, coincide mucho con el espectro de la trama del habla de entrada.
Alternativamente, las senales del habla pueden estar representadas tambien por una combinacion de un modelo armonico y un modelo de ruido. La parte armonica del modelo es eficazmente una representacion de las series de Fourier de la componente periodica de la senal. En general, para senales con voz, el modelo armonico, mas el de ruido, del habla esta compuesto por una mezcla tanto de armonicos como de ruido. La proporcion de armonicos y ruido en un habla con voz depende de varios factores, incluyendo las caractensticas del hablante (p. ej., hasta que punto la voz del hablante es normal o entrecortada); el caracter de los segmentos del habla (p. ej., hasta que punto un segmento del habla es periodico) y de la frecuencia. Las frecuencias mas altas del habla con voz tienen una proporcion mas alta de componentes similares al ruido.
El modelo de prediccion lineal y el modelo de ruido armonico son los dos metodos principales para modelar y codificar senales del habla. El modelo de prediccion lineal es particularmente bueno en modelar la envolvente espectral del habla, mientras que el modelo de ruido armonico es bueno en modelar la estructura fina del habla. Los dos metodos se pueden combinar para aprovecharse de sus fortalezas relativas.
Como se ha indicado previamente, antes de la codificacion CELP, la senal de entrada al microfono del aparato se filtra y se muestrea, por ejemplo, a una tasa de 8.000 muestras por segundo. Cada muestra se cuantifica a continuacion, por ejemplo, con 13 bits por muestra. El habla muestreada se segmenta en segmentos o tramas de 20 ms (p. ej., en este caso 160 muestras).
La senal del habla se analiza y se extraen su modelo LP, sus senales de excitacion y su tono. El modelo LP representa la envolvente espectral del habla. Se convierte en un conjunto de coeficientes de frecuencias espectrales lineales (LSF), que es una representacion alternativa de los parametros de prediccion lineal, puesto que los coeficientes LSF tienen buenas propiedades de cuantificacion. Los coeficientes LSF se pueden cuantificar de modo escalar o, mas eficientemente, se pueden cuantificar en vectores usando libros de codigos de vectores LSF previamente cualificados.
La excitacion de codigos incluye un libro de codigos que comprende vectores de codigos, que tienen componentes que se eligen todas independientemente de manera que cada vector de codigos puede tener un espectro aproximadamente 'blanco'. Para cada subtrama del habla de entrada, cada uno de los vectores de codigos se filtra a traves del filtro de prediccion lineal a corto plazo 103 y del filtro de prediccion a largo plazo 105, y la salida se compara con las muestras del habla. En cada subtrama, se elige el vector de codigos, cuya salida es la que mejor coincide con el habla de entrada (error minimizado), para representar esa subtrama.
La excitacion codificada 108 comprende normalmente una senal similar al pulso o una senal similar al ruido, que esta construida matematicamente o guardada en un libro de codigos. El libro de codigos esta disponible tanto para el codificador como para el descodificador de recepcion. La excitacion codificada 108, que puede ser un libro de codigos estocastico o fijo, puede ser un diccionario de cuantificacion de vectores que esta codificado de manera fija (implfcita o explfcitamente) en el codec. Tal libro de codigos fijo puede ser una prediccion lineal excitada de codigos algebraicos o estar almacenado explfcitamente.
Un vector de codigos del libro de codigos se aumenta a escala por una ganancia apropiada para hacer la energfa igual a la energfa del habla de entrada. Por consiguiente, la salida de la excitacion codificada 108 se aumenta a escala por una ganancia Gc 107 antes de pasar por los filtros lineales.
El filtro de prediccion lineal a corto plazo 103 conforma el espectro 'blanco' del vector de codigos para asemejarse al espectro del habla de entrada. Equivalentemente, en el dominio del tiempo, el filtro de prediccion lineal a corto plazo 103 incorpora correlaciones a corto plazo (correlacion con muestras previas) en la secuencia blanca. El filtro que conforma la excitacion tiene un modelo de todo polos de la forma 1/A(z) (filtro de prediccion lineal a corto plazo 103), donde A(z) se denomina el filtro de prediccion y se puede obtener usando prediccion lineal (p. ej., el algoritmo Levinson-Durbin). En una o mas realizaciones, se puede usar un filtro de todo polos, puesto que es una buena representacion del tracto vocal humano y puesto que es facil de calcular por ordenador.
El filtro de prediccion lineal a corto plazo 103 se obtiene analizando la senal original 101 y se representa por un conjunto de coeficientes:
5
10
15
20
25
30
35
40
45
A(z) - ^1 + ai-zl ,i = \,2,....,P
(12)
Como se ha descrito previamente, unas regiones del habla con voz presentan periodicidad a largo plazo. El filtro de tonos I/(B(z)) introduce en el espectro sintetizado este penodo, conocido como tono. La salida del filtro de prediccion a largo plazo 105 depende del tono y de la ganancia del tono. En una o mas realizaciones, el tono se puede estimar a partir de la senal original, la senal residual o la senal original ponderada. En una realizacion, la funcion de prediccion a largo plazo (B(z)) se puede expresar usando la Ecuacion (13) como sigue.
B(z) = 1 - Gp • z-Tono (13)
El filtro de ponderacion 110 esta relacionado con el filtro anterior de prediccion a corto plazo. Uno de los filtros de ponderacion tfpico se puede representar como se describe en la Ecuacion (14).
W(z)
A(z!a) 1 -P-z 1
(14)
donde p < a, 0 < p < 1, 0 <a <1.
En otra realizacion, el filtro de ponderacion W(z) se puede obtener del filtro LPC usando la expansion del ancho de banda como se ilustra en una realizacion en la Ecuacion (15) siguiente.
IV(z)
MziyV)
A(z/y 2)
(15),
en la Ecuacion (15), y1 > Y2, que son los factores con los que los polos son desplazados hacia el origen.
Por consiguiente, para cada trama del habla, se calculan por ordenador los LPC y el tono y se actualizan los filtros. Para cada subtrama del habla, el vector de codigos que produce la 'mejor' salida filtrada se elige para representar la subtrama. El valor cuantificado correspondiente de ganancia se tiene que transmitir al descodificador para una descodificacion apropiada. Se tienen tambien que cuantificar los LPC y los valores del tono y enviar cada trama para reconstruir los filtros en el descodificador. Por consiguiente, se transmiten al descodificador el mdice de excitacion codificada, el mdice de ganancia cuantificado, el mdice parametrico de prediccion a largo plazo cuantificado y el mdice parametrico de prediccion a corto plazo cuantificado.
La figura 2 ilustra las operaciones realizadas durante la descodificacion de un habla original usando un descodificador CELP en las realizaciones de implementacion de la presente invencion, como se describira en lo que sigue.
La senal del habla se reconstruye en el descodificador haciendo pasar los vectores de codigos recibidos a traves de los filtros correspondientes. Por consiguiente, cada bloque, excepto el de posprocesamiento, tiene la misma definicion que se describe en el codificador de la figura 1.
La corriente de bits CELP codificada es recibida y despaquetizada 80 en un dispositivo de recepcion. Para cada subtrama recibida, el mdice de excitacion codificada recibido, el mdice de ganancia cuantificado, el mdice parametrico de prediccion a largo plazo cuantificado y el mdice parametrico de prediccion a corto plazo cuantificado se utilizan para encontrar los parametros correspondientes usando descodificadores correspondientes, por ejemplo, un descodificador de ganancia 81, un descodificador de prediccion a largo plazo 82 y un descodificador de prediccion a corto plazo 83. Por ejemplo, las posiciones y los signos de amplitud de los pulsos de excitacion y el vector de codigos algebraicos de la excitacion de codigos 402 se pueden determinar a partir del mdice de excitacion codificada recibido.
Haciendo referencia a la figura 2, el descodificador es una combinacion de varios bloques que incluyen una excitacion codificada 201, una prediccion a largo plazo 203 y una prediccion a corto plazo 205. El descodificador inicial incluye ademas un bloque de posprocesamiento 207 despues de un habla sintetizada 206. El posprocesamiento puede comprender ademas posprocesamiento a corto plazo y posprocesamiento a largo plazo.
La figura 3 ilustra un codificador CELP convencional.
La figura 3 ilustra un codificador CELP basico usando un libro de codigos adaptativo adicional para mejorar la prediccion lineal a largo plazo. La excitacion se produce sumando las contribuciones desde un libro de codigos 307 adaptativo y una excitacion de codigos 308, que puede ser un libro de codigos estocastico o fijo como se ha descrito previamente. Las entradas en el libro de codigos adaptativo comprenden versiones retardadas de la excitacion. Esto hace posible codificar eficientemente senales periodicas tales como sonidos con voz.
5
10
15
20
25
30
35
40
45
50
55
Haciendo referencia a la figura 3, un libro de codigos 307 adaptativo comprende una excitacion sintetizada anterior
304 o un ciclo de tonos de excitacion anterior repetitiva en un penodo de tonos. Un retraso del tono se puede codificar en valor entero cuando es grande o largo. El retraso del tono se codifica a menudo en un valor fraccionario mas preciso cuando es pequeno o corto. La informacion periodica del tono se emplea para generar la componente adaptativa de la excitacion. Esta componente de excitacion se aumenta a escala a continuacion por una ganancia Gp
305 (denominada tambien ganancia de tono).
La prediccion a largo plazo desempena un papel muy importante para la codificacion del habla con voz, puesto que el habla con voz tiene una periodicidad acusada. Los ciclos de tono adyacentes del habla con voz son similares entre sf, lo que significa matematicamente que la ganancia de tono Gp en la siguiente expresion de excitacion es alta o proxima a 1. La excitacion resultante se puede expresar como en la Ecuacion (16), como combinacion de las excitaciones individuales.
imagen1
donde, ep(n) es una subtrama de las series de muestras indexadas por n, procedentes del libro de codigos 307 adaptativo que comprende la excitacion anterior 304 a traves del bucle de realimentacion (figura 3). ep(n) se puede filtrar con paso bajo de modo adaptativo dado que la zona de baja frecuencia es a menudo mas periodica o mas armonica que la zona de alta frecuencia. ec(n) procede del libro de codigos de excitacion codificada 308 (denominado tambien libro de codigos fijo) que es una contribucion a la excitacion actual. Ademas, ec(n) se puede mejorar tambien tal como usando mejora del filtrado de paso alto, mejora del tono, mejora de la dispersion, mejora del formante, y otras.
Para el habla con voz, la contribucion de ep(n) a partir del libro de codigos 307 adaptativo puede ser dominante y la ganancia de tono Gp 305 esta alrededor del valor de 1. La excitacion esta actualizada usualmente para cada subtrama. El tamano de trama tfpico es 20 milisegundos y el tamano de subtrama tfpico es 5 milisegundos.
Como se describe en la figura 1, la excitacion codificada 308 fija se aumenta a escala por una ganancia Gc 306 antes de pasar por los filtros lineales. Las dos componentes de excitacion aumentadas a escala desde la excitacion codificada 108 fija y el libro de codigos 307 adaptativo se anaden unas con otras antes del filtrado a traves del filtro de prediccion lineal a corto plazo 303. Las dos ganancias (Gp y Gc) se cuantifican y se transmiten a un descodificador. Por consiguiente, el mdice de excitacion codificada, el mdice de libro de codigos adaptativo, los indices de ganancia cuantificados y el mdice parametrico de prediccion a corto plazo cuantificado se transmiten al dispositivo de audio de recepcion.
La corriente de bits CELP codificada usando un dispositivo ilustrado en la figura 3 se recibe en un dispositivo de recepcion. La figura 4 ilustra el descodificador correspondiente del dispositivo de recepcion.
La figura 4 ilustra un descodificador CELP basico correspondiente al codificador en la figura 3. La figura 4 incluye un bloque de posprocesamiento 408 que recibe el habla sintetizada 407 desde el descodificador principal. Este descodificador es similar al de la figura 3, excepto en el libro de codigos 307 adaptativo.
Para cada subtrama recibida, el mdice de excitacion codificada recibido, el mdice de ganancia de excitacion codificada cuantificado, el mdice de tono cuantificado, el mdice de ganancia del libro de codigos adaptativo cuantificado y el mdice parametrico de prediccion a corto plazo cuantificado se utilizan para encontrar los parametros correspondientes usando descodificadores correspondientes, por ejemplo, un descodificador de ganancia 81, un descodificador de tono 84, un descodificador de ganancia 85 del libro de codigos adaptativo y un descodificador de prediccion a corto plazo 83.
En diversas realizaciones, el descodificador CELP es una combinacion de varios bloques y comprende una excitacion codificada 402, un libro de codigos 401 adaptativo, una prediccion a corto plazo 406 y un posprocesamiento 408. Cada bloque, excepto el de posprocesamiento, tiene la misma definicion que se describe en el codificador de la figura 3. El posprocesamiento puede incluir ademas posprocesamiento a corto plazo y posprocesamiento a largo plazo.
Como ya se ha mencionado, la CELP se usa principalmente para codificar la senal del habla beneficiandose de las caractensticas espedficas de la voz humana o del modelo de produccion de la voz vocal humana. A fin de codificar la senal del habla mas eficientemente, dicha senal del habla se puede clasificar en clases diferentes y cada clase se codifica de modo diferente. La clasificacion sin voz/con voz o la Decision sin voz puede ser una clasificacion importante y basica entre todas las clasificaciones de clases diferentes. Para cada clase, el filtro LPC o STP se usa siempre para representar la envolvente espectral. Pero puede ser diferente la excitacion al filtro LPC. Las senales sin voz se pueden codificar con una excitacion similar al ruido. Por otro lado, las senales con voz se pueden codificar con una excitacion similar al pulso.
El bloque de excitacion de codigos (al que se ha hecho referencia con la marca 308 en la figura 3 y 402 en la figura 4) ilustra el lugar del Libro de codigos fijo (FCB) para una codificacion CELP general. Un vector de codigos seleccionado a partir del FCB se aumenta a escala por una ganancia senalada a menudo como Gc 306.
5
10
15
20
25
30
35
40
45
50
55
Las figuras 5A y 5B ilustran un ejemplo de codificacion/descodificacion con Extension del ancho de banda (BWE). La figura 5A ilustra las operaciones en el codificador con la informacion conexa de la BWE, mientras que la figura 5B ilustra las operaciones en el descodificador con la BWE.
Una senal de banda baja 501 se codifica usando unos parametros de banda baja 502. Los parametros de banda baja 502 estan cuantificados y el mdice de cuantificacion generado se puede transmitir a traves de un canal de corrientes de bits 503. La senal de banda alta extrafda de una senal de audio/habla 504 se codifica con una pequena cantidad de bits usando los parametros conexos de banda alta 505. Los parametros conexos de banda alta cuantificados (mdice de informacion conexa) se transmiten a traves del canal de corrientes de bits 506.
Haciendo referencia a la figura 5B, en el descodificador, la corriente de bits de banda baja 507 se usa para producir una senal descodificada de banda baja 508. La corriente de bits conexa de banda alta 510 se usa para descodificar los parametros conexos de banda alta 511. La senal de banda alta 512 se genera a partir de la senal de banda baja 508 con ayuda de los parametros conexos de banda alta 511. La senal final de audio/habla 509 se produce combinando la senal de banda baja 508 y la senal de banda alta 512.
Las figuras 6A y 6B ilustran otro ejemplo de codificacion/descodificacion con una BWE sin transmitir informacion conexa. La figura 6A ilustra las operaciones en un codificador, mientras que la figura 6B ilustra las operaciones en un descodificador.
Haciendo referencia a la figura 6A, una senal de banda baja 601 se codifica usando unos parametros de banda baja 602. Los parametros de banda baja 602 estan cuantificados para generar un mdice de cuantificacion, que se puede transmitir a traves del canal de corrientes de bits 603.
Haciendo referencia a la figura 6B, en el descodificador, la corriente de bits de banda baja 604 se usa para producir una senal descodificada de banda baja 605. La senal de banda alta 607 se genera a partir de la senal de banda baja 605 sin ayuda de la transmision de informacion conexa. La senal final de audio/habla 606 se produce combinando la senal de banda baja 605 y la senal de banda alta 607.
La figura 7 ilustra un ejemplo de un espectro de excitacion ideal para el habla con voz o la musica armonica cuando se usa el tipo CELP de codec.
El espectro de excitacion 702 ideal es casi plano despues de eliminar la envolvente espectral LPC 704. El espectro de excitacion de banda baja 701 ideal se puede usar como referencia para la codificacion de excitacion de banda baja. El espectro de excitacion de banda alta 703 ideal no esta disponible en el descodificador. Teoricamente, el espectro de excitacion de banda alta ideal, o sin cuantificar, podna tener casi el mismo nivel de energfa que el espectro de excitacion de banda baja.
En la practica, el espectro de excitacion sintetizado o descodificado no parece tan bueno como el espectro de excitacion ideal mostrado en la figura 7.
La figura 8 muestra un ejemplo de un espectro de excitacion descodificado para el habla con voz o la musica armonica cuando se usa el tipo CELP de codec.
El espectro de excitacion descodificado 802 es casi plano despues de eliminar la envolvente espectral LPC 804. El espectro de excitacion de banda baja descodificado 801 esta disponible en el descodificador. La calidad del espectro de excitacion de banda baja descodificado 801 empeora o se distorsiona mas especialmente en la region en la que la energfa de la envolvente es baja. Esto se debe a varias razones. Por ejemplo, las dos razones principales son que la codificacion CELP de bucle cerrado destaca mas en una zona de alta energfa que en una zona de baja energfa, y que la coincidencia de las formas de onda para una senal de baja frecuencia es mas facil que para una senal de alta frecuencia, debido al cambio mas rapido de la senal de alta frecuencia. Para la codificacion CELP de baja tasa de bits, tal como la AMR-WB, la banda alta no se codifica usualmente, sino que se genera en el descodificador con la tecnologfa BWE. En este caso, el espectro de excitacion de banda alta 803 se puede copiar simplemente desde el espectro de excitacion de banda baja 801 y la envolvente de la energfa espectral de banda alta se puede predecir o estimar a partir de la envolvente de la energfa espectral de banda baja. Siguiendo un modo tradicional, el espectro de excitacion generado de banda alta 803 despues de 6.400 Hz se copia desde la subbanda justamente antes de 6.400 Hz. Esto puede ser bueno si la calidad del espectro es equivalente de 0 Hz a 6.400 Hz. Sin embargo, para un codec CELP de baja tasa de bits, la calidad del espectro puede variar mucho de 0 Hz a 6.400 Hz. La subbanda copiada desde la zona extrema de la banda de baja frecuencia, justamente antes de 6.400 Hz, puede ser de una mala calidad, lo que introduce entonces sonido ruidoso adicional en la zona de banda alta de 6.400 Hz a 8.000 Hz.
El ancho de banda de la banda de alta frecuencia extendida es usualmente mucho menor que el de la banda codificada de baja frecuencia. Por lo tanto, en diversas realizaciones, la mejor subbanda de la banda baja se selecciona y se copia en la zona de banda alta.
La subbanda de alta calidad existe posiblemente en cualquier lugar del interior de toda la banda de baja frecuencia. El lugar mas posible de la subbanda de alta calidad esta en el interior de la region correspondiente a la zona de alta energfa espectral, la zona del formante espectral.
5
10
15
20
25
30
35
40
45
50
55
La figura 9 ilustra un ejemplo del espectro de excitacion descodificado para el habla con voz o la musica armonica cuando se usa el tipo CELP de codec.
El espectro de excitacion descodificado 902 es casi plano despues de eliminar la envolvente espectral LPC 904. El espectro de excitacion de banda baja descodificado 901 esta disponible en el descodificador, pero no esta disponible en la banda alta 903. La calidad del espectro de excitacion de banda baja descodificado 901 empeora o se distorsiona mas especialmente en la region en la que la energfa de la envolvente espectral 904 es mas baja.
En el caso ilustrado de la figura 9, en una realizacion, la subbanda de alta calidad esta situada alrededor de la primera zona del formante del habla (p. ej., alrededor de 2.000 Hz en esta realizacion a modo de ejemplo). En diversas realizaciones, la subbanda de alta calidad puede estar situada en cualquier lugar entre 0 y 6.400 Hz.
Despues de determinar el lugar de la mejor subbanda, se copia desde el interior de la banda baja hasta el interior de la banda alta, como se ilustra ademas en la figura 9. El espectro de excitacion de banda alta 903 se genera asf copiando desde la subbanda seleccionada. La calidad perceptual de la banda alta 903 en la figura 9 suena mucho mejor que la banda alta 803 en la figura 8, debido al espectro de excitacion mejorado.
En una o mas realizaciones, si la envolvente del espectro de banda baja esta disponible en el dominio de la frecuencia en el descodificador, la mejor subbanda se puede determinar buscando la energfa de subbanda mas alta a partir de todas las subbandas candidatas.
Alternativamente, en una o mas realizaciones, si la envolvente del espectro en el dominio de la frecuencia no esta disponible, el lugar de alta energfa se puede determinar tambien a partir de cualquier parametro que puede reflejar la envolvente de energfa espectral o el pico del formante espectral. El mejor lugar de subbanda para la BWE corresponde al lugar del pico espectral mas alto.
El intervalo de busqueda del mejor punto de partida de la subbanda puede depender de la tasa de bits del codec. Por ejemplo, para un codec de tasa de bits muy baja, el intervalo de busqueda puede ser de 0 a 6.400-1.600=4.800 Hz (2.000 Hz a 4.800 Hz), suponiendo que el ancho de banda de la banda alta es 1.600 Hz. En otro ejemplo, para un codec de tasa de bits mediana, el intervalo de busqueda puede ser de 2.000 Hz a 6.400-1.600=4.800 Hz (2.000 Hz a 4.800 Hz), suponiendo que el ancho de banda de la banda alta es 1.600 Hz.
Dado que la envolvente espectral cambia lentamente de una trama a la siguiente trama, normalmente, se cambia lentamente el mejor punto de partida de la subbanda correspondiente a la energfa mas alta del formante espectral. A fin de evitar la fluctuacion o el cambio frecuente del mejor punto de partida de la subbanda de una trama a otra trama, se puede aplicar algo de suavizado durante la misma region con voz en el dominio del tiempo, a menos que la energfa pico espectral se cambie espectacularmente de una trama a la siguiente trama o llegue una nueva region con voz.
La figura 10 ilustra las operaciones en un descodificador de acuerdo con las realizaciones de la presente invencion para implementar el desplazamiento o la copia de subbandas para la BWE.
La senal de banda baja en el dominio del tiempo 1002 se descodifica usando la corriente de bits 1001 recibida. La excitacion en el dominio del tiempo de banda baja 1003 esta disponible usualmente en el descodificador. A veces, esta disponible tambien la excitacion en el dominio de la frecuencia de banda baja. Si no esta disponible, la excitacion en el dominio del tiempo de banda baja 1003 puede ser transformada en dominio de la frecuencia para conseguir la excitacion en el dominio de la frecuencia de banda baja.
La envolvente espectral del habla con voz o la senal de musica esta representada a menudo por parametros LPC. A veces, la envolvente espectral directa en el dominio de la frecuencia esta disponible en el descodificador. En cualquier caso, la informacion 1004 de distribucion de la energfa se puede extraer de los parametros LPC o de la envolvente espectral directa en el dominio de la frecuencia o de cualquier parametro tal como el dominio DFT o el dominio FFT. Usando la informacion 1004 de distribucion de la energfa de banda baja, la mejor subbanda a partir de la banda baja se selecciona buscando el pico de energfa relativamente alto. La subbanda seleccionada se copia a continuacion desde la banda baja hasta la zona de banda alta. Una envolvente espectral predicha o estimada de banda alta se aplica a continuacion a la zona de banda alta, o una excitacion de banda alta en el dominio del tiempo 1005 pasa por un filtro de banda alta predicho o estimado que representa la envolvente espectral de banda alta. La salida del filtro de banda alta es la senal de banda alta 1006. La senal final de salida de habla/audio 1007 se obtiene combinando la senal de banda baja 1002 y la senal de banda alta 1006.
La figura 11 ilustra una realizacion alternativa del descodificador para implementar el desplazamiento o la copia de subbandas para la BWE.
A diferencia de la figura 10, la figura 11 supone que esta disponible el espectro de banda baja en el dominio de la frecuencia. La mejor subbanda en la banda de baja frecuencia se selecciona simplemente buscando el pico de energfa relativamente alto en el dominio de la frecuencia. Entonces, la subbanda seleccionada se copia desde la banda baja hasta la banda alta. Despues de aplicar una envolvente espectral estimada de banda alta, se forma el espectro de banda alta 1103. El espectro final de habla/audio en el dominio de la frecuencia se obtiene combinando
5
10
15
20
25
30
35
40
45
50
55
el espectro de banda baja 1102 y el espectro de banda alta 1103. La salida final de senales de habla/audio en el dominio del tiempo se produce transformando el espectro de habla/audio en el dominio de la frecuencia al dominio del tiempo.
Cuando el analisis y la smtesis de bancos de filtros estan disponibles en el descodificador cubriendo el intervalo deseado del espectro, un algoritmo SBR puede realizar el desplazamiento de bandas de frecuencia copiando coeficientes de banda de baja frecuencia de la salida correspondientes a la banda baja seleccionada desde el analisis de bancos de filtros hasta la zona de banda de alta frecuencia.
La figura 12 ilustra las operaciones realizadas en un descodificador de acuerdo con las realizaciones de la presente invencion.
Haciendo referencia a la figura 12, un metodo para descodificar en un descodificador una corriente de bits de audio codificada incluye recibir una corriente de bits de audio codificada. En una o mas realizaciones, la corriente de bits de audio recibida ha sido codificada con la CELP. En particular, solamente la banda de baja frecuencia esta codificada con la CELP. La CELP produce una calidad de espectro en una zona de energfa espectral mas alta relativamente mayor que en una zona de energfa espectral mas baja. Por consiguiente, las realizaciones de la presente invencion incluyen la descodificacion de la corriente de bits de audio para generar una senal de audio descodificada de banda baja y un espectro de excitacion de banda baja correspondiente a una banda de baja frecuencia (recuadro 1210). Se selecciona una zona de subbanda del interior de la banda de baja frecuencia usando informacion de energfa de una envolvente espectral de la senal de audio descodificada de banda baja (recuadro 1220). Se genera un espectro de excitacion de banda alta para una banda de alta frecuencia copiando un espectro de excitacion de subbanda desde la zona seleccionada de subbanda hasta una zona de subbanda alta correspondiente a la banda de alta frecuencia (recuadro 1230). Se genera una senal de salida de audio usando el espectro de excitacion de banda alta (recuadro 1240). En particular, usando el espectro de excitacion generado de banda alta, se genera una senal de audio de banda alta extendida aplicando una envolvente espectral de banda alta. La senal de audio de banda alta extendida se anade a la senal de audio descodificada de banda baja para generar la senal de salida de audio que tiene un ancho de banda de frecuencia extendido.
Como se ha descrito previamente usando las figuras 10 y 11, las realizaciones de la presente invencion se pueden aplicar de modo distinto dependiendo de si esta disponible la envolvente del espectro en el dominio de la frecuencia. Por ejemplo, si esta disponible la envolvente del espectro en el dominio de la frecuencia, se puede seleccionar la subbanda con la energfa de subbanda mas alta. Por otro lado, si no esta disponible la envolvente del espectro en el dominio de la frecuencia, la distribucion de energfa de la envolvente espectral se puede identificar a partir de los parametros de codificacion predictiva lineal (LPC), los parametros del dominio de la Transformada de Fourier discreta (DFT) o del dominio de la Transformada de Fourier rapida (FFT). De modo similar, la informacion del pico del formante espectral, si esta disponible (o es calculable por ordenador), se puede usar en alguna realizacion. Si solamente esta disponible la excitacion en el dominio del tiempo de banda baja, la excitacion en el dominio de la frecuencia de banda baja se puede calcular por ordenador transformando la excitacion en el dominio del tiempo de banda baja al dominio de la frecuencia.
En diversas realizaciones, la envolvente espectral se puede calcular por ordenador usando cualquier metodo conocido, como sabna un experto en la tecnica. Por ejemplo, en el dominio de la frecuencia, la envolvente espectral puede ser simplemente un conjunto de energfas que representan energfas de un conjunto de subbandas. De modo similar, en otro ejemplo, en el dominio del tiempo, la envolvente espectral puede estar representada por parametros LPC. Los parametros LPC pueden tener muchas formas tales como Coeficientes se reflexion, Coeficientes LPC, Coeficientes LSP y Coeficientes LSF en diversas realizaciones.
Las figuras 13A y 13B ilustran un descodificador que implementa la extension del ancho de banda de acuerdo con las realizaciones de la presente invencion.
Haciendo referencia a la figura 13A, un descodificador para descodificar una corriente de bits de audio codificada comprende una unidad de descodificacion de banda baja 1310 configurada para descodificar la corriente de bits de audio a fin de generar un espectro de excitacion de banda baja correspondiente a una banda de baja frecuencia.
El descodificador incluye ademas una unidad de extension del ancho de banda 1320 acoplada a la unidad de descodificacion de banda baja 1310 y que comprende una unidad de seleccion de subbandas 1330 y una unidad copiadora 1340. La unidad de seleccion de subbandas 1330 esta configurada para seleccionar una zona de subbanda del interior de la banda de baja frecuencia usando informacion de energfa de una envolvente espectral de la corriente de bits de audio descodificada. La unidad copiadora 1340 esta configurada para generar un espectro de excitacion de banda alta para una banda de alta frecuencia copiando un espectro de excitacion de subbanda desde la zona seleccionada de subbanda hasta una zona de subbanda alta correspondiente a la banda de alta frecuencia.
Un generador de senales de banda alta 1350 esta acoplado a la unidad copiadora 1340. El generador de senales de banda alta 1350 esta configurado para aplicar una envolvente espectral predicha de banda alta a fin de generar una senal en el dominio del tiempo de banda alta. Un generador de salida esta acoplado al generador de senales de banda alta 1350 y a la unidad de descodificacion de banda baja 1310. El generador de salida 1360 esta configurado
5
10
15
20
25
30
35
40
45
50
55
para generar una senal de salida de audio combinando una senal en el dominio del tiempo de banda baja obtenida descodificando la corriente de bits de audio con la senal en el dominio del tiempo de banda alta.
La figura 13B ilustra una realizacion alternativa de un descodificador que implementa la extension del ancho de banda.
Similar al de la figura 13A, el descodificador de la figura 13B incluye tambien una unidad de descodificacion de banda baja 1310 y una unidad de extension del ancho de banda 1320, que esta acoplada a la unidad de descodificacion de banda baja 1310, y que comprende una unidad de seleccion de subbandas 1330 y una unidad copiadora 1340.
Haciendo referencia a la figura 13B, el descodificador incluye ademas un generador de espectros de banda alta 1355, que esta acoplado a la unidad copiadora 1340. El generador de senales de banda alta 1355 esta configurado para aplicar energfa de la envolvente espectral de banda alta a fin de generar un espectro de banda alta para la banda de alta frecuencia usando el espectro de excitacion de banda alta.
Un generador de espectros de salida 1365 esta acoplado al generador de espectros de banda alta 1355 y a la unidad de descodificacion de banda baja 1310. El generador de espectros de salida esta configurado para generar un espectro de audio en el dominio de la frecuencia combinando un espectro de banda baja obtenido descodificando la corriente de bits de audio desde la unidad de descodificacion de banda baja 1310 con el espectro de banda alta desde el generador de espectros de banda alta 1355.
Un generador de senales de transformada inversa 1370 esta configurado para generar una senal de audio en el dominio del tiempo por transformacion inversa del espectro de audio en el dominio de la frecuencia al dominio del tiempo.
Los diversos componentes descritos en las figuras 13A y 13B se pueden implementar en hardware en una o mas realizaciones. En algunas realizaciones, se pueden implementar en software y disenar para funcionar en un procesador de senales.
Por consiguiente, las realizaciones de la presente invencion se pueden usar para mejorar la extension del ancho de banda en un descodificador que descodifica una corriente de bits de audio codificada CELP.
La figura 14 ilustra un sistema de comunicacion 10 segun una realizacion de la presente invencion.
El sistema de comunicacion 10 tiene unos dispositivos de acceso a audio 7 y 8 acoplados a una red 36 a traves de unos enlaces de comunicacion 38 y 40. En una realizacion, los dispositivos de acceso a audio 7 y 8 son dispositivos de voz sobre protocolo de internet (VOIP) y la red 36 es una red de area extensa (WAN), una red telefonica conmutada publica (PTSN) y/o la de internet. En otra realizacion, unos enlaces de comunicacion 38 y 40 son conexiones de banda ancha inalambricas y/o alambricas. En una realizacion alternativa, los dispositivos de acceso a audio 7 y 8 son telefonos celulares o moviles, los enlaces 38 y 40 son canales de telefoma movil inalambricos y la red 36 representa una red de telefoma movil.
El dispositivo de acceso a audio 7 usa un microfono 12 para convertir sonido, tal como musica, o la voz de una persona en una senal de entrada de audio analogica 28. Una interfaz de microfono 16 convierte la senal de entrada de audio analogica 28 en una senal de audio digital 33 para su entrada en un codificador 22 de un CODEC 20. El codificador 22 produce una senal de audio codificada TX para su transmision a una red 26 a traves de una interfaz de red 26 segun las realizaciones de la presente invencion. Un descodificador 24 en el interior del CODEC 20 recibe una senal de audio codificada RX desde la red 36 a traves de la interfaz de red 26 y convierte la senal de audio codificada RX en una senal de audio digital 34. La interfaz de altavoz 18 convierte la senal de audio digital 34 en la senal de audio 30 adecuada para accionar el altavoz 14.
En las realizaciones de la presente invencion, en las que el dispositivo de acceso a audio 7 es un dispositivo VOIP, algunos o todos los componentes en el interior del dispositivo de acceso a audio 7 estan implementados en el interior de un aparato. En algunas realizaciones, sin embargo, el microfono 12 y el altavoz 14 son unidades independientes, y la interfaz de microfono 16, la interfaz de altavoz 18, el CODEC 20 y la interfaz de red 26 estan implementados en el interior de un ordenador personal. El CODEC 20 puede estar implementado en software que se ejecuta en un ordenador o en un procesador espedfico, o mediante hardware espedfico, por ejemplo, sobre un circuito integrado de aplicacion espedfica (ASIC). La interfaz de microfono 16 esta implementada por un convertidor analogico a digital (A/D), asf como otra circuitena de interfaz situada en el interior del aparato y/o del ordenador. Igualmente, la interfaz de altavoz 18 esta implementada por un convertidor digital a analogico y otra circuitena de interfaz situada en el interior del aparato y/o del ordenador. En las realizaciones adicionales, el dispositivo de acceso a audio 7 puede estar implementado y dividido de otros modos conocidos en la tecnica.
En las realizaciones de la presente invencion en las que el dispositivo de acceso a audio 7 es un telefono celular o movil, los elementos en el interior del dispositivo de acceso a audio 7 estan implementados en el interior de un aparato celular. El CODEC 20 esta implementado por software que se ejecuta en un procesador en el interior del aparato o por hardware espedfico. En las realizaciones adicionales de la presente invencion, el dispositivo de
5
10
15
20
25
30
35
40
45
50
55
60
acceso a audio puede estar implementado en otros dispositivos tales como sistemas de comunicacion digitales inalambricos y alambricos de par a par, tales como intercomunicadores, y aparatos de radio. En aplicaciones tales como en dispositivos de audio para consumidores, el dispositivo de acceso a audio puede contener un CODEC solamente con un codificador 22 o un descodificador 24, por ejemplo, en un sistema de microfono digital o un dispositivo de reproduccion de musica. En otras realizaciones de la presente invencion, el CODEC 20 se puede usar sin microfono 12 y altavoz 14, por ejemplo, en estaciones base celulares que acceden a la PTSN.
El procesamiento del habla para mejorar la clasificacion sin voz/con voz descrita en diversas realizaciones de la presente invencion se puede implementar en el codificador 22 o el descodificador 24, por ejemplo. El procesamiento del habla para mejorar la clasificacion sin voz/con voz se puede implementar en hardware o software en diversas realizaciones. Por ejemplo, el codificador 22 o el descodificador 24 puede ser parte de un chip de procesamiento de senales digitales (DSP).
La figura 15 ilustra un diagrama de bloques de un sistema de procesamiento que se puede usar para implementar los dispositivos y los metodos descritos en la presente memoria. Unos dispositivos espedficos pueden utilizar todos los componentes mostrados, o solamente un subconjunto de los componentes, y los niveles de integracion pueden variar de dispositivo a dispositivo. Ademas, un dispositivo puede contener multiples ejemplos de un componente, tales como multiples unidades de procesamiento, procesadores, memorias, transmisores, receptores, etc. El sistema de procesamiento puede comprender una unidad de procesamiento equipada con uno o mas dispositivos de entrada/salida, tales como un altavoz, un microfono, un raton, una pantalla tactil, un teclado numerico, un teclado, una impresora, una pantalla, y similar. La unidad de procesamiento puede incluir una unidad central de procesamiento (CPU), una memoria, un dispositivo de almacenamiento masico, un adaptador de video y una interfaz I/O conectada a un bus.
El bus puede ser uno o mas de cualquier tipo de varias arquitecturas de bus, incluyendo un bus de memoria o un controlador de memoria, un bus periferico, un bus de video, o similar. La CPU puede comprender cualquier tipo de procesador de datos electronico. La memoria puede comprender cualquier tipo de memoria del sistema, tal como una memoria de acceso aleatorio estatico (SRAM), una memoria de acceso aleatorio dinamico (DRAM), una DRAM smcrona (SDRAM), una memoria de solo lectura (ROM), una combinacion de las mismas, o similar. En una realizacion, la memoria puede incluir una ROM, para su uso en el autoarranque, y una DRAM de almacenamiento de programas y datos, para su uso mientras se ejecutan programas.
El dispositivo de almacenamiento masico puede comprender cualquier tipo de dispositivo de almacenamiento configurado para almacenar datos, programas y otra informacion, y para hacer que los datos, los programas y otra informacion sean accesibles a traves del bus. El dispositivo de almacenamiento masico puede comprender, por ejemplo, una o mas de una unidad de estado solido, una unidad de disco duro, una unidad de disco magnetico, una unidad de disco optico, o similar.
El adaptador de video y la interfaz I/O proporcionan interfaces para acoplar dispositivos de entrada y salida externos a la unidad de procesamiento. Como se ilustra, los ejemplos de dispositivos de entrada y salida incluyen la pantalla acoplada al adaptador de video y el raton/teclado/impresora acoplados a la interfaz I/O. Otros dispositivos pueden estar acoplados a la unidad de procesamiento, y se pueden utilizar tarjetas de interfaz adicionales o en menor cantidad. Por ejemplo, se puede usar una interfaz en serie, tal como un Bus en serie universal (USB) (no mostrado), a fin de proporcionar una interfaz para una impresora.
La unidad de procesamiento incluye tambien una o mas interfaces de red, que pueden comprender enlaces alambricos, tales como un cable de Ethernet o similar, y/o enlaces inalambricos para acceder a nodos o a diferentes redes. La interfaz de red permite a la unidad de procesamiento comunicarse con unidades remotas a traves de las redes. Por ejemplo, la interfaz de red puede proporcionar la comunicacion inalambrica a traves de uno o mas transmisores/antenas de transmision y uno o mas receptores/antenas de recepcion. En una realizacion, la unidad de procesamiento esta acoplada a una red de area local o a una red de area extensa para el procesamiento de datos y las comunicaciones con dispositivos remotos, tales como otras unidades de procesamiento, Internet, instalaciones de almacenamiento remotas, o similares.
Aunque esta invencion se ha descrito con referencia a las realizaciones ilustrativas, esta descripcion no esta destinada a interpretarse en un sentido limitativo. Diversas modificaciones y combinaciones de las realizaciones ilustrativas, asf como otras realizaciones de la invencion, seran evidentes para los expertos en la tecnica tras hacer referencia a la descripcion. Por ejemplo, se pueden combinar entre sf diversas realizaciones descritas anteriormente.
Aunque la presente invencion y sus ventajas se han descrito con detalle, se debena entender que se pueden realizar en la presente memoria diversos cambios, sustituciones y modificaciones. Por ejemplo, muchas de las caractensticas y funciones descritas anteriormente se pueden implementar en software, hardware o firmware, o una combinacion de los mismos. Como el experto en la tecnica apreciara facilmente a partir de la descripcion de la presente invencion, se pueden utilizar, segun la presente invencion, procesos, maquinas, fabricaciones, composiciones de materia, medios, metodos o etapas, existentes en la actualidad o a desarrollar mas adelante, que realizan sustancialmente la misma funcion o consiguen sustancialmente el mismo resultado que las realizaciones correspondientes descritas en la presente memoria.

Claims (9)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    REIVINDICACIONES
    1. Un metodo para descodificar una corriente de bits de audio codificada y generar una extension del ancho de banda de frecuencia en un descodificador, comprendiendo el metodo:
    descodificar (1001, 1210) la corriente de bits de audio para producir una senal de audio descodificada de banda baja y generar un espectro de excitacion de banda baja correspondiente a una banda de baja frecuencia;
    seleccionar (1003, 1220) una zona de subbanda del interior de la banda de baja frecuencia usando un parametro que indica la informacion de energfa de una envolvente espectral de la senal de audio descodificada de banda baja;
    generar (1005, 1230) un espectro de excitacion de banda alta para una banda de alta frecuencia copiando un espectro de excitacion de subbanda desde la zona seleccionada de subbanda hasta una zona de subbanda alta correspondiente a la banda de alta frecuencia;
    usar (1240) el espectro de excitacion generado de banda alta para generar (1007) una senal de audio de banda alta extendida aplicando (1006) una envolvente espectral de banda alta; y
    anadir la senal de audio de banda alta extendida a la senal de audio descodificada de banda baja para generar una senal de salida de audio que tiene un ancho de banda de frecuencia extendido;
    en donde seleccionar una zona de subbanda del interior de la banda de baja frecuencia usando el parametro que indica la informacion de energfa de la envolvente espectral comprende identificar una subbanda en el interior de la banda baja usando parametros que reflejan la energfa mas alta de la envolvente espectral, o del pico del formante espectral, y seleccionar la subbanda identificada.
  2. 2. El metodo segun la reivindicacion 1, en donde el metodo de descodificacion aplica una tecnologfa de extension del ancho de banda para generar la banda de alta frecuencia.
  3. 3. El metodo segun la reivindicacion 1 o 2, en donde la aplicacion de la envolvente espectral de banda alta comprende aplicar un filtro de banda alta predicho que representa la envolvente espectral de banda alta.
  4. 4. El metodo segun una cualquiera de las reivindicaciones 1 a 3, que comprende ademas:
    generar la senal de salida de audio por transformacion inversa (1104) del espectro de audio en el dominio de la frecuencia al dominio del tiempo.
  5. 5. El metodo segun una cualquiera de las reivindicaciones 1 a 4, en donde la copia del espectro de excitacion de subbanda desde la zona seleccionada de subbanda hasta la zona de subbanda alta correspondiente a la banda de alta frecuencia comprende copiar coeficientes de banda de baja frecuencia de una salida desde un analisis de bancos de filtros hasta la zona de subbanda alta.
  6. 6. Un descodificador para descodificar una corriente de bits de audio codificada y generar un ancho de banda de frecuencia, comprendiendo el descodificador:
    una unidad de descodificacion de banda baja (1310) configurada para descodificar la corriente de bits de audio para producir una senal de audio descodificada de banda baja y para generar un espectro de excitacion de banda baja correspondiente a una banda de baja frecuencia; y
    comprendiendo ademas:
    una unidad de extension del ancho de banda (1320) acoplada a la unidad de descodificacion de banda baja (1310) y que comprende una unidad de seleccion de subbandas (1330) y una unidad copiadora (1340), en donde la unidad de seleccion de subbandas (1330) esta configurada para seleccionar una zona de subbanda del interior de la banda de baja frecuencia usando un parametro que indica la informacion de energfa de una envolvente espectral de la senal de audio descodificada de banda baja, en donde la unidad copiadora (1340) esta configurada para generar un espectro de excitacion de banda alta para una banda de alta frecuencia copiando un espectro de excitacion de subbanda desde la zona seleccionada de subbanda hasta una zona de subbanda alta correspondiente a la banda de alta frecuencia; en donde la unidad de seleccion de subbandas esta configurada para identificar una subbanda en el interior de la banda baja usando parametros que reflejan la energfa mas alta de la envolvente espectral, o del pico del formante espectral, y para seleccionar la subbanda identificada.
  7. 7. El descodificador segun la reivindicacion 6, que comprende ademas:
    un generador de senales de banda alta (1350) acoplado a la unidad copiadora (1340), estando el generador de senales de banda alta (1350) configurado para aplicar una envolvente espectral predicha de banda alta para generar una senal en el dominio del tiempo de banda alta; y
    un generador de salida (1360) acoplado al generador de senales de banda alta y a la unidad de descodificacion de banda baja (1310), en donde el generador de salida (1360) esta configurado para generar una senal de salida de audio combinando una senal en el dominio del tiempo de banda baja obtenida descodificando la corriente de bits de audio con la senal en el dominio del tiempo de banda alta.
    5 8. El descodificador segun la reivindicacion 7, en donde el generador de senales de banda alta (1350) esta
    configurado para aplicar un filtro de banda alta predicho que representa la envolvente espectral predicha de banda alta.
  8. 9. El descodificador segun una cualquiera de las reivindicaciones 6 a 8, que comprende ademas:
    un generador de espectros de banda alta (1355) acoplado a la unidad copiadora (1340), estando el generador de 10 espectros de banda alta (1355) configurado para aplicar una envolvente espectral estimada de banda alta a fin de generar un espectro de banda alta para la banda de alta frecuencia usando el espectro de excitacion de banda alta; y
    un generador de espectros de salida (1365) acoplado al generador de espectros de banda alta (1355) y a la unidad de descodificacion de banda baja (1310), en donde el generador de espectros de salida (1365) esta configurado 15 para generar un espectro de audio en el dominio de la frecuencia combinando un espectro de banda baja obtenido descodificando la corriente de bits de audio con el espectro de banda alta.
  9. 10. El descodificador segun la reivindicacion 9, que comprende ademas:
    un generador de senales de transformada inversa (1370) configurado para generar una senal de audio en el dominio del tiempo por transformacion inversa del espectro de audio en el dominio de la frecuencia al dominio del tiempo.
    20
ES14844454.0T 2013-09-10 2014-09-09 Extensión adaptativa del ancho de banda y aparato para la misma Active ES2644967T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361875690P 2013-09-10 2013-09-10
US201361875690P 2013-09-10
US14/478,839 US9666202B2 (en) 2013-09-10 2014-09-05 Adaptive bandwidth extension and apparatus for the same
US201414478839 2014-09-05
PCT/CN2014/086135 WO2015035896A1 (en) 2013-09-10 2014-09-09 Adaptive bandwidth extension and apparatus for the same

Publications (1)

Publication Number Publication Date
ES2644967T3 true ES2644967T3 (es) 2017-12-01

Family

ID=52626402

Family Applications (1)

Application Number Title Priority Date Filing Date
ES14844454.0T Active ES2644967T3 (es) 2013-09-10 2014-09-09 Extensión adaptativa del ancho de banda y aparato para la misma

Country Status (16)

Country Link
US (2) US9666202B2 (es)
EP (3) EP3301674B1 (es)
JP (1) JP6336086B2 (es)
KR (2) KR101785885B1 (es)
CN (2) CN107393552B (es)
AU (1) AU2014320881B2 (es)
BR (1) BR112016005111B1 (es)
CA (1) CA2923218C (es)
ES (1) ES2644967T3 (es)
HK (1) HK1220541A1 (es)
MX (1) MX356721B (es)
MY (1) MY192508A (es)
PL (1) PL3301674T3 (es)
RU (1) RU2641224C2 (es)
SG (1) SG11201601637PA (es)
WO (1) WO2015035896A1 (es)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL4231291T3 (pl) * 2008-12-15 2024-04-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder powiększania szerokości pasma audio, powiązany sposób oraz program komputerowy
TWI557726B (zh) * 2013-08-29 2016-11-11 杜比國際公司 用於決定音頻信號的高頻帶信號的主比例因子頻帶表之系統和方法
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
CN104517611B (zh) * 2013-09-26 2016-05-25 华为技术有限公司 一种高频激励信号预测方法及装置
FR3017484A1 (fr) 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
CN111312277B (zh) * 2014-03-03 2023-08-15 三星电子株式会社 用于带宽扩展的高频解码的方法及设备
KR101701623B1 (ko) * 2015-07-09 2017-02-13 라인 가부시키가이샤 VoIP 통화음성 대역폭 감소를 은닉하는 시스템 및 방법
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
CN106057220B (zh) * 2016-05-19 2020-01-03 Tcl集团股份有限公司 一种音频信号的高频扩展方法和音频播放器
KR102494080B1 (ko) 2016-06-01 2023-02-01 삼성전자 주식회사 전자 장치 및 전자 장치의 사운드 신호 보정 방법
EP3497697B1 (en) * 2016-11-04 2024-01-31 Hewlett-Packard Development Company, L.P. Dominant frequency processing of audio signals
EP3382704A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
US10431231B2 (en) * 2017-06-29 2019-10-01 Qualcomm Incorporated High-band residual prediction with time-domain inter-channel bandwidth extension
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
CN109688531B (zh) * 2017-10-18 2021-01-26 宏达国际电子股份有限公司 获取高音质音频变换信息的方法、电子装置及记录介质
CN107886966A (zh) * 2017-10-30 2018-04-06 捷开通讯(深圳)有限公司 终端及其优化语音命令的方法、存储装置
CN107863095A (zh) * 2017-11-21 2018-03-30 广州酷狗计算机科技有限公司 音频信号处理方法、装置和存储介质
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10573331B2 (en) * 2018-05-01 2020-02-25 Qualcomm Incorporated Cooperative pyramid vector quantizers for scalable audio coding
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
CN110660402B (zh) 2018-06-29 2022-03-29 华为技术有限公司 立体声信号编码过程中确定加权系数的方法和装置
CN110556122B (zh) * 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN112201261B (zh) * 2020-09-08 2024-05-03 厦门亿联网络技术股份有限公司 基于线性滤波的频带扩展方法、装置及会议终端系统
CN113299313B (zh) * 2021-01-28 2024-03-26 维沃移动通信有限公司 音频处理方法、装置及电子设备
CN114999503A (zh) * 2022-05-23 2022-09-02 北京百瑞互联技术有限公司 一种基于生成对抗网络的全带宽谱系数生成方法及系统

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6070236A (en) * 1996-12-19 2000-05-30 Deutsche Thomson-Brandt Gmbh Apparatus for processing a sequence of control commands as well as a method for generating a sequence of control commands, and storage medium for storing control commands
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
SE0004163D0 (sv) * 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
US20020128839A1 (en) 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
JP2003044098A (ja) * 2001-07-26 2003-02-14 Nec Corp 音声帯域拡張装置及び音声帯域拡張方法
KR100503415B1 (ko) * 2002-12-09 2005-07-22 한국전자통신연구원 대역폭 확장을 이용한 celp 방식 코덱간의 상호부호화 장치 및 그 방법
US7461003B1 (en) * 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
DE102005032724B4 (de) * 2005-07-13 2009-10-08 Siemens Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
BRPI0616624A2 (pt) 2005-09-30 2011-06-28 Matsushita Electric Ind Co Ltd aparelho de codificação de fala e método de codificação de fala
KR100717058B1 (ko) * 2005-11-28 2007-05-14 삼성전자주식회사 고주파 성분 복원 방법 및 그 장치
CN101089951B (zh) 2006-06-16 2011-08-31 北京天籁传音数字技术有限公司 频带扩展编码方法及装置和解码方法及装置
GB0704622D0 (en) * 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
KR101411900B1 (ko) 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
CN101896968A (zh) * 2007-11-06 2010-11-24 诺基亚公司 音频编码装置及其方法
KR100970446B1 (ko) * 2007-11-21 2010-07-16 한국전자통신연구원 주파수 확장을 위한 가변 잡음레벨 결정 장치 및 그 방법
CA2705968C (en) * 2007-11-21 2016-01-26 Lg Electronics Inc. A method and an apparatus for processing a signal
US8688441B2 (en) 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
DE102008015702B4 (de) * 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
AU2009220321B2 (en) * 2008-03-03 2011-09-22 Intellectual Discovery Co., Ltd. Method and apparatus for processing audio signal
KR101475724B1 (ko) * 2008-06-09 2014-12-30 삼성전자주식회사 오디오 신호 품질 향상 장치 및 방법
MX2011000369A (es) * 2008-07-11 2011-07-29 Ten Forschung Ev Fraunhofer Codificador y decodificador de audio para codificar marcos de señales de audio muestreadas.
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
AU2009267507B2 (en) * 2008-07-11 2012-08-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and discriminator for classifying different segments of a signal
MX2011000370A (es) * 2008-07-11 2011-03-15 Fraunhofer Ges Forschung Un aparato y un metodo para decodificar una señal de audio codificada.
CA2730200C (en) * 2008-07-11 2016-09-27 Max Neuendorf An apparatus and a method for generating bandwidth extension output data
ES2592416T3 (es) * 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
CN101770776B (zh) 2008-12-29 2011-06-08 华为技术有限公司 瞬态信号的编码方法和装置、解码方法和装置及处理系统
CN102044250B (zh) 2009-10-23 2012-06-27 华为技术有限公司 频带扩展方法及装置
JP2011209548A (ja) * 2010-03-30 2011-10-20 Nippon Logics Kk 帯域拡張装置
DK2375782T3 (en) * 2010-04-09 2019-03-18 Oticon As Improvements in sound perception by using frequency transposing by moving the envelope
CN103069484B (zh) 2010-04-14 2014-10-08 华为技术有限公司 时/频二维后处理
EP3422346B1 (en) * 2010-07-02 2020-04-22 Dolby International AB Audio encoding with decision about the application of postfiltering when decoding
US9117459B2 (en) * 2010-07-19 2015-08-25 Dolby International Ab Processing of audio signals during high frequency reconstruction
US9047875B2 (en) 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
JP5743137B2 (ja) * 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
US8937382B2 (en) 2011-06-27 2015-01-20 Intel Corporation Secondary device integration into coreless microelectronic device packages
JP5470342B2 (ja) * 2011-08-11 2014-04-16 京セラドキュメントソリューションズ株式会社 画像形成装置
JP6010539B2 (ja) * 2011-09-09 2016-10-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置、符号化方法および復号方法
CN104221081B (zh) * 2011-11-02 2017-03-15 瑞典爱立信有限公司 带宽扩展音频信号的高频带扩展的生成
CN104221082B (zh) * 2012-03-29 2017-03-08 瑞典爱立信有限公司 谐波音频信号的带宽扩展
WO2013188562A2 (en) * 2012-06-12 2013-12-19 Audience, Inc. Bandwidth extension via constrained synthesis
US9728200B2 (en) * 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same

Also Published As

Publication number Publication date
SG11201601637PA (en) 2016-04-28
CN107393552B (zh) 2019-01-18
US20170221498A1 (en) 2017-08-03
MX2016003074A (es) 2016-05-31
RU2016113288A (ru) 2017-10-16
JP6336086B2 (ja) 2018-06-06
US20150073784A1 (en) 2015-03-12
EP3301674A1 (en) 2018-04-04
WO2015035896A1 (en) 2015-03-19
US10249313B2 (en) 2019-04-02
EP4258261A2 (en) 2023-10-11
MX356721B (es) 2018-06-11
KR101871644B1 (ko) 2018-06-26
EP3301674B1 (en) 2023-08-30
US9666202B2 (en) 2017-05-30
KR20170117207A (ko) 2017-10-20
KR101785885B1 (ko) 2017-10-16
HK1220541A1 (zh) 2017-05-05
BR112016005111B1 (pt) 2022-07-12
CA2923218C (en) 2017-12-05
CN105637583A (zh) 2016-06-01
KR20160050071A (ko) 2016-05-10
EP3039676B1 (en) 2017-09-06
JP2016535873A (ja) 2016-11-17
EP3039676A4 (en) 2016-09-07
CN107393552A (zh) 2017-11-24
AU2014320881B2 (en) 2017-05-25
CA2923218A1 (en) 2015-03-19
EP4258261A3 (en) 2023-12-20
AU2014320881A1 (en) 2016-04-07
PL3301674T3 (pl) 2024-03-04
CN105637583B (zh) 2017-08-29
RU2641224C2 (ru) 2018-01-16
EP3039676A1 (en) 2016-07-06
BR112016005111A2 (es) 2017-08-01
MY192508A (en) 2022-08-24

Similar Documents

Publication Publication Date Title
ES2644967T3 (es) Extensión adaptativa del ancho de banda y aparato para la misma
US10885926B2 (en) Classification between time-domain coding and frequency domain coding for high bit rates
ES2908183T3 (es) Decisión no sonora para el procesamiento de la voz