ES2582475T3 - Generación de una extensión de banda ancha de una señal de audio de ancho de banda extendido - Google Patents

Generación de una extensión de banda ancha de una señal de audio de ancho de banda extendido Download PDF

Info

Publication number
ES2582475T3
ES2582475T3 ES12845743.9T ES12845743T ES2582475T3 ES 2582475 T3 ES2582475 T3 ES 2582475T3 ES 12845743 T ES12845743 T ES 12845743T ES 2582475 T3 ES2582475 T3 ES 2582475T3
Authority
ES
Spain
Prior art keywords
excitation
noise
high band
envelope
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12845743.9T
Other languages
English (en)
Inventor
Erik Norvell
Volodya Grancharov
Tomas Jansson Toftgård
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of ES2582475T3 publication Critical patent/ES2582475T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

Método de generación de una extensión de la banda alta de una señal de audio a partir de una envolvente y de una excitación, en el que el método incluye la etapa (S1) de control simultáneo de la forma de la envolvente y del nivel de ruido de excitación con un parámetro de control común f, siendo la citada forma de envolvente controlada (S1A) mediante la utilización de un post-filtro formante H(z) de la forma: en la que es un predictor de filtro lineal que representa la envolvente, y γ1, γ2 son funciones del parámetro de control f.

Description

5
10
15
20
25
30
35
40
45
50
55
DESCRIPCION
Generacion de una extension de banda ancha de una senal de audio de ancho de banda extendido Sector tecnico
La tecnolog^a propuesta se refiere a la generacion de una extension de banda ancha de una senal de audio de ancho de banda extendido.
Antecedentes
La mayona de los sistemas de telecomunicacion existentes operan en un ancho de banda de audio limitado. Como resultado de las limitaciones de los sistemas terrestres de telefoma, la mayona de los servicios de voz estan limitados a transmitir solo el extremo inferior del espectro. Aunque el ancho de banda de audio es suficiente para la mayona de las conversaciones, se desea incrementar el ancho de banda para mejorar la inteligibilidad y el sentido de presencia. Aunque la capacidad en las redes de telecomunicacion esta aumentando continuamente, resulta todavfa de gran interes limitar el ancho de banda necesario para el canal de comunicacion. En las redes moviles menores anchos de banda de transmision para cada llamada conducen a un menor consumo de energfa, tanto en el dispositivo movil como en la estacion de base. Esto se traduce en un ahorro de energfa y de coste para el operador de la red movil, mientras que el usuario final experimental una mayor vida de la batena y un mayor tiempo para hablar. Ademas, con un menor ancho de banda consumido por usuario, la red de telefoma movil puede dar servicio, en paralelo, a un mayor numero de usuarios.
Una propiedad del sistema auditivo humano es que la percepcion depende de la frecuencia. En particular, nuestro ofdo es menos preciso para frecuencias mas altas. Esto ha inspirado las llamadas tecnicas de extension del ancho de banda (BWE - BandWidth Extension, en ingles), en las que una banda de alta frecuencia es reconstruida a partir de una banda de baja frecuencia utilizando recursos limitados.
La BWE convencional utiliza una representacion de la envolvente espectral de la senal de banda ancha extendida, y reproduce la estructura fina espectral de la senal, utilizando una version modificada de la senal de banda baja. Si la envolvente de banda alta se representa mediante un filtro, la senal de estructura fina a menudo se denomina senal de excitacion. Una representacion precisa de la envolvente de banda alta es perceptualmente mas importante que la estructura fina. En consecuencia, es habitual que los recursos disponibles en terminos de bits se consuman en la representacion de la envolvente, mientras que la estructura fina se reconstruye a partir de la senal codificada de banda baja, sin informacion lateral adicional. El concepto basico de la BWE se ilustra en la figura 1.
La tecnologfa de BWE ha sido aplicada en una variedad de sistemas de codificacion de audio. Por ejemplo, el 3GPP AMR-WB+, [1], utiliza una BWE en el dominio del tiempo basada en un codificador de banda baja que conmuta entre la codificacion de conversacion de Predictor lineal excitado mediante codigo (CELP - Code Excited Lineal Predictor, en ingles) y la codificacion de residuo codificado mediante transformada (TCX - Transform Coded Residual, en ingles). Otro ejemplo es el codec de audio basado en transformada eAAC del 3GPP, que efectua una variante de la BWE en el dominio de la transformada, denominada replicacion de banda espectral (SBR - Spectral Band Replication, en ingles), [2]. Aqrn, la excitacion se crea utilizando una mezcla de componentes tonales generados a partir de la excitacion de banda baja y de una fuente de ruido con el fin de hacer coincidir la relacion de tonal a ruido de la senal de entrada. En general, el nivel de ruido de la senal se puede describir como una medida de cuan plano es un espectro, por ejemplo, utilizando una medida de planicidad espectral. El nivel de ruido se puede describir asimismo como no tonalidad, aleatoriedad o ausencia de estructura de la excitacion. Aumentar el nivel de ruido de una senal es hacerla mas parecida a un ruido, por ejemplo, mezclando la senal con una senal de ruido desde, por ejemplo, un generador de numeros aleatorios o cualquier otra fuente de ruido. Esto se puede efectuar asimismo modificando el espectro de la senal para hacerla mas plana.
La estructura espectral fina de la banda baja puede ser muy diferente de la estructura fina encontrada en la banda alta. En particular, la combinacion de una excitacion generada a partir de la senal de banda baja junto con la envolvente de banda alta puede producir aberraciones no deseadas, dado que el caracter armonico residente o la forma de la excitacion pueden ser resaltadas mediante la conformacion de la envolvente de una manera incontrolada. Como medida de seguridad, es habitual aplanar la envolvente de banda alta con el fin de limitar una interaccion no deseada entre la excitacion y la envolvente. Aunque esta solucion puede proporcionar un compromiso razonable, la envolvente mas plana se puede percibir como mas ruidosa, y la envolvente de banda alta sera menos precisa. Gustaffson et al: “Speech Band width Extension” describe la extension del ancho de banda con el control del nivel de ruido de la excitacion de banda alta y la aplicacion de un post-filtro.
Compendio
Un objetivo de la tecnologfa propuesta es un mayor control de la generacion de la extension de banda alta de una senal de audio de ancho de banda extendido.
Este objetivo se consigue de acuerdo con las reivindicaciones adjuntas.
5
10
15
20
25
30
35
40
45
50
Un primer aspecto de la tecnologfa propuesta implica un metodo de generar una extension de banda alta de una senal de audio a partir de una envolvente y de una excitacion. El metodo incluye la etapa de controlar conjuntamente la forma de la envolvente y el nivel de ruido de la excitacion mediante un parametro de control comun.
Un segundo aspecto de la tecnologfa propuesta implica un decodificador de audio configurado para generar una extension de banda alta de una senal de audio a partir de una envolvente y de una excitacion. El decodificador de audio incluye una disposicion de control configurada para controlar conjuntamente la forma de la envolvente y el nivel de ruido de la excitacion, mediante un parametro de control comun.
Un tercer aspecto de la tecnologfa propuesta implica un equipo de usuario (UE - User Equipment, en ingles) que incluye un decodificador de audio de acuerdo con el segundo aspecto.
Un cuarto aspecto de la tecnologfa propuesta implica un codificador de audio que incluye un estimador de planicidad espectral configurado para determinar, para su transmision a un decodificador, una medida de la planicidad espectral de una senal de banda alta.
La tecnologfa propuesta permite una estructura mas pronunciada de la envolvente que enmascara aberraciones perceptuales creadas mediante excitaciones de banda alta generadas artificialmente. Al mismo tiempo, un control conjunto de la estructura de la envolvente y del nivel de ruido de la excitacion mejora la naturalidad de la senal de audio reconstruida.
Breve descripcion de los dibujos
La tecnologfa propuesta, junto con otros objetivos y ventajas de la misma, se puede comprender mejor haciendo referencia a la siguiente descripcion, tomada junto con los dibujos que se acompanan.
La figura 1 ilustra el concepto basico de la tecnica de BWE en forma de un espectro de frecuencia. La senal codificada de banda baja es extendida con una banda alta mediante la utilizacion de una envolvente de banda alta y de una senal de excitacion que se genera a partir de la senal de banda baja.
La figura 2 ilustra un sistema de BWE a modo de ejemplo con un codec de CELP para la banda baja, y en el que la banda superior esta reconstruida utilizando una banda baja de predictor lineal (LP - Linear Predictor, en ingles) y una senal de excitacion, que se genera a partir de parametros de salida modificados del decodificador de CELP.
La figura 3 ilustra un decodificador de BWE a modo de ejemplo que tiene un codificador correspondiente, como se muestra en la figura 2. La excitacion modulada se mezcla con una senal de ruido de un generador de ruido.
La figura 4 ilustra una realizacion a modo de ejemplo de la tecnologfa propuesta en un sistema de decodificador de CELP con una disposicion de control conjunta para la mezcla de la excitacion y la forma espectral.
La figura 5 ilustra un ejemplo de un espectro de LP de entrada y un espectro de LP que ha sido resaltado con un post-filtro.
La figura 6 ilustra una realizacion a modo de ejemplo de un codificador que utiliza un analisis de planicidad espectral basado en coeficientes de codificacion predictiva lineal (LPC - Lineal Predictive Coding, en ingles).
La figura 7 ilustra una realizacion a modo de ejemplo de un decodificador correspondiente al codificador de la figura 6, que utiliza el parametro de planicidad transmitido para un control conjunto de la envolvente espectral y de la estructura de la excitacion.
La figura 8 ilustra un ejemplo de un codec de audio basado en transformada que tiene una codificacion conjunta de la envolvente para todo el espectro, y que emplea tecnicas de BWE para obtener la estructura fina espectral de la banda alta.
La figura 9 ilustra un ejemplo de un decodificador de BWE que pertenece a un codificador correspondiente, tal como se muestra en la figura 8. La excitacion modulada se modifica utilizando un compresor para obtener una estructura fina mas plana en la excitacion de banda alta.
La figura 10 ilustra una realizacion a modo de ejemplo de la tecnologfa propuesta en un sistema de decodificador basado en transformada con un controlador conjunto para la compresion de la excitacion y la expansion de la envolvente.
La figura 11 ilustra una realizacion a modo de ejemplo de un codificador, que tiene una unidad de decodificacion local y un estimador de error de banda baja.
La figura 12 ilustra una realizacion a modo de ejemplo de la tecnologfa propuesta en un sistema de decodificador basado en transformada con una disposicion de control conjunto para la compresion de la excitacion y la expansion de la envolvente, en la que el control conjunto se adapta utilizando la estimacion del error de banda baja a partir del codificador.
5
10
15
20
25
30
35
40
45
50
La figura 13 ilustra una realizacion a modo de ejemplo de una disposicion de control.
La figura 14 ilustra un equipo de usuario (UE) que incluye un decodificador provisto de una disposicion de control.
La figura 15 es un diagrama de flujo que ilustra una realizacion a modo de ejemplo de la tecnologfa propuesta.
La figura 16 es un diagrama de flujo que ilustra una realizacion a modo de ejemplo de la tecnologfa propuesta.
La figura 17 es un diagrama de flujo que ilustra una realizacion a modo de ejemplo de la tecnologfa propuesta.
La figura 18 es un diagrama de flujo que ilustra una realizacion a modo de ejemplo de la tecnologfa propuesta.
La figura 19 es un diagrama de flujo que ilustra una realizacion a modo de ejemplo de la tecnologfa propuesta.
Descripcion detallada
En la descripcion detallada siguiente se han proporcionado bloques que realizan funciones iguales o similares con las mismas designaciones de referencia.
La tecnologfa propuesta puede ser utilizada tanto en la BWE en el dominio del tiempo como en la BWE en el dominio de la frecuencia. A continuacion, se presentaran realizaciones a modo de ejemplo para ambas.
BWE en el dominio del tiempo
En la figura 2, se muestra una realizacion a modo de ejemplo de la BWE de una tecnica anterior, prevista principalmente para aplicaciones de conversacion. Este ejemplo utiliza un algoritmo de codificacion de conversacion de cElP de la senal de entrada, para la banda baja. La envolvente de banda alta se representa con un filtro de LP. La smtesis de la banda alta se crea utilizando una version modificada de la senal de excitacion de banda baja extrafda a partir de la smtesis de CELP.
Cada trama y de la senal de entrada se divide en una senal de banda de baja frecuencia yL, y una senal de banda de alta frecuencia yH, mediante la utilizacion de un banco de filtros de analisis 10. Se puede utilizar cualquier banco de filtros adecuado, pero constana esencialmente de un filtro de paso bajo y un filtro de paso alto, por ejemplo, un banco de filtros de filtro de espejo en cuadratura (QMF - Quadrature Mirror Filter, en ingles). La senal de banda baja se introduce en un algoritmo de codificacion de CELP ejecutado en un codificador de CELP 12. El analisis de LP se lleva a cabo en la senal de banda alta, en un bloque de analisis de LP 14, para obtener una representacion A de la envolvente de banda alta. Los coeficientes de LP que definen A estan codificados con un cuantificador de LP o un codificador de LP 16, y los indices de cuantificacion Ilp son multiplexados en un mux (multiplexador) de secuencia de bits 18, junto con los indices del codificador de CELP Icelp para ser almacenados o transmitidos a un decodificador. El decodificador, a su vez, demultiplexa los indices Ilp e Icelp en un demux (demultiplexador) de secuencia de bits 20, y los envfa al decodificador de LP 22 y al decodificador de CELP 24, respectivamente. En la decodificacion de CELP la senal de excitacion de CELP Xl se extrae y procesa de tal manera que el espectro de frecuencia es modulado para generar la senal de excitacion de banda alta Xh.
Existe una variedad de esquemas de modulacion para crear una excitacion de banda alta Xh a partir de una senal de excitacion de banda baja Xl en un procesador de excitacion 26. Por ejemplo, invertir el espectro garantiza que las propiedades de la senal sean similares en la region de cruce entre la banda baja y la banda alta, pero el extremo superior de la senal de banda alta puede presentar propiedades no deseadas. Otras maneras de generar una excitacion de banda alta es realizar otros tipos de modulacion, que pueden o no preservar la estructura armonica de una serie de armonicos. La senal de excitacion se puede tomar solo de una parte de la banda baja, o incluso adaptativamente buscando en la banda baja partes adecuadas para su utilizacion para formar la senal de excitacion de banda alta. Este ultimo planteamiento puede requerir, asimismo, la codificacion de los parametros, de tal manera que el decodificador pueda identificar las regiones utilizadas en la excitacion de banda alta.
La excitacion modulada Xh se filtra utilizando el filtro de LP de banda alta 1/A para formar la smtesis de banda alta Yh. Esto se realiza en un bloque de smtesis de LP 28. La yl de salida del decodificador de CELP se combina con la smtesis de banda alta Yh en el banco de filtros de smtesis 30, para formar la senal de salida y.
En la figura 2 y en las siguientes figuras, las lmeas hacia y desde el mux de la secuencia de bits 18 y el demux de la secuencia de bits 20, respectivamente, se han marcado a trazos para indicar que transfieren indices que representan cantidades cuantificadas en lugar de los valores reales de las cantidades cuantificadas.
La excitacion de la banda baja puede tener propiedades que no son adecuadas para su utilizacion como excitacion de banda alta. Por ejemplo, la senal de banda baja a menudo contiene una estructura importante de armonicos, lo que provoca aberraciones molestas cuando se transfiere a la banda alta. Una solucion de la tecnica anterior para controlar la estructura de la excitacion es mezclar la senal de excitacion de banda baja con ruido. Un decodificador de ejemplo es un sistema tal como el mostrado en la figura 3. A continuacion, se decodifican los coeficientes del filtro de LP de banda alta A, y se ejecuta el decodificador de CELP 24, mientras se extrae la senal de excitacion tal como se ha descrito en la figura 2. No obstante, la excitacion modulada Xh se mezcla tambien, tal como se ilustra
5
10
15
20
25
30
35
mediante los multiplicadores 32, 34 y un sumador 36, con una senal de ruido gausiano n de un generador de ruido 38 utilizando factores de mezcla respectivos gx(i) y gn(i) para cada subtrama i, es dear:
imagen1
Aqui, XHli representa las muestras Xh de la subtrama i, de tal manera que XH,2 xH,Nsub\ en la que Nsub
es el numero de subtramas. En este ejemplo, Nsub = 4. Puede resultar ademas beneficioso adaptar la forma temporal de la senal de ruido n, de tal manera que coincida con la forma temporal de Xh.
En este ejemplo, los factores de mezcla se determinan en un controlador de mezcla 40, y se basan en un parametro de sonorizacion v(i) de cada subtrama i del codec de CELP:
imagen2
en la que Ei y E2 son las energfas de trama de Xh y n, respectivamente, es decir:
E, ■ E2
L-\
(3)
en la que la trama actual esta representada con las muestras k = 0, 1, 2, ..., L-1. El parametro de sonorizacion v(i) influye en el equilibrio entre la componente de ruido n y la excitacion modulada Xh, y puede, por ejemplo, estar en el intervalo v(i) e [0, 1]. El parametro de sonorizacion expresa la periodicidad de la senal (o tonalidad o armonicidad), y se calcula a partir de la energfa Eacb del libro de codigos algebraico y de la energfa Efcb del libro de codigos fijo del codec de CELP, por ejemplo, de acuerdo con:
v(/) = 0,5(l-rv(i))
(4)
en la que
imagen3
ZiO-EcV)
Ev{t) + Ecii)
(5)
en la que Ev(i) y Ec(i) son las energfas del vector escalado del codigo del paso (pitch, en ingles) y el vector escalado del codigo algebraico para la subtrama i.
La excitacion mezclada X.H se filtra en el bloque de sintesis de LP 28 utilizando el filtro de LP de banda alta 1/A para formar la sintesis de banda alta yH. La yi_ del decodificador de CELP se combina con la sintesis de banda alta yH en el banco de filtros de sintesis 30 para formar la senal de salida y.
Una realizacion a modo de ejemplo de una BWE en el dominio del tiempo basada en la tecnologfa propuesta en esta memoria se centra en un sistema de codificador y de decodificador de audio previsto principalmente para aplicaciones de conversacion. Esta realizacion reside en el decodificador de un sistema de codificacion y de decodificacion tal como se muestra en la figura 2, y dispone de un sistema de mezcla de ruido de excitacion tal como el descrito en la figura 3. La aportacion a los sistemas de la tecnica anterior es un control adicional, tanto de la envolvente espectral como de la mezcla de excitacion, mediante el control conjunto la forma de la envolvente y del nivel de ruido de la excitacion, con un parametro de control f comun (o compartido), tal como se muestra a modo de ejemplo en el decodificador 200 de la figura 4. El parametro de control f es “comun” en el sentido de que el mismo parametro de control f se utiliza para controlar tanto la forma de la envolvente como el nivel de ruido de la excitacion. En este ejemplo se utiliza un solo parametro de control f e [0, 1]. Debe, no obstante, observarse, que se puede utilizar cualquier intervalo del parametro de control, por ejemplo [-A, A], [0, A], [A, 0], o [A, B] para cualquier A y B adecuados. No obstante, existe el beneficio de tener un intervalo unidad simple, con el proposito de controlar conjuntamente dos o mas procesos.
El control de la envolvente espectral puede, por ejemplo, realizarse mediante la utilizacion de un post-filtro conformador H(z) (ilustrado en 42 en la figura 4) de la forma:
5
10
15
20
25
30
H(z) =
A(z!r2)
(6)
en la que
A es un filtro predictor lineal que representa la envolvente, y Yi, Y2 son funciones del parametro de control f.
Este post-filtro 42 se utiliza tipicamente para limpiar los valles espectrales en un decodificador de CELP, y se controla mediante un controlador conjunto del post-filtro y de la excitacion 44. Un ejemplo del resaltado de la envolvente del espectro obtenida con tal post-filtro, se puede ver en la figura 5. En esta realizacion a modo de ejemplo, el filtro 42 se ha realizado adaptativo, modificando Yi, Y2 mediante la utilizacion del parametro de control f de acuerdo con:
imagen4
en la que Yo, Ay son constantes predeterminadas. Valores adecuados para Yo pueden ser Yo = 0,75 o en el rango de Yo e [0,5, 0,9], y valores adecuados para Ay pueden ser Ay = 0,15 o en el rango de Ay e [0,1, 0,3]. Debe observarse que Y0 y Ay se deben elegir de tal manera que Yi e [0, 1] y Y2 e [0, 1]. Con esta disposicion, el valor de control f = 1 proporcionara la modificacion mas importante del post-filtro, mientras que f = 0 deshabilitara el post-filtro ajustando Y1 = Y2, lo que conduce a H(z) = 1.
En otra variante del post-filtro 42 el estado inactivo del filtro para f = 0 se modifica, para proporcionar un efecto de aplanado sobre el espectro. Esto puede resultar util para situaciones en las que el espectro inicial tiene demasiada estructura, de tal manera que una deshabilitacion del post-filtro no es suficiente para conseguir la cantidad deseada de eliminacion del resaltado del valle espectral. En ese caso, la expresion en la ecuacion (7) se puede modificar como:
imagen5
o bien
\r,=n-rcxp+/■{&/+rc%P)
I/2 =ro+r„p-/-(Ay+reip)
en las que la ecuacion (9) tiene en cuenta implfcitamente el desfase del filtro de aplanado. Debe observarse que f = 0 en este caso genera Y1 < Y2, lo que significa que el post-filtro 42 tiene un efecto de aplanado en lugar de resaltar el efecto de la forma de la envolvente.
El efecto aplanador se puede conseguir asimismo ampliando el rango del parametro de control f e [-1, 1] o f e [-A, A] o f e [-A, B] para valores adecuados de A y B. En este caso, el post-filtro 42 se puede expresar como en la ecuacion (7), de tal manera que un f negativo proporciona un efecto de aplanado a la envolvente espectral, mientras que un f positivo mejora la estructura de la envolvente espectral. Puede resultar asimismo deseable utilizar diferentes potencias del post-filtro para el resaltado de la estructura espectral y el aplanado espectral, respectivamente. Uno de tales metodos sena utilizar un Ay diferente dependiendo del signo del parametro de control f.
>1 =ro + /-A?',ta|, r, =Y*-f-&r!*,rP ’
(r, =/„ + /• &rm
1/2 =n.-/-Aj>,r
,/< 0
(10)
en la que AYflat y AYsharp son constantes predeterminadas que controlan la potencia del aplanado y la potencia de la mejora espectral, respectivamente. Valores adecuados pueden ser AYflat = 0,12 o bien en el rango de AYflat e [0,01, 0,20] y AYsharp = 0,08 o bien en el rango de AYsharp e [0,01, 0,20].
La mezcla de la excitacion se controla a su vez mediante un controlador de mezcla 41, configurado para controlar el nivel de ruido mezclando la excitacion de banda alta xH,i de la subtrama i con el ruido n de acuerdo con (1), en la que los factores de mezclado gx(i) y gn(i) estan definidos por:
5
10
15
20
25
30
35
imagen6
en la que
v(i) es un parametro de sonorizacion que controla parcialmente el nivel de ruido de la excitacion, a es una constante de sintonizacion predeterminada,
E1 es la energfa de trama de las excitaciones de banda alta XH,i para todas las subtramas i, y E2 es la energfa de trama del ruido n para todas las subtramas i.
La constante de sintonizacion a decide la modificacion maxima en comparacion con la ecuacion (2). Un valor
adecuado para a puede ser a = 0,3 o bien en el rango de a e [0, 1]. Cuando el parametro de control f es cercano a 1
los factores de mezclado seran equilibrados para proporcionar mas ruido, mientras que un f cercano a 0 proporcionara la proporcion de ruido no modificada en la mezcla.
Si se permiten valores negativos del parametro de control f, una expresion alternativa para los factores de mezcla de ruido generados por el controlador de mezcla 41 es
imagen7
en la que
v(i) es un parametro de sonorizacion que controla parcialmente el nivel de ruido de la excitacion, a es la constante de sintonizacion predeterminada,
E1 es la energfa de trama de las excitaciones de banda alta xH,i para todas las subtramas i, y E2 es la energfa de trama del ruido n para todas las subtramas i.
Aqm, la funcion max(a,b) devuelve el valor maximo de ay b definido en la ecuacion (14) que se muestra a continuacion. En la expresion anterior esto asegura que una f negativa no influya sobre los valores de mezclado del ruido.
En una realizacion, el parametro de control f puede ser adaptado mediante la utilizacion de parametros ya existentes en el decodificador 200. Un ejemplo es utilizar la inclinacion espectral de la senal de banda alta, dado que el post- filtro 42 puede ser danino en combinacion con una inclinacion espectral importante. De este modo, el controlador conjunto del post-filtro y de la excitacion 44 pueden ser configurados para adaptar el parametro de control f a una inclinacion espectral de banda alta tm de la trama m. La inclinacion espectral de banda alta se puede aproximar utilizando el segundo coeficiente a-i,m del filtro de LP decodificado A = {1, a-i,m, a2,m, ■■■, ap,m} de la trama m actual, en el que P es el orden del filtro.
Generalmente resulta beneficioso suavizar la adaptacion para evitar la aparicion de cambios bruscos en la envolvente espectral, por ejemplo, de acuerdo con:
=P'au* +(l-£)max(0„
(13)
en la que tm es el valor de inclinacion espectral de la trama n, tm-1 es el valor de la inclinacion espectral de la trama previa m-1 y p = 0,1 en el rango de p = [0, 0,5]. La funcion maxse puede definir como:
imagen8
Aqm, la funcion max asegura que el valor de la inclinacion espectral utilizado de la trama anterior no es negativo. Otros ejemplos para suavizar la inclinacion espectral son:
= y?' max(0,a, J + (l-/?)(„_,
(15)
y
5
10
15
20
25
30
35
imagen9
Puede resultar asimismo deseable considerar inclinaciones espectrales tanto negativas como positivas. En este caso, se puede utilizar el valor absoluto de la aproximacion de la inclinacion espectral, es dear:
imagen10
El valor de la inclinacion espectral suavizada puede ser mapeado al parametro de control f mediante una funcion lineal definida a trozos:
imagen11
en la que Cmin y Cmax son constantes predeterminadas. En este ejemplo, los valores de la constante son ajustados a Cmax = 0,8 y Cmin = 0,4, pero los valores de otras variables pueden ser elegidos de Cmax e [0,5, 2,0] y Cmin e [0, Cmax].
Volviendo a la figura 4, utilizando gx y el gn modificados se obtiene una serial de excitacion nueva . Esta serial es filtrada utilizando el filtro de LP de banda alta 1/A (en 28), para formar una primera etapa de smtesis de banda alta y’H. Esta serial es introducida en el post-filtro adaptativo H(z) (en 42) para obtener la sintesis de banda alta yn. La
salida yi_ del decodificador de CELP 24 se combina con la sintesis de banda alta XH en el banco de filtros de smtesis 30 para formar la senal de salida y.
Existen otras alternativas a la adaptacion basada en la inclinacion descrita anteriormente. Por ejemplo, se puede utilizar una medida de la planicidad espectral de la banda alta. La planicidad espectral 9 se mide en alguna representacion del espectro de banda alta. Se puede obtener, por ejemplo, a partir de los coeficientes A de LPC de banda alta, utilizando la expresion bien conocida:
imagen12
en la que
imagen13
en la que DFT(A, M) indica la transformada de Fourier discontinua de la longitud M de los coeficientes A de LPC. La expresion | | indica la magnitud de los valores de la transformada compleja (el punto representa una expresion matematica) y, debido a la simetna de la transformada, solo se consideran los primeros N = M/2 valores. Esta transformada se implementa preferiblemente mediante una FFT (Transformada rapida de Fourier - Fast Fourier Transform, en ingles), y la M seria la mayor potencia mas cercana de 2 a la longitud del filtro P+1, es decir, M=2rlog2(P+in
Si P+1 > M, el filtro de entrada A se rellena con ceros antes de que se ejecute la FFT. La planicidad espectral 9 se puede calcular asimismo utilizando los coeficientes de LPC cuantificados A. Si esto se lleva a cabo, la medida de la planicidad espectral se puede calcular en el decodificador sin senalizacion adicional. En este caso, el sistema se puede describir mediante la figura 4, siempre que A sea sustituida por A en la ecuacion (20).
Puede resultar deseable determinar la medida de la planicidad espectral del lado del decodificador, para reducir la complejidad global, cuando se consideran tanto el codificador como el decodificador. En tal realizacion, el codificador incluye un estimador de planicidad espectral configurado para determinar, para su transmision a un decodificador, una medida de la planicidad espectral de la senal de banda alta. En la figura 6, se representa un codificador que utiliza un estimador de planicidad espectral 46 basado en los coeficientes de LPC. En este caso, la medida de la planicidad se debe senalar en la secuencia de bits. La senalizacion puede consistir en una decision binaria
<p e {0,1} de sj |a planicidad espectral se considera alta 0 baja dependiendo de un valor de umbral cpthr-
imagen14
5
10
15
20
25
30
35
40
45
50
El parametro de control f correspondiente se puede obtener, por ejemplo, utilizando la decision binaria tP, es decir, f
A
= 1 -2 <P.
Con las definiciones anteriores, el parametro de control f sera de 1 para valores de planicidad por encima del umbral, y de -1 para valores de planicidad por debajo del umbral. Para limitar la influencia de la conmutacion brusca entre estos valores, el parametro de control se puede ademas suavizar utilizando, por ejemplo, un factor de olvido p de una manera similar a la del filtrado de inclinacion:
(22)
En la figura 7, se muestra un decodificador 200 correspondiente al codificador de la figura 6. Es similar al decodificador de la figura 4. No obstante, en la figura 7, el controlador conjunto del post-filtro y de la excitacion 44
A
determinan el parametro de control f sobre la base de la decision binaria recibida en lugar del filtro predictor lineal A que representa a la envolvente. De manera general, el parametro de control f esta adaptado a una medida de la planicidad espectral (9) de la banda alta.
Debe observarse que son posibles otras etapas del procesamiento antes del filtro de smtesis 1/A, o antes del post- filtro H(z). Una de tales etapas del procesamiento podna ser un procedimiento de conformado temporal dirigido a reconstruir la estructura temporal de la serial de banda alta original. Tal conformado temporal puede ser codificado utilizando la cuantificacion de un vector de forma de ganancia que representa los factores de correccion de la ganancia a nivel de subtrama. Parte de la conformacion temporal sera heredada asimismo de la serial de excitacion de banda baja, que es parcialmente utilizada como base para la serial de excitacion de banda alta.
El post-filtro y la mezcla de la excitacion pueden afectar tambien a la energfa de las senales. Mantener estable la energfa resulta deseable, y existen muchos metodos para gestionar este aspecto. Una posible solucion es medir la energfa antes y despues de la modificacion, y la restauracion de la energfa al valor anterior a la mezcla de la excitacion y del post-filtrado. La medicion de la energfa puede estar asimismo limitada a una cierta banda o a las regiones de mayor energfa del espectro, permitiendo la perdida de energfa en los valles del espectro. En esta realizacion a modo de ejemplo, se puede utilizar la compensacion de la energfa como parte integral de las funciones de mezcla y de post-filtro.
BWE en el dominio de la frecuencia
A menudo, se utilizan codificadores de audio basados en la transformada de la frecuencia, para senales de audio generales, tales como musica o conversacion con ruidos de fondo y reverberacion. A tasas de bits bajas, generalmente muestran un mal comportamiento. Una solucion comun de la tecnica anterior es disminuir el ancho de banda para obtener una calidad aceptable para una banda mas estrecha, y aplicar BWE para las frecuencias mayores. Una vision global de tal sistema se muestra en la figura 8.
El audio de entrada se divide en primer lugar en segmentos de tiempo o tramas, como etapa de preparacion para la transformacion de la frecuencia. Cada trama y se transforma en el dominio de la frecuencia para formar un espectro en el dominio de la frecuencia Y. Esto se puede efectuar mediante la utilizacion de cualquier transformada adecuada, tal como la transformada discontinua del coseno modificada (MDCT - Modified Discrete Cosine Transform, en ingles), la transformada discontinua del coseno (DCT -Discrete Cosine Transform, en ingles) o la transformada de Fourier discontinua (DFT - Discrete Fourier discontinua (DFT - Discrete Fourier Transform, en ingles). El espectro de frecuencia se divide en vectores de fila mas cortos, indicados como Y(b). Estas funciones se realizan mediante un transformador de frecuencia 50. Cada vector representa ahora los coeficientes de una banda de frecuencia b del numero total de bandas Nb. Desde una perspectiva perceptual, resulta beneficioso dividir el espectro utilizando una estructura de banda no uniforme de acuerdo con la resolucion de frecuencia del sistema auditivo humano. Esto, en general, significa que se utilizan anchos de banda estrechos para frecuencias bajas, mientras que se utilizan anchos de banda mas grandes para frecuencias altas.
A continuacion, se calcula la norma de cada banda en un analizador de envolvente 52, para formar una secuencia de valores de ganancia E(b) que forman la envolvente espectral. Estos valores son a continuacion cuantificados utilizando un codificador de envolvente 54 para formar la envolvente cuantificada E(b). La cuantificacion de la envolvente se puede realizar utilizando cualquier tecnica de cuantificacion, por ejemplo, cuantificacion escalar diferencial, o cualquier esquema de cuantificacion de vectores. Los coeficientes de la envolvente cuantificada E(b) se utilizan para normalizar los vectores de banda Y(b) en un normalizador de la envolvente 56 para formar vectores de forma normalizados X(b) correspondientes:
1
X{b) = J{b)Y<'b) (23)
La secuencia de vectores de forma normalizados X(b) constituye la estructura fina del espectro. La importancia perceptual de la estructura fina espectral vana con la frecuencia, pero puede depender tambien de otras
5
10
15
20
25
30
35
40
45
50
propiedades de la senal, tal como la senal de envolvente espectral. Los codificadores de transformacion a menudo emplean un modelo auditivo para determinar las partes importantes de la estructura fina, y asignan los recursos disponibles a las partes mas importantes. La envolvente espectral se utiliza a menudo como entrada para este modelo auditivo, y la salida es tfpicamente una asignacion de bits para cada una de las bandas correspondientes a los coeficientes de la envolvente. En esta memoria, un algoritmo de asignacion de bits en un asignador de bits 58 utiliza la envolvente cuantificada E(b) en combinacion con un modelo auditivo interno para asignar un numero de bits R(b) que, a su vez, son utilizados por un codificador de estructura fina 60. Cuando el codificador de transformacion es operado a tasas de bits bajas, a algunas de las bandas se les asignaran cero bits, y los vectores de forma correspondientes no seran cuantificados. Los indices Ie e Ix de la cuantificacion de la envolvente y los vectores codificados de la estructura fina, respectivamente, son multiplexados en un mux (multiplexador) de secuencia de bits 62 para ser almacenados o transmitidos a un decodificador.
El decodificador desmultiplexa los indices del canal de comunicacion o los medios almacenados en un demux (desmultiplexador) de secuencia de bits 70 y transmite los indices Ix a un decodificador de estructura fina 72 e Ie a un decodificador de envolvente 74. La envolvente cuantificada E(b) se obtiene e introduce en el algoritmo de asignacion de bits en un asignador de bits 76 en el decodificador, que genera la asignacion de bits R(b). Utilizando R(b), se encuentra la banda con el valor distinto de cero mas alto en la asignacion de bits. Esta banda se indica bmax.
El decodificador de estructura fina 72 utiliza los indices de estructura fina Ix y la asignacion de bits R(b) para producir
A
los vectores de estructura fina cuantificados ^db) que estan definidos para b = 1, 2,..., bmax.
En esta realizacion a modo de ejemplo, la frecuencia de cruce es adaptativa, dependiendo de la asignacion de bits, y empieza en la banda bmax + 1, dada la restriccion de que bmax + 1 ^ Nb.
Pueden existir bandas b < bmax que tienen cero bits asignados. En particular, para tasas de bits bajas, es habitual que aparezcan tales bandas de cero bits y, debido a las variaciones en el espectro, las posiciones de las bandas de cero bits habitualmente vanan de trama en trama. Tales variaciones provocan efectos de modulacion en la smtesis. Tfpicamente, las bandas de cero bits son manejadas con tecnicas de llenado espectral, en las que las senales son inyectadas en las bandas de cero bits. La senal de llenado puede ser una senal de ruido pseudoaleatorio o una version modificada de las bandas codificadas. La tecnica de llenado no es una parte esencial de esta tecnologfa, y se asume que un llenado espectral adecuado forma parte del decodificador de estructura fina 72. Tras la realizacion
del llenado espectral, la estructura fina de banda baja xdb) es introducida en un conformador de envolvente 78 de
A
baja frecuencia, que restaura el espectro de banda baja Y^b) sintetizado de acuerdo con:
YL(b) = XL(b)-E(b), b = \,2,...bm
(24)
La estructura fina de banda baja xdb)se introduce asimismo en un modificador o procesador de estructura fina 80, que identifica la longitud de la estructura de banda baja a partir del parametro bmax, y crea una serial de excitacion de
banda alta definida para + ^ ^max + ^.....^xjs^en muc|-|as tecnicas para crear una excitacion de
banda alta a partir de la excitacion de banda baja. En esta realizacion a modo de ejemplo, la mitad superior de la
A
y
serial de excitacion de banda baja se abate y duplica para llenar la excitacion de banda alta. Asumase que Alh representa la mitad superior de la serial de excitacion de banda baja y que la funcion rev(-) invierte los elementos de
A A A A
un vector. A continuacion, la secuencia [rev(^£Jf) ^LH revi^Lhd 1 Se repite tantas veces como sea necesario
para llenar el espectro de excitacion de banda alta Xfjp), fomax + 1, kmax+2....^b-\_a serial de excitacion de banda
alta se introduce a continuacion en un formador de envolvente de alta frecuencia 82 para formar el espectro de
A
banda alta sintetizado Ynib)
de acuerdo con:
YH(b) = XH(b) ■ E(b), b = b^ + +2,...,Nb
(25)
El espectro de banda baja sintetizado Ydb) y el espectro de banda alta sintetizado Y^b) se combinan en un
A
combinador de espectro 84 para formar el espectro de sintesis Y(b) 0 y con el indice de banda omitido. El espectro de smtesis se introduce en el transformador de frecuencia inverso 86 para formar la senal de salida y. En este proceso, se llevan a cabo tambien las operaciones de creacion de ventana y de adicion de superposicion que estan ligadas a la transformacion de la frecuencia.
Tal como era el caso de la BWE en el dominio del tiempo, la excitacion de la banda baja puede tener propiedades que no son adecuadas para su utilizacion como excitacion de banda alta. En particular, puede resultar deseable aplanar una parte de la estructura fina en la excitacion de banda baja. En la figura 9, se muestra un decodificador de tal sistema a modo de ejemplo. Este sistema de la tecnica anterior asume un codificador tal como el representado en la figura 8. La adicion al esquema descrito es que existe un compresor H (en 88), que opera en la senal de
5
10
15
20
25
30
35
excitacion de banda alta x^b) para producir la serial de excitacion de banda alta comprimida. Una funcion de compresor a modo de ejemplo es:
imagen15
max
imagen16
7
(26)
que significa que H es un vector con la misma longitud que xh- Aqui se ha omitido el indice de banda b, y los vectores representan a todos los elementos para las bandas definidas, es dear:
imagen17
El factor de compresion q es menor de 1, y un valor adecuado puede ser q = 0,5 o bien en el rango de q e [0,01, 0,99], en el que valores cercanos a 0 no proporcionan ningun efecto, y valores cercanos a 1 proporcionan una compresion maxima. La sintesis de banda alta comprimida se obtiene mediante la multiplicacion por elementos de H
A
y Xff. se puede expresarcomo matriz de multiplicacion:
X„=H diag(lw)
(28)

. A «
en la que diag(XH) pr0CjUCe una matriz cuadrada con H en la diagonal. La excitacion de banda alta comprimida se introduce en el formador de envolvente de alta frecuencia 82 para formar el espectro de banda alta
de acuerdo con:

Yfl(b) = XH(b)E(b), b = b^+ \,bmNt (29)

A A
Tal como se ilustra en la figura 9. el espectro de banda baja y el espectro de banda alta XhW se combinan
en el combinador de espectro 84 para formar el espectro de sintesis Y, que es introducido en el transformador de frecuencia inverso 86 para formar la senal de salida y.
Una realizacion a modo de ejemplo de una BWE en el dominio de la frecuencia basada en la tecnologfa propuesta, se centra en un sistema codificador y decodificador de audio previsto principalmente para senales de audio generales. La nueva tecnologfa reside principalmente en el decodificador de un sistema de codificacion y de decodificacion tal como el representado en la figura 8 con un sistema de compresion de excitacion tal como se ilustra en la figura 9. En la figura 10, se ilustra una realizacion a modo de ejemplo de tal decodificador 200.
Adicionalmente a la tecnica anterior se proporciona un control combinado de una compresion de la excitacion de banda alta, que se controla conjuntamente con un amplificador de envolvente espectral 90, como se muestra en la figura 10. Como en el dominio del tiempo, se utiliza un parametro de control f e [0, 1] para dirigir tanto al compresor 88 como al amplificador 90. Esto se lleva a cabo mediante un controlador conjunto del amplificador y del compresor 92.
La potencia del compresor de excitacion de banda alta 88 se adapta utilizando el parametro de control f de acuerdo con:
imagen18
en la que Aq proporciona el exponente maximo del factor de compresion q + Aq cuando f = 1. Si q = 0,5, entonces un valor adecuado para Aq puede ser Aq = 0,3, o bien en el rango de Aq e [0,01, 1-q], Debe observarse que q + Aq <
1. La excitacion de banda alta comprimida se obtiene mediante la multiplicacion elemento a elemento de H y xh, es decir:
Xh=H diag<!„) (31)
El amplificador 90 utilizado en la envolvente de banda alta tiene una estructura similar al compresor de la excitacion de banda alta:
imagen19
10
15
20
25
30
35
Aqm, el valor absoluto | | se puede omitir, dado que los coeficientes de la envolvente E(b) > 0. Para f = 0, el amplificador tendra un efecto mmimo con el coeficiente de expansion 9. Un valor adecuado para 9 puede ser 9 = 0, dado que esto hana que la envolvente no resultase afectada para f = 0. Si un efecto de expansion pequeno es siempre deseable, se pueden elegir valores adecuados, por ejemplo, del rango 9 e [0, 0,5]. La expansion maxima se obtiene para f =1, que proporciona el exponente del factor de expansion -(9 + A9). El valor para A9 se puede ajustar a A9 = 1, pero el valor adecuado dependena en gran medida de la estructura de banda, y se puede elegir de un amplio rango, por ejemplo, A9 e [0,5, 10]. La envolvente ampliada E(b) se obtiene mediante multiplicacion elemento a elemento de la envolvente con la funcion de expansion G, es decir:
£„=Gdiag(£J (33)
en la que ^h representa los elementos de la envolvente de la banda alta [^^max+ La
envolvente expandida se aplica a la estructura fina de banda alta comprimida para formar el espectro de banda alta
de acuerdo con:
y„W = XH(b) ■ E(b), b = bmax + l,i_ + 2,...,Nb
(34)
El espectro de banda baja sintetizado y el espectro de banda
A
combinador de espectro 84 para formar el espectro de sintesis Y
A
frecuencia inversa 86 para formar la serial de salida^-
alta sintetizado se combinan en el
, que se introduce en el transformador de
El parametro de control conjunto f se puede obtener a partir de los parametros ya disponibles en el decodificador 200, o puede estar basado en un analisis proporcionado en el codificador y transmitido al decodificador. En esta memoria, como para el caso de BWE en el dominio del tiempo, nos basamos en una estimacion de la inclinacion espectral de banda alta. Tal estimacion se puede obtener a partir de los parametros de la envolvente, midiendo el cociente qm de las sumas de los coeficientes de la envolvente en cada mitad de la senal de banda alta, es decir:
2 w)
I m
b=tmu +1
(35)
en la que
=LW-*nax)/2j + i_+l
(36)
El suavizado de la inclinacion espectral tm para la trama m se puede efectuar de la misma manera que la realizacion en el dominio del tiempo, por ejemplo, utilizando:
imagen20
El mapeo de la inclinacion espectral al parametro de control f se puede efectuar asimismo utilizando la misma funcion lineal definida a trozos que en la realizacion en el dominio del tiempo, es decir:
imagen21
No obstante, dado que la definicion de la inclinacion espectral es diferente, las constantes Cmax y Cmin de la funcion de mapeo seran diferentes. Estas dependeran por ejemplo de la estructura de banda.
En una alternativa de la realizacion en el dominio de la frecuencia descrita anteriormente, el control conjunto de la envolvente y de la excitacion esta adaptado a la senal de error de banda baja, que se estima en el codificador, que es similar al codificador en el sistema representado en la figura 8, pero ademas tiene una decodificacion local y una unidad de medicion del error. Un ejemplo de tal sistema se muestra en la figura 11, en la que la decodificacion local y una unidad de medicion del error incluyen un decodificador local 96, un extractor de espectro de baja frecuencia 98, un sumador 100 y un codificador de error de baja frecuencia 102. En esta realizacion, una sintesis de banda baja
A ^
local se obtiene utilizando la envolvente cuantificada y una estructura fina de banda baja decodificada que es extrafda del codificador de la estructura fina. Es asimismo posible ejecutar el decodificador de estructura fina
5
10
15
20
25
30
35
completa para extraer ^f-^de los indices lx, pero se puede, en general, extraer una sintesis local del codificador
con menos complejidad de calculo. Un espectro de banda baja sintetizado localmente se genera mediante el conformado de la estructura de banda baja decodificada con la envolvente cuantificada:
YL(b) = XL(b) E(b), b = \,2,...bm
(39)
El espectro de banda baja de la serial de entrada se extrae del espectro completo encontrando la ultima banda cuantificada utilizando la asignacion de bit R(b). Una senal de error de banda baja se forma como la relacion de registro de la energfa de la senal de entrada y la distancia euclidiana entre el espectro de banda baja sintetizado del espectro de banda baja de entrada, es decir, una medida Dl de la relacion de senal a ruido (SNR - Signal to Noise Ratio, en ingles) en la sintesis de banda baja definida como:
imagen22
La SNR de banda baja es cuantificada y los indices de cuantificacion Ierr son multiplexados entre sf con los indices de la envolvente Ie y los indices de la estructura fina Ix para ser almacenados o transmitidos a un decodificador. La codificacion de SNR baja se puede llevar a cabo, por ejemplo, utilizando un cuantificador escalar uniforme.
El decodificador 200 es similar al decodificador representado en la figura 9, pero ademas tiene un control combinado de la compresion de excitacion de banda alta que es controlada a la vez que un amplificador de envolvente espectral, tal como se muestra en la figura 10. Como en las realizaciones del dominio del tiempo, se utiliza un parametro de control f e [0, 1] para dirigir tanto al compresor como al amplificador.
Utilizando el parametro de control f, la potencia del compresor de extension de banda alta se adapta de acuerdo con:
imagen23
en la que Ap proporciona el factor de compresion maximo n + Ap cuando f =1. Si p = 0,5, un valor adecuado para Ap puede ser Ap = 0,3, o bien en el rango de Ap e [0,01, 1-p], Debe observarse que p + Ap < 1. La excitacion de
A
y
banda alta comprimida se obtiene mediante la multiplicacion elemento a elemento de H y H de acuerdo con:
Xh=H diag(*„) (42)
El amplificador utilizado en la envolvente de banda alta tiene una estructura similar a la del compresor de la envolvente de banda alta:
imagen24
Aqui, el valor absoluto | | se puede omitir, dado que los coeficientes de la envolvente E(b)>0 para f = o, el amplificador tendra un mmimo efecto con el coeficiente de expansion O. Un valor adecuado para O puede ser O = 0, dado que esto proporcionana una envolvente no afectada para f =0. Si un efecto de expansion pequeno resulta siempre deseable, se pueden elegir valores adecuados, por ejemplo, del rango de Oe [0, 0,5]. La expansion maxima se obtiene para f = 1, lo que proporciona el exponente del factor de expansion -(O + AO). El valor para AO se puede ajustar a AO = 1, pero el valor adecuado dependeria en gran medida de la_estructura de la banda, y se puede elegir de un amplio rango, por ejemplo, OA e [0,5, 10], La envolvente ampliada E(b) se obtiene mediante la multiplicacion elemento a elemento de la envolvente con la funcion de expansion G, es decir:
iw=Cdiag(4) (44)
en la que eh representa los elementos de la envolvente de banda alta [^max envolvente ampliada se aplica a la estructura fina de banda alta comprimida banda alta^tf*^ de acuerdo con:
+1) E(bmax+2)-£(Nb)] para formar el espectro
La
de
5
10
15
20
25
30
35
40
45
Y„(b) = X„(h) ■ E(b), b = b^ + \,b^+ 2,....Nb
(45)
El espectro de banda baja sintetizado Yi(b) y e| espectro de banda alta sintetizado se combinan en el
combinador de espectro para formar el espectro de sintesis Y, que se introduce en el transformador de frecuencia
A
inversa para formar la serial de salida V.
En esta realizacion, el parametro de control f esta basado en la SNR de banda baja del analisis del codificador. En
A
primer lugar, se obtiene una SNR de banda baja reconstruida del indice de error de banda baja I err. La SNR de banda baja reconstruida se mapea a un parametro de control f utilizando una funcion lineal definida a trozos:
imagen25
en la que las constantes Dmin y Dmax dependen de los valores de distorsion de la banda baja tipicos para este sistema. Un valor adecuado para Dmin puede ser Dmin = 10, o cualquier valor en el rango Dmin e [5, 20], mientras que valores adecuados para Dmax pueden ser Dmax = 20 o en el rango Dmax e [10, 50]. Esta relacion proporcionara una modificacion mas importante para los valores altos de la SNR, correspondientes a la distorsion baja en la banda baja. Puede resultar asimismo deseable tener la relacion opuesta, de tal manera que se utilizaria una modificacion importante para las SNR bajas (valores de distorsion altos). Tal relacion se puede obtener invirtiendo la relacion descrita anteriormente, es decir:
imagen26
Debe observarse que la funcion de compresor y de amplificador puede cambiar la energfa global de los vectores. Preferiblemente, la energfa debe mantenerse estable y existen muchos metodos para manejar esto. Una solucion posible es medir la energfa antes y despues de la modificacion, y restaurar la energfa al valor antes de la compresion o la expansion. La medicion de la energfa se puede limitar asimismo a una cierta banda o a las regiones superiores de la energfa del espectro, permitiendo una perdida de energfa en los valles del espectro. En esta realizacion a modo de ejemplo se asume que se utiliza una cierta compensacion de energfa y que forma una parte integral de las funciones del compresor y del amplificador.
Las etapas, funciones, procedimientos y/o bloques descritos en esta memoria se pueden implementar en hardware utilizando cualquier tecnologfa convencional, tal como la tecnologfa de circuitos separados o de circuitos integrados, que incluye tanto circuitos electronicos de proposito general como circuitos espedficos para una aplicacion.
De manera alternativa, al menos algunas de las etapas, funciones, procedimientos y/o bloques descritos en esta memoria, pueden ser implementados en software para su ejecucion mediante el equipo de procesamiento adecuado. Este equipo puede incluir, por ejemplo, uno o varios micro procesadores, uno o varios procesadores de senal digital (DSP - Digital Signal Processor, en ingles), uno o varios circuitos integrados espedficos para una aplicacion (ASIC - Application Specific Integrated Circuits, en ingles), hardware de video acelerado o uno o varios dispositivos logicos programables, tales como las matrices de puertas programables en campo (FPGA - Field Programmable Gate Array, en ingles). Tambien son factibles las combinaciones de tales elementos de procesamiento.
Debe comprenderse asimismo que es posible reutilizar las capacidades generales de procesamiento ya existentes en el codificador / decodificador. Esto se puede realizar, por ejemplo, mediante reprogramacion del software existente, o mediante la adicion de nuevos componentes de software.
La figura 13 ilustra una realizacion a modo de ejemplo de una disposicion de control. Esta disposicion se basa en un procesador 210, por ejemplo, un microprocesador, que ejecuta software 220 para controlar a la vez la forma de la envolvente y el nivel de ruido de la excitacion con un parametro de control comun. El software esta almacenado en la memoria 230. El procesador 210 se comunica con la memoria sobre un bus del sistema. Las senales de entrada son recibidas por un controlador de entrada / salida (I/O - Input / Output, en ingles) 240 que controla un bus de I/O, al cual estan conectados el procesador 210 y la memoria 230. Las senales de salida obtenidas del software 220 son emitidas desde la memoria 230 mediante el controlador de I/O 240 sobre el bus I/O. Las senales de entrada y salida entre parentesis corresponden a la BWE en el dominio del tiempo, y las senales de entrada y salida sin parentesis corresponden a la BWE en el dominio de la frecuencia.
5
10
15
20
25
30
35
Una realizacion basada en una medida 9 de la planicidad espectral puede estar configurada estructuralmente como en la figura 13, con un procesador, memoria, bus de sistema, bus de I/O y controlador de I/O.
La tecnologfa descrita anteriormente esta prevista para utilizar en un codificador / decodificador de audio, que se puede utilizar en un dispositivo movil (por ejemplo, telefono movil, ordenador portatil) o en un dispositivo estacionario, tal como un ordenador personal. En esta memoria el termino equipo de usuario (UE) se utilizara como nombre generico para tales dispositivos. La figura 14 ilustra un UE que incluye un decodificador provisto de una disposicion de control. Una senal de audio recibida por una unidad de radio 300 se convierte a banda base, se decodifica en el canal y se transmite a un decodificador de audio 200. El decodificador de audio esta provisto de una disposicion de control 310 que opera en el dominio del tiempo o de la frecuencia, tal como se ha descrito anteriormente. Las muestras de audio de ancho de banda extendido son transmitidas a una unidad de conversion y amplificacion D/A 320, que transmite la senal final de audio a un altavoz 330.
La figura 15 es un diagrama de flujo que ilustra la tecnologfa propuesta. La etapa S1 controla conjuntamente la forma de la envolvente y el nivel de ruido con un parametro de control f comun.
La figura 16 es un diagrama de flujo que ilustra una realizacion a modo de ejemplo de la tecnologfa propuesta. En esta realizacion, la etapa S1 incluye una etapa S1A que controla la forma de la envolvente mediante la utilizacion de un post-filtro de formato H(z), por ejemplo, que tiene la forma definida por las ecuaciones (6). Las constantes predeterminadas Y1, Y2 se pueden determinar, por ejemplo, de acuerdo con una de las ecuaciones (7) - (10).
La figura 17 es un diagrama de flujo que ilustra una realizacion de la tecnologfa propuesta. En esta realizacion, la etapa S1 incluye una etapa S1B que controla el nivel de ruido de la excitacion mediante la mezcla de la excitacion de banda alta Nhj de una subtrama i con ruido Hi de acuerdo con la ecuacion (1), en la que los factores de mezcla gx(i) y gn(i) estan definidos, por ejemplo, por la ecuacion (11) o (12), dependiendo de la eleccion de las constantes predeterminadas Y1, Y2.
La figura 18 es un diagrama de flujo que ilustra una realizacion de la tecnologfa propuesta. En esta realizacion, la etapa S1 incluye una etapa S1C que adapta el parametro de control f a una inclinacion espectral de la banda alta tm de la trama m, por ejemplo, de acuerdo con la ecuacion (18). En una realizacion la inclinacion espectral de banda alta tm se puede aproximar utilizando el segundo coeficiente ai,m del filtro predictor lineal decodificado
-{1 al,m; a2,m....aP,m}de la trama m, en el que P es el orden del filtro. En general resulta asimismo beneficioso
suavizar la inclinacion espectral de banda alta tm, por ejemplo, de acuerdo con una de las ecuaciones (13), (15) - (17). Una realizacion basada en una medida 9 de la planicidad espectral puede llevar a cabo la etapa S1C utilizando el planteamiento descrito con referencia a las ecuaciones (19) - (22).
La figura 19 es un diagrama de flujo que ilustra una realizacion de la tecnologfa propuesta. Esta realizacion combina las etapas S1A, S1B, S1C. Tfpicamente el parametro de control f se determina en primer lugar. A continuacion, se utiliza para realizar las etapas S1A y S1B. Asimismo, son posibles otras combinaciones, incluidas S1A + S1C o S1B + S1C.
Los expertos en la materia comprenderan que se pueden realizar varias modificaciones y cambios a la tecnologfa propuesta sin separarse del alcance de la misma, que esta definida por las reivindicaciones adjuntas.
Abreviaturas ASIC Circuito integrado espedfico para una aplicacion
Application Specific Integrated Circuit, en ingles
BWE
Extension del ancho de banda Extension Bandwidth, en ingles
CELP
Predictor lineal excitado mediante codigo Code Excited Linear Predictor, en ingles
DCT
Transformada discontinua del coseno Discrete Cosine Transform, en ingles
DFT
Transformada discontinua de Fourier Discrete Fourier Transform, en ingles
DSP
Procesador de senal digital Digital Signal Processor, en ingles
FFT
Transformada rapida de Fourier Fast-Fourier Transform, en ingles
FPGA
Matrices de puertas programables en campo Field Programmable Gate Array, en ingles
HF
Alta frecuencia High Frequency, en ingles
LF
Baja frecuencia Low Frequency, en ingles
LP
Predictor lineal Linear Predictor, en ingles
LPC
Codificacion lineal predictiva Linear Predictive Coding, en ingles
MDCT
Transformada discontinua del coseno modificada Modified Discrete Cosine Transform, en ingles
QMF
Filtro de espejo en cuadratura Quadrature Mirror Filter, en ingles
SBR
Replicacion de la banda espectral Spectral Band Replication, en ingles
SNR
Relacion de senal a ruido Signal-to-Noise Ratio, en ingles
TCX
Residuo codificado de la transformada Transform Coded Residual, en ingles
UE
Equipo de usuario User Equipment, en ingles
Referencias
[1] "AMR-WB+: A new audio coding standard for 3rd generation mobile audio services", J. Makinen, B. Bessette, S. Bruhn, P. Ojala, R. Salami, A. Taleb, ICASSP 2005
[2] "Enhanced aacPIus encoder Spectral Band Replication (SBR) part", 3GPP TS 26.404 V10.0.0 (2011 -03), sections 5.6.1 -5.6.3, pp. 22-25.

Claims (15)

  1. 5
    10
    15
    20
    25
    REIVINDICACIONES
    1. Metodo de generacion de una extension de la banda alta de una senal de audio a partir de una envolvente y de una excitacion, en el que el metodo incluye la etapa (S1) de control simultaneo de la forma de la envolvente y del nivel de ruido de excitacion con un parametro de control comun f, siendo la citada forma de envolvente controlada (S1A) mediante la utilizacion de un post-filtro formante H(z) de la forma:
    imagen1
    en la que
    es un predictor de filtro lineal que representa la envolvente, y Yi, Y2 son funciones del parametro de control f.
  2. 2. El metodo de la reivindicacion 1, en el que
    j 7\ = 7o + / •
    1 r2=r0-f-&r
    en la que Yo, Ay son constantes predeterminadas.
  3. 3. El metodo de la reivindicacion 1 o 2, que incluye la etapa de controlar (S1B) el nivel de ruido de la excitacion mezclando una excitacion de banda alta Xhj de una subtrama i con ruido n de acuerdo con:
    */ =8*(i)xflti + gn(i)ni
    en la que los factores de mezclado gx(i) y gn(i) estan definidos por:
    imagen2
    en la que
    v(i) es un parametro de sonorizacion que controla parcialmente el nivel de ruido de la excitacion, a es una constante de sintonizacion predeterminada
    E1 es la energfa de trama de las excitaciones de banda alta Xnj para todas las subtramas i, y E2 es la energfa de trama del ruido ni para todas las subtramas i.
  4. 4. El metodo de la reivindicacion 1, en el que
    imagen3
    en la que Yo, AYflat y AYsharp son constantes predeterminadas.
  5. 5. El metodo de la reivindicacion 4, que incluye la etapa de controlar (S1B) el nivel de ruido de la excitacion mezclando una excitacion de banda alta Xhj de una subtrama i con ruido ni de acuerdo con:
    en la que los factores de mezclado gx(i) y gn(i) se definen mediante:
    5
    10
    15
    20
    25
    30
    35
    imagen4
    en la que
    v(i) es un parametro de sonorizacion que controla parcialmente el nivel de ruido de la excitacion, a es una constante de sintonizacion predeterminada
    Ei es la ene^a de trama de las excitaciones de banda alta XN,i para todas las subtramas i, y E2 es la energfa de trama del ruido n para todas las subtramas i.
  6. 6. El metodo de cualquiera de las reivindicaciones anteriores, que incluye la etapa de adaptar (S1C) el parametro de control f a una inclinacion espectral de la banda alta tm de la trama m, y en la que el parametro de control f depende de la inclinacion espectral de la banda alta tm de acuerdo con:
    imagen5
    en la que Cmin y Cmax son constantes predeterminadas.
  7. 7. El metodo de la reivindicacion 6, en el que la inclinacion espectral de banda alta tm se aproxima mediante la
    utilizacion del segundo coeficiente ai,m del filtro del predictor lineal decodificado An _ {1-aiw a2,m....aP,m}de la
    trama m, en el que P es el orden del filtro, y en el que
    imagen6
    en el que
    tm es el valor de la inclinacion espectral de la trama m,
    fm-i es el valor de la inclinacion espectral de la trama m-1 anterior, y
    p es una constante en el rango de p = [0, 0,5].
  8. 8. Decodificador de audio (200) configurado para generar una extension de banda alta de una senal de audio a partir de una envolvente y de una excitacion, que incluye una disposicion de control (41, 42, 44; 88, 90, 92; 310) configurada para controlar a la vez la forma de la envolvente y el nivel de ruido de la excitacion con un parametro de control f comun, incluyendo la citada disposicion de control (41, 42, 44) un controlador conjunto del post-filtro y de la excitacion (44) configurado para controlar la forma de la envolvente mediante la utilizacion de un post-filtro formante (42) (H(z) de la forma:
    imagen7
    en la que
    A es un filtro predictor lineal que representa la envolvente, y Y1, Y2 son funciones del parametro de control f.
  9. 9. El decodificador de la reivindicacion 8, en el que
    IVi =r0+/-Ar Va =rt-f-Ar
    en la que Y0, Ay son constantes predeterminadas.
  10. 10. El decodificador de las reivindicaciones 8 o 9, que incluye un controlador de mezcla (41) configurado para controlar el nivel de ruido de la excitacion mezclando una excitacion de banda alta Xhj de una subtrama i con ruido n de acuerdo con:
    5
    10
    15
    20
    25
    x, = g,G)xfl.i + g„(0»l
    en la que los factores de mezclado gx(i) y gn(i) estan definidos por:
    g*0) = Jv(0(l~ af)
    SA 0= (l-v(0(l-<*f))/E2
    en la que
    v(i) es un parametro de sonorizacion que controla parcialmente el nivel de ruido de la excitacion, a es una constante de sintonizacion predeterminada
    E1 es la energfa de trama de las excitaciones de banda alta Xnj para todas las subtramas i, y E2 es la ene^a de trama del ruido n para todas las subtramas i.
  11. 11. El decodificador de la reivindicacion 8, en el que
    f Y1 ~ To "* f ' sharp y > Q
    \ri = r0-f A7s*arP ’ ~
    |n-r„+/'A rm
    |/2 =ro-f-Arflcn
    en la que Yo, AYflat y AYsharp son constantes predeterminadas.
  12. 12. El decodificador de la reivindicacion 11, que incluye un controlador de mezcla (41) configurado para controlar el nivel de ruido de la excitacion mezclando una excitacion de banda alta Xhj de una subtrama i con el ruido n de acuerdo con:
    imagen8
    en la que los factores de mezcla gx(i) y gn(i) estan definidos por:
    Sx(0 = \/v(0(l -max(0,a/))
    * ______________________
    S„(0 = xJeJ] - v(i) (1 - max (O^t/)))/E2
    en la que
    v(i) es un parametro de sonorizacion que controla parcialmente el nivel de ruido de la excitacion, a es una constante de sintonizacion predeterminada
    E1 es la energfa de trama de las excitaciones de banda alta Xnj para todas las subtramas i, y
    E2 es la energfa de trama del ruido n para todas las subtramas i.
  13. 13. El decodificador de cualquiera de las reivindicaciones anteriores 8 - 12, en el que el controlador conjunto del post-filtro y de la excitacion (44) estan configurados para adaptar el parametro de control f a una inclinacion espectral de banda alta tm de la trama m, y en el que el parametro de control f depende de la inclinacion espectral de la banda alta tm de acuerdo con:
    imagen9
    en el que Cmin y Cmax son constantes predeterminadas.
  14. 14. El decodificador de la reivindicacion 13, en el que el post-filtro y el controlador conjunto del post-filtro y de la excitacion (44) estan configurados para aproximar la inclinacion espectral de la banda alta tm utilizando el segundo
    coeficiente ai m del filtro del predictor lineal decodificado a1 ,m> a2,m’- ’aP,m^de la trama m, en la que P es el
    orden del filtro, y en el que
    10
    imagen10
    en la que
    tm es el valor de la inclinacion espectral de la trama m,
    tm-i es el valor de la inclinacion espectral de la trama m-1 anterior, y
    p es una constante en el rango de p = [0, 0,5].
  15. 15. Equipo de usuario (UE) que incluye un decodificador de audio de acuerdo con cualquiera de las reivindicaciones anteriores 8 - 14.
ES12845743.9T 2011-11-02 2012-09-04 Generación de una extensión de banda ancha de una señal de audio de ancho de banda extendido Active ES2582475T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161554573P 2011-11-02 2011-11-02
US201161554573P 2011-11-02
US201261589618P 2012-01-23 2012-01-23
US201261589618P 2012-01-23
PCT/SE2012/050937 WO2013066238A2 (en) 2011-11-02 2012-09-04 Generation of a high band extension of a bandwidth extended audio signal

Publications (1)

Publication Number Publication Date
ES2582475T3 true ES2582475T3 (es) 2016-09-13

Family

ID=48192965

Family Applications (1)

Application Number Title Priority Date Filing Date
ES12845743.9T Active ES2582475T3 (es) 2011-11-02 2012-09-04 Generación de una extensión de banda ancha de una señal de audio de ancho de banda extendido

Country Status (9)

Country Link
US (1) US9251800B2 (es)
EP (2) EP2791937B1 (es)
CN (1) CN104221081B (es)
DK (1) DK2791937T3 (es)
ES (1) ES2582475T3 (es)
MX (1) MX2014004670A (es)
PL (1) PL2791937T3 (es)
PT (1) PT2791937T (es)
WO (1) WO2013066238A2 (es)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9082398B2 (en) * 2012-02-28 2015-07-14 Huawei Technologies Co., Ltd. System and method for post excitation enhancement for low bit rate speech coding
CN104221082B (zh) 2012-03-29 2017-03-08 瑞典爱立信有限公司 谐波音频信号的带宽扩展
CN105976830B (zh) 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
CN103928031B (zh) * 2013-01-15 2016-03-30 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
DK2981958T3 (en) * 2013-04-05 2018-05-28 Dolby Int Ab AUDIO CODES AND DECODS
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
FR3008533A1 (fr) 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
CN105761723B (zh) * 2013-09-26 2019-01-15 华为技术有限公司 一种高频激励信号预测方法及装置
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
US10083708B2 (en) * 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
FR3017484A1 (fr) 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
WO2015162500A2 (ko) 2014-03-24 2015-10-29 삼성전자 주식회사 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
CN111710342B (zh) * 2014-03-31 2024-04-16 弗朗霍弗应用研究促进协会 编码装置、解码装置、编码方法、解码方法及程序
US9697843B2 (en) 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
CN105336336B (zh) 2014-06-12 2016-12-28 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
CN105225671B (zh) * 2014-06-26 2016-10-26 华为技术有限公司 编解码方法、装置及系统
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
CN110556122B (zh) * 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
RU2747368C1 (ru) * 2020-07-13 2021-05-04 федеральное государственное казенное военное образовательное учреждение высшего образования "Военная академия связи имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации Способ мониторинга и управления информационной безопасностью подвижной сети связи

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW326070B (en) 1996-12-19 1998-02-01 Holtek Microelectronics Inc The estimation method of the impulse gain for coding vocoder
US7353168B2 (en) 2001-10-03 2008-04-01 Broadcom Corporation Method and apparatus to eliminate discontinuities in adaptively filtered signals
KR100935961B1 (ko) * 2001-11-14 2010-01-08 파나소닉 주식회사 부호화 장치 및 복호화 장치
DE60212696T2 (de) * 2001-11-23 2007-02-22 Koninklijke Philips Electronics N.V. Bandbreitenvergrösserung für audiosignale
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
KR100707174B1 (ko) * 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
US7676362B2 (en) 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
US8880410B2 (en) * 2008-07-11 2014-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a bandwidth extended signal
JP5255699B2 (ja) * 2008-07-11 2013-08-07 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 帯域幅拡張信号の生成装置及び生成方法
CN101933242A (zh) * 2008-08-08 2010-12-29 雅马哈株式会社 调制装置以及解调装置
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
CA2780971A1 (en) * 2009-11-19 2011-05-26 Telefonaktiebolaget L M Ericsson (Publ) Improved excitation signal bandwidth extension
EP2357649B1 (en) * 2010-01-21 2012-12-19 Electronics and Telecommunications Research Institute Method and apparatus for decoding audio signal

Also Published As

Publication number Publication date
DK2791937T3 (en) 2016-09-12
PL2791937T3 (pl) 2016-11-30
EP2791937A4 (en) 2015-08-05
MX2014004670A (es) 2014-05-28
WO2013066238A2 (en) 2013-05-10
CN104221081B (zh) 2017-03-15
EP2791937A2 (en) 2014-10-22
EP2791937B1 (en) 2016-06-08
PT2791937T (pt) 2016-09-19
EP3089164A1 (en) 2016-11-02
US9251800B2 (en) 2016-02-02
WO2013066238A3 (en) 2013-08-01
CN104221081A (zh) 2014-12-17
US20140257827A1 (en) 2014-09-11

Similar Documents

Publication Publication Date Title
ES2582475T3 (es) Generación de una extensión de banda ancha de una señal de audio de ancho de banda extendido
TWI321315B (en) Methods of generating a highband excitation signal and apparatus for anti-sparseness filtering
JP5047268B2 (ja) Mdct係数を使用する音声後処理
RU2501097C2 (ru) Устройство и способ формирования синтезированного аудиосигнала и кодирования аудиосигнала
WO2021052287A1 (zh) 频带扩展方法、装置、电子设备及计算机可读存储介质
TWI559298B (zh) 用於音訊信號之諧波頻寬延展之方法、裝置及電腦可讀儲存器件
JP6752936B2 (ja) ノイズ変調とゲイン調整とを実行するシステムおよび方法
KR102304152B1 (ko) 고-대역 신호 모델링
TWI775838B (zh) 用於在多源環境中之非諧波語音偵測及頻寬擴展之裝置、方法、電腦可讀媒體及設備
JPWO2004010415A1 (ja) オーディオ復号装置と復号方法およびプログラム
JP2016541032A5 (es)
TWI604440B (zh) 信號處理方法、裝置及系統
RU2608447C1 (ru) Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
CN110556123A (zh) 频带扩展方法、装置、电子设备及计算机可读存储介质
CN110556121A (zh) 频带扩展方法、装置、电子设备及计算机可读存储介质
JP2004515801A (ja) 音響信号の符号化の知覚的改善
JP2006011170A (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
CN112530446B (zh) 频带扩展方法、装置、电子设备及计算机可读存储介质
JP2006072269A (ja) 音声符号化装置、通信端末装置、基地局装置および音声符号化方法