ES2637031T3 - Decodificador para la atenuación de regiones de señal reconstruidas con baja precisión - Google Patents

Decodificador para la atenuación de regiones de señal reconstruidas con baja precisión Download PDF

Info

Publication number
ES2637031T3
ES2637031T3 ES16167229.0T ES16167229T ES2637031T3 ES 2637031 T3 ES2637031 T3 ES 2637031T3 ES 16167229 T ES16167229 T ES 16167229T ES 2637031 T3 ES2637031 T3 ES 2637031T3
Authority
ES
Spain
Prior art keywords
attenuation
decoder
spectral
region
regions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16167229.0T
Other languages
English (en)
Inventor
Sebastian NÄSLUND
Erik Norvell
Volodya Grancharov
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of ES2637031T3 publication Critical patent/ES2637031T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Abstract

Un decodificador para la determinación de una atenuación para ser aplicada a una señal de audio, que comprende una unidad de identificación (703) configurada para identificar regiones espectrales para ser atenuadas, estando el decodificador caracterizado por que comprende, además: una unidad de agrupamiento (704) configurada para agrupar subsiguientes regiones espectrales identificadas para formar una región espectral continua, una unidad de determinación (705) configurada para la determinación de un ancho de la región espectral continua y una unidad de aplicación (706) configurada para aplicar una atenuación de la región espectral continua adaptativa al ancho, de manera que un mayor ancho disminuye la atenuación de la región espectral continua.

Description

5
10
15
20
25
30
35
40
45
50
DESCRIPCION
Decodificador para la atenuacion de regiones de senal reconstruidas con baja precision Sector tecnico
Las realizaciones de la presente invencion se refieren a un decodificador, a un codificador para senales de audio y a metodos para los mismos. Las senales de audio pueden comprender conversacion en diferentes condiciones, musica y conversacion mezclada con contenidos musicales. En particular, las realizaciones se refieren a la atenuacion de regiones espectrales que estan reconstruidas con baja calidad. Esto puede aplicar, por ejemplo, a regiones que estan codificadas con un numero bajo de bits o sin bits asignados.
Antecedentes
Tradicionalmente, las redes moviles estan disenadas para manejar senales de conversacion a tasas de bits bajas. Esto se ha realizado mediante el uso de codecs de conversacion designados que muestran un buen rendimiento para senales de conversacion a tasas de bit bajas, pero que tienen un rendimiento malo para contenidos de musica y mezclados. Existe cada vez mas demanda de que las redes manejen tambien estas senales, por ejemplo, para musica en espera y tonos de devolucion de llamada. Las aplicaciones de internet para moviles crean asimismo la necesidad de codificacion de audio de tasa de bits baja para aplicaciones de transmision en tiempo real. Los codecs de audio normalmente operan a una tasa de bits mayor que los codecs de conversacion. Cuando se limita la cantidad de bits para el codec de audio, ciertas regiones espectrales de la senal pueden codificarse con un numero de bits bajo, y la calidad de objetivo deseada de la senal reconstruida puede, por lo tanto, no estar garantizada. Las regiones espectrales se refieren a regiones del dominio de la frecuencia, por ejemplo, ciertas subbandas del bloque de senales transformadas en frecuencia. Para simplificar, “regiones espectrales” se utilizara en toda la memoria con el significado de “parte de los espectros de senal de corta duracion”.
Ademas, para tasas de bits bajas y moderadas existiran regiones espectrales sin bits asignados. Tales regiones espectrales tienen que ser reconstruidas en el decodificador, reutilizando informacion de las regiones espectrales codificadas disponibles (por ejemplo, rellenadas con ruido o de ancho de banda extendido). En todos estos casos algo de atenuacion de la energfa de las regiones reconstruidas con baja precision resulta deseable para evitar distorsiones en una senal fuerte.
Las regiones de senal codificadas con un numero insuficiente de bits o sin bits asignados seran reconstruidas con baja precision y por consiguiente resulta deseable atenuar estas regiones espectrales. En esta memoria, el numero insuficiente de bits se define como un numero de bits que es demasiado bajo para poder representar la region espectral con una calidad perceptualmente plausible. Debe observarse que este numero dependera de la sensibilidad de la percepcion del audio para esa region, asf como de la complejidad de la region de senal a mano.
No obstante, la atenuacion de regiones espectrales codificadas con baja precision no es un problema trivial. Por un lado, una atenuacion fuerte resulta deseable para enmascarar una distorsion no deseada. Por otro lado, tal atenuacion podna ser percibida por los oyentes como perdida de potencia en la senal reconstruida, cambio en las caractensticas de la frecuencia o cambio en la dinamica de la senal; por ejemplo, un algoritmo de codificacion en el tiempo puede seleccionar diferentes regiones de senal para rellenar con ruido. Por estas razones los sistemas de codificacion de audio convencionales aplican una atenuacion muy conservadora, es decir, limitada, que obtiene un cierto equilibrio medio entre diferentes tipos de las distorsiones enumeradas anteriormente.
Se conoce, de acuerdo con la solicitud internacional WO03/107328 A1, un sistema de codificacion de audio que utiliza un decodificador que rellena huecos espectrales en los componentes espectrales sintetizados.
Compendio
Las realizaciones de la presente invencion mejoran los esquemas de atenuacion convencionales remplazando la atenuacion constante con un esquema de atenuacion adaptativa que permite una atenuacion mas agresiva, sin introducir cambios audibles en las caractensticas de frecuencia de la senal.
De acuerdo con la presente invencion, se proporciona un decodificador de acuerdo con la reivindicacion 1, para la determinacion de una atenuacion para aplicar a una senal de audio. El decodificador comprende una unidad de identificacion configurada para identificar regiones espectrales para ser atenuadas, una unidad de agrupamiento configurada para agrupar subsiguientes regiones espectrales identificadas para formar una region espectral continua y una unidad de determinacion configurada para la determinacion de un ancho de la region espectral continua. Ademas, se proporciona una unidad de aplicacion, en la que la unidad de aplicacion esta configurada para aplicar una atenuacion de la region espectral continua adaptativa al ancho, de manera que un mayor ancho disminuye la atenuacion de la region espectral continua.
5
10
15
20
25
30
35
40
45
Una ventaja con las realizaciones de la presente invencion es que la atenuacion adaptativa propuesta permite una significativa reduccion del ruido audible en la senal de audio reconstruida en comparacion con los sistemas convencionales, que tienen una atenuacion constante restringida.
Breve descripcion de los dibujos
La Fig. 1 ilustra esquematicamente una vista general de un sistema de un codificador y de un decodificador basado en transformada MDCT.
La Fig. 2 es un diagrama de flujo de un metodo de acuerdo con una realizacion de la presente invencion.
Las Figs. 3a y 3b ilustran vistas generales de un decodificador que contiene un control de atenuacion de acuerdo con realizaciones de la presente invencion.
La Fig. 4 muestra una funcion de limitacion de atenuacion que puede ser utilizada por las realizaciones y la modificacion de ganancia resultante cuando se aplica la funcion de limitacion de atenuacion.
La Fig. 5a muestra un ejemplo de 16 subvectores con asignacion de impulso, en los que se identifican regiones de precisiones bajas y, el ancho de la region respectiva se determina de acuerdo con las realizaciones de la presente invencion.
La Fig. 5b muestra el impacto de la atenuacion cuando se aplica la atenuacion adaptativa de acuerdo con las realizaciones de la presente invencion.
La Fig. 6a ilustra esquematicamente una vista general de un codificador que contiene una unidad de analisis de subvectores, en la que el resultado de la unidad de analisis de subvectores es utilizado por el decodificador para las realizaciones de la presente invencion.
La Fig. 6b ilustra una vista general de un decodificador que contiene un control de atenuacion de acuerdo con una realizacion, que esta realizado sobre la base de un parametro del flujo de bits que corresponde a un analisis del decodificador.
Las Figs. 7a y 7b ilustran esquematicamente un controlador de atenuacion de acuerdo con las realizaciones de la presente invencion.
La Fig. 8 ilustra un terminal movil con el controlador de atenuacion de las realizaciones de la presente invencion.
La Fig. 9 ilustra un nodo de red con el controlador de atenuacion de las realizaciones de la presente invencion. Descripcion detallada
El decodificador de acuerdo con las realizaciones de la presente invencion puede ser utilizado en un codec de audio, decodificador de audio, que puede ser utilizado en dispositivos de usuario final tales como dispositivos moviles (por ejemplo, un telefono movil) o PC estacionarios, o en nodos de red en los que se produce una descodificacion. La solucion de las realizaciones de la invencion se refiere a una atenuacion adaptativa que permite una atenuacion mas agresiva, sin introducir cambios audibles en las caractensticas de la frecuencia de la senal. Esto se logra en el controlador de atenuacion en el decodificador, como se ilustra en un diagrama de flujo de la figura 2.
El diagrama de flujo de la figura 2 muestra un metodo en un decodificador de acuerdo con una realizacion. Primero, se identifican 201 las regiones espectrales para ser atenuadas. Esta etapa puede implicar un examen de los subvectores reconstruidos 201a. Las regiones espectrales subsiguientes identificadas son agrupadas 202 para formar una region espectral continua y se determina 203 un ancho de la region espectral continua. A continuacion, se aplica 204 una atenuacion de la region espectral continua, en la que la atenuacion es adaptativa al ancho de tal manera que un mayor ancho disminuye la atenuacion de la region espectral continua.
Un controlador de atenuacion de acuerdo con las realizaciones puede ser implementado en un decodificador de audio en un terminal movil o en un nodo de red. El decodificador de audio puede utilizarse en un escenario de comunicacion en tiempo real cuyo objetivo es en primer lugar la conversacion, o en un escenario de transmision en tiempo real cuyo objetivo es principalmente la musica.
En una realizacion, el codec de audio en el que el controlador de atenuacion se esta implementando es un codec de audio del dominio de la transformada, por ejemplo, que emplea un esquema de cuantificacion de vectores basado en impulsos. En esta realizacion de ejemplo, se utiliza un cuantificador de tipo de codificacion factorial de impulsos (FPC - Factorial Pulse Coding, en ingles) pero resultara evidente para un experto en la materia que puede utilizarse cualquier esquema de cuantificacion de vectores. Una vista general esquematica de tal codec de audio se muestra en la figura 1 y a continuacion se muestra una pequena descripcion de las etapas involucradas.
5
10
15
20
25
30
35
40
45
50
55
Un segmento de audio corto (20 - 40 ms), denominado audio de entrada, 100 se transforma en el dominio de la frecuencia mediante una Transformada de Coseno Discreta Modificada (MDCT - Modified Discrete Cosine Transform, en ingles) 105.
El vector X (k) 107 de MDCT obtenido mediante la MDCT 105 se divide en multiples bandas, es decir, subvectores. Debe observarse que puede utilizarse cualquier otra transformada de frecuencia adecuada en lugar de MDCT, tal como DFT o DCT.
La energfa en cada banda se calcula en un calculador de envolvente 110, que proporciona una aproximacion de la envolvente del espectro.
La envolvente del espectro se cuantifica mediante un cuantificador de envolvente 120, y los indices de cuantificacion se envfan al multiplexador de flujo de bits para ser almacenados o transmitidos a un decodificador.
Un vector de residuo 117 se obtiene escalando los vectores de MDCT utilizando la inversa de las ganancias cuantificadas de la envolvente, por ejemplo, el residuo en cada banda se escala para tener una energfa de rafz cuadratica media (RMS - Root Mean Square, en ingles).
Un asignador de bits 130 asigna bits a un cuantificador que lleva a cabo una cuantificacion de diferentes subvectores de residuo 125 sobre la base de las energfas de envolvente cuantificadas. Debido a una limitada cantidad de bits disponibles, algunos de los subvectores no reciben ningun bit.
Sobre la base del numero de bits disponibles, los subvectores de residuo son cuantificados y los indices de cuantificacion son transmitidos al decodificador. La cuantificacion de residuos se lleva a cabo con un esquema de codificacion factorial de impulsos (FPC). Un multiplexador 135 multiplexa los indices de cuantificacion de la envolvente y el subvector en un flujo de bits 140 que puede ser almacenado o transmitido al decodificador.
Debe observarse que los subvectores de residuo sin ningun bit asignado no son codificados, sino rellenados con ruido en el decodificador. Esto puede conseguirse creando un libro de codigos virtual a partir de los subvectores codificados o de cualquier algoritmo de rellenado con ruido. El rellenado con ruido crea contenido en los subvectores no codificados.
De nuevo con referencia a la figura 1, el decodificador recibe el flujo de bits 140 del codificador en un desmultiplexador 145. Las ganancias cuantificadas de la envolvente son reconstruidas por el decodificador 160 de la envolvente. Las ganancias cuantificadas de la envolvente son utilizadas por el asignador de bits 155 que produce una asignacion de bits que es utilizada por el decodificador de subvectores 150 para producir los subvectores de residuo descodificados. La secuencia de los subvectores de residuo descodificados forma un espectro normalizado. Debido a la limitada cantidad disponible de bits, algunos de los subvectores no estaran representados y produciran ceros o huecos en el espectro. Estos huecos espectrales son rellenados mediante un algoritmo de rellenado con ruido 165. El algoritmo de rellenado con ruido puede incluir tambien un algoritmo de BWE, que puede reconstruir el espectro por encima de la ultima banda codificada. Utilizando la asignacion de bits, se determina 175 una atenuacion de envolvente fija. Las ganancias cuantificadas de la envolvente se modifican utilizando la atenuacion determinada y un espectro de MDCT se reconstruye escalando los subvectores de residuo descodificados utilizando estas ganancias 170. Finalmente, una trama de audio 190 reconstruida se produce mediante MDCT inversa 185.
Las realizaciones de la invencion presentada se refieren a la atenuacion de envolvente descrita anteriormente, etapa previa de la lista anterior, donde se anade una ponderacion adicional a las ganancias de envolvente para controlar la energfa cuantificada de los subvectores con baja precision, es decir, los subvectores codificados con un numero bajo o los subvectores rellenados con ruido no codificados. Los subvectores codificados con un bajo numero de bits implican que el numero de bits es insuficiente para conseguir una precision deseable. Asf, el numero de bits insuficiente se define como un numero de bits que es demasiado bajo para poder representar la region espectral con una calidad perceptualmente plausible. Debe observarse que este numero dependera de la sensibilidad de la percepcion del audio para esa region, asf como de la complejidad de la region de la senal a su alcance.
Una vista general de un decodificador en tal esquema con el algoritmo de acuerdo con las realizaciones se muestra en la figura 3a. El decodificador de la figura 3a corresponde al decodificador de la figura 1 con la adicion de un controlador de atenuacion 300 de acuerdo con las realizaciones de la presente invencion. El controlador de atenuacion 300 controla la atenuacion adaptativa de acuerdo con las realizaciones de la invencion.
Por consiguiente, el controlador de atenuacion esta configurado para identificar regiones espectrales para ser atenuadas, para agrupar las regiones espectrales identificadas para formar una region espectral continua, para determinar un ancho de la region espectral continua, y para aplicar una atenuacion de la region espectral continua adaptativa al ancho, de manera que un ancho mayor disminuye la atenuacion de la region espectral continua.
Las regiones espectrales de baja precision para ser atenuadas estan de acuerdo con las realizaciones codificadas con un numero de bits bajo o sin ningun bit asignado. La etapa de identificar las regiones espectrales de baja precision puede comprender tambien un analisis de los subvectores reconstruidos.
5
10
15
20
25
30
35
40
45
Con referencia de nuevo a la figura 2 que es un diagrama de flujo de un metodo de acuerdo con una realizacion de la presente invencion, la primera etapa 201 es examinar 201a los subvectores reconstruidos para identificar las regiones espectrales del residuo del dominio de la frecuencia descodificadas que estan representadas con baja precision. De acuerdo con una realizacion, la region espectral se dice que esta representada con baja precision cuando el numero de bits asignados para el citado subvector reconstruido esta por debajo de un umbral predeterminado.
De acuerdo con otra realizacion, se emplea un esquema de codificacion de impulsos para descodificar los subvectores espectrales, y se dice que una region espectral esta representada con baja precision si consiste en uno o mas subvectores consecutivos y el numero de impulsos P(b) esta por debajo de un umbral predeterminado.
Por ello, se determina si los subvectores espectrales comprenden uno o mas subvectores consecutivos en los que el numero de impulsos P(b) utilizados para cuantificar el subvector cumple la ecuacion 1.
P(b)<®, b = l,2....Nt (1)
donde Nb es el numero de subvectores y © es un umbral con valor preferido de © = 10. Debe observarse que el numero de impulsos puede convertirse en un numero de bits. Ademas, pueden aplicarse metodos mas elaborados para identificar las regiones de baja precision, por ejemplo, utilizando la tasa de bits junto con un analisis del vector de forma sintetizada. Tal establecimiento se ilustra en la figura 3b, en la que el vector de forma sintetizada es introducido en el atenuador de envolvente. El analisis de la forma sintetizada puede por ejemplo implicar la medicion de la existencia de picos en la forma sintetizada, puesto que una smtesis de picos para velocidades mayores puede indicar una senal de entrada con picos y por ello mejor coherencia de entrada / smtesis. La precision estimada del vector descodificado puede utilizarse para identificar la banda correspondiente como una banda de resolucion baja y decidir una atenuacion adecuada.
Los subvectores que recibieron cero bits en la asignacion de bits y que son rellenados con ruido pueden incluirse tambien en esta categona.
Volviendo a la figura 2, para cada region espectral de baja precision identificada, se agrupan las regiones espectrales 202 identificadas y se determina 203 el ancho de la region espectral agrupada, por ejemplo, contando el numero de subvectores de la region agrupada.
Para obtener la mejor calidad de audio posible es deseable atenuar las regiones de baja precision del espectro. De acuerdo con las realizaciones, la atenuacion 204 depende del ancho de la region espectral de baja precision. Por ello la atenuacion debe hacerse disminuir con el ancho. Eso implica que una region estrecha permite una atenuacion mayor que una region mas ancha.
Como ejemplo, la atenuacion puede obtenerse en dos etapas. Primero, se decide un factor de atenuacion inicial A(b) por subvector b. Para subvectores rellenados con ruido, se decide el factor de atenuacion sobre la base del numero de subvectores rellenados con ruido consecutivos. Para los vectores codificados de baja precision puede utilizarse una funcion de precision para definir la atenuacion inicial. Cuando se han identificado las regiones de baja precision, el nivel de atenuacion para cada region se estima utilizando el ancho de banda de la region de baja precision. Los factores de atenuacion se ajustan para formar A’(b) que tiene en cuenta el ancho de banda de la region de baja precision.
Una funcion de limitacion de atenuacion A(b) de ejemplo que depende del ancho de banda b de la region de baja precision se muestra en la figura 4. La modificacion de ganancia resultante A’(b) mostrada tambien en la figura 4 puede describirse utilizando la ecuacion 2.
A’(h) = o'(h ) + (l -a(u,))>1(/>) donde a(w) se define en la ecuacion 3,
(2)
imagen1
donde w denota el ancho de banda en numero de subvectores de la region de baja precision, y C y T son constantes que controlan la funcion de ajuste a(w). En este ejemplo, se ha encontrado que valores adecuados eran C =6 y T =5.
La figura 5a muestra un ejemplo de los primeros 16 subvectores y el numero de impulsos utilizados para cuantificar cada subvector junto con las regiones de baja precision identificadas mediante el algoritmo y los anchos de la region
5
10
15
20
25
30
35
40
45
en los subvectores. Las regiones de baja precision subsiguientes son agrupadas para formar una region espectral continua 501; 502; 503 y se determina el ancho de la region espectral continua. El ancho de cada region se utiliza para la determinacion de la atenuacion que debe aplicarse. La figura 5b muestra el impacto del algoritmo en las correspondientes enemas de subvector. Puede verse como el algoritmo limita la atenuacion en la region 512 que tiene un ancho de 7 subvectores, mientras que permite la atenuacion de objetivo de las regiones 511 y 513 que tienen un ancho de 1 y 3 subvectores respectivamente. Por ello, la atenuacion disminuyo con el ancho de la region espectral de baja precision. Puesto que las bandas son no uniformes con el ancho de banda creciente para frecuencias mas altas y el ancho se define en el numero de bandas, el esquema tendra una dependencia implfcita de la frecuencia. Puesto que los anchos de banda corresponden a la resolucion de frecuencia perceptual, la atenuacion percibida sebe ser aproximadamente constante en el espectro. No obstante, puede asimismo considerarse el hacer esta dependencia de la frecuencia explfcita. Una posible implementacion es modificar la funcion de ajuste
o,
w<C
1.
<»fo/r>i
(w — -C V f
A si no
(4)
donde f denota el binario de la frecuencia del espectro y p es un parametro de sintonizacion. Un valor de p posible es L/4, donde L es el numero de coeficientes en el espectro de MDCT. La ecuacion (4) permitira mas atenuacion para frecuencias mas altas, de manera similar a lo que ya se ha obtenido en esta realizacion. Podna hacerse tambien que la relacion inversa con respecto a la frecuencia fuese
imagen2
donde y denota otro parametro de sintonizacion. En este caso la atenuacion estara restringida para frecuencias mas altas. Esto puede resultar deseable si se encuentra que existe menos beneficio de atenuacion para frecuencias mas altas.
En otra realizacion, el concepto descrito anteriormente puede limitarse solo a las regiones rellenados con ruido, si se debe a espedficos del cuantificador; las subbandas con un numero bajo de bits asignados se tratan de manera separada.
En una realizacion alternativa, el concepto descrito junto con la primera realizacion puede operar sin bandas rellenados con ruido, por ejemplo, si el codec opera a una tasa de bits mayor y no existen bandas rellenadas con ruido.
En otra realizacion, el espectro reconstruido incluye tambien una region que esta reconstruida utilizando un algoritmo de extension de ancho de banda (BWE - BandWidth Extension, en ingles). El concepto de atenuacion adaptativa de regiones de senal reconstruida de baja precision puede utilizarse en combinacion con un modulo de BWE. Los algoritmos de BWE modernos aplican cierta atenuacion sobre las regiones espectrales reconstruidas que se detecta que son muy diferentes de las correspondientes regiones en la senal de objetivo. Tal atenuacion puede hacerse tambien adaptativa de acuerdo con el concepto descrito anteriormente. El algoritmo de BWE puede ser una parte integral de la unidad de rellenado con ruido 310 tal como se describe en la figura 3a. El algoritmo de BWE modificado de acuerdo con las realizaciones puede ser parte tanto de los codecs del dominio del tiempo como de los codecs del dominio de la transformada.
En otra realizacion, el decodificador de un sistema de comunicacion / compresion de audio puede implementar el algoritmo de atenuacion adaptativa de acuerdo con las realizaciones sin tener en cuenta explfcitamente las regiones que estan rellenadas con ruido, que tienen ancho de banda extendido, o que estan cuantificadas con un numero de bajo de bits. Por el contrario, las regiones candidatas a atenuacion pueden seleccionarse sobre la base de un analisis del subvector del lado del codificador utilizando una medida de distancia entre el subvector reconstruido y el subvector de entrada. La medida de distancia puede calcularse tambien entre la reconstruccion y la smtesis de los subvectores de residuo. Una vista general esquematica de un codificador que realiza tal analisis utilizando una unidad de analisis de subvector se ilustra en la figura 6a. Si el error en cierta region de frecuencia esta por encima de un cierto umbral, la region es potencial candidata a la atenuacion. La medida del error puede ser por ejemplo el error cuadratico medio mmimo del espectro sintetizado con respecto al espectro de entrada, el error de energfa o una combinacion de los criterios de error. Tal analisis puede utilizarse para identificar las regiones para atenuacion y/o decidir la atenuacion para las regiones identificadas. El analisis del lado del codificador requiere la adicion de
5
10
15
20
25
30
35
40
parametros adicionales al flujo de bits con el fin de reproducir la identificacion de la region y la atenuacion en el decodificador. El decodificador en tal realizacion recibina un resultado del analisis del lado del decodificador a traves de un parametro codificado en el flujo de bits e incluina el parametro en el control de atenuacion. Tal decodificador se representa en la figura 6b.
El controlador de atenuacion que puede ser implementado en un decodificador, por ejemplo, de un equipo de usuario como se muestra en la figura 7a comprende, de acuerdo con una realizacion, una unidad de identificacion 703 configurada para identificar regiones espectrales para ser atenuadas, una unidad de agrupamiento 704 configurada para agrupar subsiguientes regiones espectrales identificadas para formar una region espectral continua, y una unidad de determinacion 705 configurada para la determinacion de un ancho de la region espectral continua. Ademas, en el controlador de atenuacion 300 se proporciona una unidad de aplicacion 706 configurada para aplicar una atenuacion de la region espectral continua adaptativa al ancho. De esta manera un mayor ancho disminuye la atenuacion de la region espectral continua.
De acuerdo con una realizacion, las regiones espectrales para ser atenuadas son codificadas con un numero bajo de bits o sin ningun bit asignado. Ademas, la unidad de identificacion 703 configurada para identificar las regiones espectrales que estan codificadas con un numero bajo de bits o sin ningun bit asignado pueden ser ademas configuradas para examinar los subvectores reconstruidos para identificar las regiones espectrales del residuo del dominio de la frecuencia descodificadas que se representan con baja precision.
Una region espectral puede decirse que se representa con baja precision cuando el numero de bits asignados al citado subvector reconstruido esta por debajo de un umbral predeterminado.
Alternativamente, se emplea un esquema de codificacion de impulsos para la codificacion de subvectores espectrales, y una region espectral se dice que se representa con baja precision si consiste en uno o mas subvectores consecutivos en los que el numero de impulsos P(b) esta por debajo de un umbral predeterminado.
De acuerdo con otra realizacion, se identifican las regiones espectrales que estan codificadas sin ningun bit asignado y/o se identifican las regiones espectrales que estan codificadas con un numero bajo de bits.
El espectro reconstruido puede incluir tambien una region que esta reconstruida utilizando un algoritmo de extension de ancho de banda.
De acuerdo con otra realizacion mas, el controlador de atenuacion 300 comprende una unidad de entrada / salida 710 configurada para la recepcion de un analisis del codificador y en el que la unidad de identificacion 703 esta ademas configurada para identificar las regiones espectrales para ser atenuadas sobre la base del analisis recibido. En el analisis recibido, el decodificador utiliza una medida de distancia entre una senal de smtesis reconstruida y una senal de objetivo de entrada. Si la medida de distancia en cierta region de frecuencia esta por encima de un cierto umbral, la region espectral es una candidata potencial a la atenuacion.
Debe observarse que las unidades del controlador de atenuacion 300 del decodificador pueden implementarse mediante un procesador 700 configurado para procesar porciones de software que proporcionan la funcionalidad de las unidades tal como se ilustra en la figura 7b. Las porciones de software son almacenadas en una memoria 701 y obtenidas de la memoria cuando son procesadas. El controlador de atenuacion. La unidad de entrada / salida 7l0 esta configurada para la recepcion de parametros de entrada por ejemplo desde la asignacion de bits y la descodificacion de la envolvente y para el envfo de informacion a la conformacion de la envolvente.
De acuerdo con otro aspecto de la presente invencion, un dispositivo movil 800 que comprende el controlador de atenuacion 300 en un decodificador de acuerdo con las realizaciones se proporciona tal como se ilustra en la figura 8. Debe observarse que el controlador de atenuacion 300 en las realizaciones puede implementarse tambien en un nodo de red en un decodificador tal como se ilustra en la figura 9.

Claims (9)

  1. 5
    10
    15
    20
    25
    30
    REIVINDICACIONES
    1. Un decodificador para la determinacion de una atenuacion para ser aplicada a una senal de audio, que comprende una unidad de identificacion (703) configurada para identificar regiones espectrales para ser atenuadas, estando el decodificador caracterizado por que comprende, ademas:
    una unidad de agrupamiento (704) configurada para agrupar subsiguientes regiones espectrales identificadas para formar una region espectral continua, una unidad de determinacion (705) configurada para la determinacion de un ancho de la region espectral continua y una unidad de aplicacion (706) configurada para aplicar una atenuacion de la region espectral continua adaptativa al ancho, de manera que un mayor ancho disminuye la atenuacion de la region espectral continua.
  2. 2. El decodificador de acuerdo con la reivindicacion 1, en el que las regiones espectrales para ser atenuadas estan codificadas con un numero bajo de bits o sin ningun bit asignado.
  3. 3. El decodificador de acuerdo con la reivindicacion 2, en el que la unidad de identificacion (703) configurada para identificar las regiones espectrales para ser atenuadas esta ademas configurada para examinar los subvectores reconstruidos.
  4. 4. El decodificador de acuerdo con la reivindicacion 3, en el que una region espectral se dice que esta representada con baja precision cuando el numero de bits asignados para el citado subvector reconstruido esta por debajo de un umbral predeterminado.
  5. 5. El decodificador de acuerdo con la reivindicacion 3, en el que un esquema de codificacion de impulsos se emplea para codificar los subvectores espectrales, y una region espectral se dice que esta representada con baja precision si consiste en uno o mas subvectores consecutivos donde el numero de impulsos P(b) esta por debajo de un umbral predeterminado.
  6. 6. El decodificador de acuerdo con las reivindicaciones 1 a 5, en el que se identifican las regiones espectrales que estan codificadas sin ningun bit asignado.
  7. 7. El decodificador de acuerdo con las reivindicaciones 1 a 5, en el que se identifican las regiones espectrales que estan codificadas con un numero bajo de bits.
  8. 8. El decodificador de acuerdo con las reivindicaciones 1 a 7, en el que el espectro reconstruido incluye tambien una region que esta reconstruida utilizando un algoritmo de extension de ancho de banda.
  9. 9. El decodificador de acuerdo con las reivindicaciones 1 a 8, en el que comprende una unidad de entrada (710) configurada para la recepcion de un analisis desde el codificador y en el que la unidad de identificacion (703) esta ademas configurada para identificar las regiones espectrales para ser atenuadas sobre la base del analisis recibido, en el que una medida de distancia entre una senal de smtesis reconstruida y una senal de objetivo de entrada son utilizadas por el decodificador, si la medida de distancia en cierta region de frecuencia esta por encima de un cierto umbral, la region espectral es una candidata potencial a la atenuacion.
ES16167229.0T 2011-04-15 2011-12-15 Decodificador para la atenuación de regiones de señal reconstruidas con baja precisión Active ES2637031T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201161475711P 2011-04-15 2011-04-15
US201161475711P 2011-04-15

Publications (1)

Publication Number Publication Date
ES2637031T3 true ES2637031T3 (es) 2017-10-10

Family

ID=45406733

Family Applications (2)

Application Number Title Priority Date Filing Date
ES16167229.0T Active ES2637031T3 (es) 2011-04-15 2011-12-15 Decodificador para la atenuación de regiones de señal reconstruidas con baja precisión
ES11801709.4T Active ES2540051T3 (es) 2011-04-15 2011-12-15 Método y un decodificador para la atenuación de regiones de señal reconstruidas con baja precisión

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES11801709.4T Active ES2540051T3 (es) 2011-04-15 2011-12-15 Método y un decodificador para la atenuación de regiones de señal reconstruidas con baja precisión

Country Status (7)

Country Link
US (4) US8706509B2 (es)
EP (3) EP2697796B1 (es)
KR (1) KR101520212B1 (es)
CN (1) CN103503065B (es)
DK (1) DK3067888T3 (es)
ES (2) ES2637031T3 (es)
WO (1) WO2012139668A1 (es)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9437202B2 (en) 2012-03-29 2016-09-06 Telefonaktiebolaget Lm Ericsson (Publ) Bandwidth extension of harmonic audio signal
AU2014283198B2 (en) 2013-06-21 2016-10-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method realizing a fading of an MDCT spectrum to white noise prior to FDNS application
EP2980792A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4617676A (en) * 1984-09-04 1986-10-14 At&T Bell Laboratories Predictive communication system filtering arrangement
KR940001817B1 (ko) * 1991-06-14 1994-03-09 삼성전자 주식회사 노이즈 감소회로에 사용되는 액티브 필터용 고역 가중치 회로
JPH08223049A (ja) * 1995-02-14 1996-08-30 Sony Corp 信号符号化方法及び装置、信号復号化方法及び装置、情報記録媒体並びに情報伝送方法
JPH08328599A (ja) * 1995-06-01 1996-12-13 Mitsubishi Electric Corp Mpegオーディオ復号器
GB9512284D0 (en) * 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
AU2003219430A1 (en) * 2003-03-04 2004-09-28 Nokia Corporation Support of a multichannel audio extension
JP5530720B2 (ja) * 2007-02-26 2014-06-25 ドルビー ラボラトリーズ ライセンシング コーポレイション エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体
DK3591650T3 (da) * 2007-08-27 2021-02-15 Ericsson Telefon Ab L M Fremgangsmåde og indretning til udfyldning af spektrale huller
US8326617B2 (en) * 2007-10-24 2012-12-04 Qnx Software Systems Limited Speech enhancement with minimum gating

Also Published As

Publication number Publication date
EP3067888B1 (en) 2017-05-31
ES2540051T3 (es) 2015-07-08
US20140081646A1 (en) 2014-03-20
CN103503065A (zh) 2014-01-08
US9349379B2 (en) 2016-05-24
EP2816556A1 (en) 2014-12-24
EP2697796A1 (en) 2014-02-19
CN103503065B (zh) 2015-08-05
KR20140035900A (ko) 2014-03-24
EP2697796B1 (en) 2015-05-06
US8706509B2 (en) 2014-04-22
US9595268B2 (en) 2017-03-14
DK3067888T3 (en) 2017-07-10
US20160240201A1 (en) 2016-08-18
WO2012139668A1 (en) 2012-10-18
US9691398B2 (en) 2017-06-27
US20120278085A1 (en) 2012-11-01
US20170061977A1 (en) 2017-03-02
KR101520212B1 (ko) 2015-05-13
EP3067888A1 (en) 2016-09-14
EP2816556B1 (en) 2016-05-04

Similar Documents

Publication Publication Date Title
ES2706148T3 (es) Dispositivo de codificación de audio vocal, dispositivo de decodificación de audio vocal, procedimiento de codificación de audio vocal, y procedimiento de decodificación de audio vocal
ES2765527T3 (es) Dispositivo y método para la ejecución de la codificación de Huffman
JP6452759B2 (ja) 先進量子化器
EP2809009B1 (en) Signal encoding and decoding method and device
RU2505921C2 (ru) Способ и устройство кодирования и декодирования аудиосигналов (варианты)
JP6600054B2 (ja) 方法、符号化器、復号化器、及び移動体機器
KR101698371B1 (ko) 디지털 오디오 신호들의 개선된 코딩/디코딩
KR20160072145A (ko) 리던던트 프레임 정보를 통신하는 시스템들 및 방법들
US9530422B2 (en) Bitstream syntax for spatial voice coding
ES2664090T3 (es) Relleno de subvectores no codificados en señales de audio codificadas por transformada
JP5459688B2 (ja) 復号信号のスペクトルを調整する方法、装置、および音声復号システム
JP5172965B2 (ja) 知覚モデルの適応的調整
ES2637031T3 (es) Decodificador para la atenuación de regiones de señal reconstruidas con baja precisión
ES2707337T3 (es) Aparato de codificación de señal de audio, dispositivo de decodificación de señal de audio y métodos del mismo