ES2697474T3 - Decodificador de audio que tiene un módulo de extensión de ancho de banda con un módulo de ajuste de energía - Google Patents

Decodificador de audio que tiene un módulo de extensión de ancho de banda con un módulo de ajuste de energía Download PDF

Info

Publication number
ES2697474T3
ES2697474T3 ES14733125T ES14733125T ES2697474T3 ES 2697474 T3 ES2697474 T3 ES 2697474T3 ES 14733125 T ES14733125 T ES 14733125T ES 14733125 T ES14733125 T ES 14733125T ES 2697474 T3 ES2697474 T3 ES 2697474T3
Authority
ES
Spain
Prior art keywords
audio
signal
current
frame
gain factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14733125T
Other languages
English (en)
Inventor
Jérémie Lecomte
Fabian Bauer
Ralph Sperschneider
Arthur Tritthart
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2697474T3 publication Critical patent/ES2697474T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Decodificador de audio configurado para producir una señal de audio (AS) desde una corriente de bits (BS) que contiene marcos de audio (AF), comprendiendo el decodificador de audio (1): un módulo de decodificación de banda de núcleo (2) configurado para derivar una señal de audio de banda de núcleo directamente decodificada (CBS) a partir de la corriente de bits (BS); un módulo de extensión de ancho de banda (3) configurado para derivar una señal de audio de extensión de ancho de banda paramétricamente decodificada (BES) a partir de la señal de audio de banda de núcleo (CBS) y a partir de la corriente de bits (BS), donde la señal de audio de extensión de ancho de banda (BES) está basada en una señal en el dominio de las frecuencias (FDS) que tiene al menos una banda de frecuencia (FB); y un combinador (4) configurado para combinar la señal de audio de banda de núcleo (CBS) y la señal de audio de extensión de ancho de banda (BES) de manera que se produzca la señal de audio (AS); en el que el módulo de extensión de ancho de banda (3) comprende un módulo de ajuste de energía (5) que está configurado de tal manera que en un marco de audio actual (AF2) en el que tiene lugar una pérdida de marco de audio (AFL), se establece una energía de señal ajustada para el marco de audio actual (AF2) para al menos una banda de frecuencia (FB); sobre la base de un factor de ganancia actual (CGF) para el marco de audio actual (AF2), en el que el factor de ganancia actual (CGF) se deriva a partir de un factor de ganancia de un marco de audio previo (AF1) o a partir de la corriente de bits (BS), y sobre la base de una energía estimada para la señal (EE) para al menos una banda de frecuencia, en la que la energía estimada para la señal (EE) se deriva a partir de un espectro del marco de audio actual (AF2') de la señal de audio de banda de núcleo (CBS).

Description

DESCRIPCIÓN
Decodificador de audio que tiene un módulo de extensión de ancho de banda con un módulo de ajuste de energía [0001] El SBR (Spectral Band Replication, Replicación de Banda Espectral), como otras técnicas de extensión de banda, tiene como objeto codificar y decodificar partes de bandas altas espectrales de señales de audio en la parte superior de una etapa de codificador de núcleo. El SBR ha sido estandarizado en [ISO09] y se utiliza junto con AAC en el MPEG-4 Profile HE-AAC, que se emplea en diversos estándares de aplicación, por ejemplo 3GPP [3GP12a], DAB+ [EBU10] y DRM [EBU12].
[0002] El estado de la técnica para la decodificación de SBR en conjunto con AAC se describe en [ISO09, capítulo 4.6.18].
[0003] La Figura 1 ilustra el decodificador de SBR del estado de la técnica que comprende un análisis y un banco de filtros de síntesis, la decodificación de los datos de SBR que decodifica un generador de HF y un ajustador de HF.
• En la decodificación SBR del estado de la técnica, la salida del codificador de núcleo es una representación filtrada de bajo paso de la señal original. Es la entrada de xp cm jn en el banco de filtros de análisis de QMF del decodificador de SBR.
• La salida de este banco de filtro XQMF_ana se entrega al generador de HF, en el que tiene lugar el parcheado. Básicamente, el parcheado es una replicación del espectro de bajo paso en forma de bandas altas.
• El espectro parcheado XHF_patched se entrega ahora al ajustador de HF, junto con la información espectral de las bandas altas (envolturas), obtenidas a partir de la decodificación de los datos de SBR. La información de envoltura será decodificada por Huffman, decodificada diferencialmente y finalmente decuantificada a efectos de obtener los datos de envoltura (véase la Fig. 2). Los datos de envoltura obtenidos es un conjunto de factores de escala que cubre una determinada cantidad de tiempo, por ejemplo, un marco o partes de él. El ajustador de HF ajusta adecuadamente las energías de las bandas altas parcheadas a efectos de concordar lo mejor posible con las energías de las bandas altas originales en el lado codificador para cada banda k. Esto se aclara mediante la Ecuación 1 y la Figura 2:
gsbr [k] — ERef [k] / EEstAvg [l]
EAdj [k] — EEst [k] X gsbr [k] (1)
Donde
ERef [k] designa la energía para una banda k, que se transmite de forma codificada en la corriente de bits de SBR; EEst [k] designa la energía de una banda alta k, parcheada por el generador de HF;
EEstAvg [l] designa la energía de banda alta media dentro de una banda de factor de escala I, que se define como un .1
intervalo de bandas entre una banda de partida K iiw i y una banda de stop " “stop:
Figure imgf000002_0001
EAdj [k] designa la energía de una banda alta k, ajustada por el ajustador de HF, mediante la ganancia gainsbr; gsbr[k] designa un factor de ganancia, resultante de la división mostrada en la ecuación (1).
• El banco de filtros QMF de síntesis decodifica las muestras de QMF procesadas xHF_adj a PCM audio xpcm_out.
[0004] Si el espectro reconstruido tiene una falta de ruido, que estaba presente en las bandas altas originales pero no parcheado por el Generador de HF, existe la posibilidad de añadir algún ruido adicional con un determinado ruido de fondo Q para cada banda k.
Energíaad¡c¡onal_ ruido [k]
Q [k] = ------------------------------ (3)
EnergíaHF_ generada [k]
[0005] Por otra parte, el SBR del estado de la técnica permite mover márgenes de marco de SBR dentro de determinados límites y múltiples envolturas por marco.
[0006] La decodificación por SBR en conjunto con CELP/HVXC se describe en [EBU12, capítulo 5.6.2.2]. El decodificador CELP/HVXC+SBR en DRM está estrechamente relacionado con la decodificación por SBR del estado de la técnica en HEAAC, descrito en el capítulo 1.1.1. Básicamente, es válida la Figura 1.
[0007] La decodificación de la información de envoltura está adaptada a las propiedades espectrales de las señales similares al habla, como se describe en [EBU12, capítulo 5.6.2.2.4].
[0008] En la decodificación AMR-WB normal, la excitación de banda alta se obtiene mediante la generación de ruido blanco uHB1(n). La potencia de la excitación de banda alta se ajusta con un valor igual a la potencia de la excitación de banda inferior u2(n), lo que significa que
Figure imgf000003_0001
[0009] Finalmente la excitación de banda alta se obtiene mediante
Figure imgf000003_0002
gnu ■ Ui/u2(n) (5)
en el que Shb es un factor de ganancia.
[0010] En el modo 23,85 kbit/s, se decodifica shb a partir del índice de ganancia recibido (información secundaria).
[0011] En los modos de 6,60, 8,85, 12,65, 14,25, 15,85, 18,25, 19,85 y 23,05 kbit/s, se estima Shb mediante información de voz delimitada por [0.1, 1.0]. Primero se calcula el sesgo de síntesis etilt
Figure imgf000003_0003
en el que shp es la síntesis de habla de banda inferior filtrada de elevado paso sh p liB \nJ con una frecuencia de corte de 400 Hz. Seguidamente se encuentra gHB del siguiente modo
gil n — &SP gsó 4 - (1 wsp ) - m e (T )
en el que gs p = 1 -e tilt es la ganancia para la señal de habla, gBG = 1.25 gs p es la ganancia para la señal de ruido de segundo plano, y ws p es una función de ponderación ajustada en 1, cuando la detección de la actividad de voz (VAD, voice activity detection) está en ON, y 0 cuando vAd se halla en OFF. gHB está delimitado entre [0.1, 1.0]. En el caso de segmentos vocalizados en los que hay menos energía presente a elevadas frecuencias, etiit se aproxima 1 con lo que resulta una menor ganancia gHB. Esto reduce la energía del ruido generado en el caso de los segmentos vocalizados.
[0012] A continuación se deriva el filtro de síntesis LP de banda alta Ah b (z) a partir del filtro de síntesis de banda baja ponderado:
j4 » b W = Í ( ¿ ) (8)
en el que A (.z) es el filtro de síntesis LP interpolado. A (.z) ha sido calculado mediante el análisis de la señal con la velocidad de muestreo de 12,8 kHz pero ahora se utiliza para una señal de 16 kHz. Esto significa que la banda entre 5,1-5,6 kHz en el dominio 12,8 kHz será mapeada a 6,4-7,0 kHz en el dominio de 16 kHz.
[0013] A continuación se filtra uh b (n) a través de Ah b (z). La salida de esta síntesis de banda alta sh b (n) se filtra a través de un filtro de paso de banda FIR Hh b (z), que tiene un paso de banda de 6 a 7 kHz. Finalmente, se añade sHB al habla sintetizada de manera que se produzca la señal de habla emitida sintetizada.
[0014] En AMR-WB+ la señal de HF está compuesta de los componentes de frecuencia anteriores (fs/4) de la señal introducida. Para representar la señal de HF con una baja velocidad, se emplea una estrategia BWE (bandwidth extension, extensión del ancho de banda). En el BWE, la información sobre la energía se envía al decodificador en la forma de envoltura espectral y de energía de marco, pero la estructura fina de la señal se extrapola en el decodificador a partir de la señal de excitación recibida (decodificada) en la señal de LF.
[0015] El espectro de la señal muestreada en baja sh f puede considerarse como una versión plegada de la banda de alta frecuencia antes del muestreo descendente. Se lleva a cabo un análisis de LP en sh f (n) de manera que se obtenga un conjunto de coeficientes, que modelan la envoltura espectral de esta señal. Típicamente, es necesaria una cantidad de parámetros menor que en la señal de LF. En este caso, se utiliza un filtro de orden 8. Los coeficientes de LP son transformados a continuación en representación de ISP y cuantificados para su transmisión.
[0016] La síntesis de la señal de HF implementa una especie de mecanismo de extensión del ancho de banda (BWE) y utiliza algunos datos del decodificador de LF. Es una evolución del mecanismo de BWE utilizado en el decodificador de habla de AMR-WB (véase más arriba). El decodificador de HF se detalla en la Figura 3.
[0017] La señal de HF se sintetiza en 2 etapas:
1. Cálculo de la excitación de HF;
2. Cálculo de la señal de HF procedente de la excitación de HF.
[0018] La excitación de HF se obtiene configurando la señal de excitación de LF en el dominio del tiempo con factores escalares (o ganancias) en una base de submarco de 64 muestras. Esta excitación de HF se postprocesa para reducir el “grado de ocupación” de la salida, y seguidamente se filtra mediante un filtro de síntesis de predicción lineal de HF 1/Ah f (z). El resultado es sometido a un postprocesamiento adicional para compensar las variaciones de energía. Para mayor información, consulte el documento [3GP09].
[0019] La ocultación de pérdida de paquete en SBR en conjunto con AAC se específica en el documento 3GPP TS 26.402 [3GP12a, capítulo 5.2] y fue subsiguientemente reutilizada en DRM [EBU12, capítulo 5.6.3.1] y DAB [EBU10, capítulo A2].
[0020] En caso de una pérdida de marco, el número de envolturas por marco se establece en uno y los últimos datos de envoltura válidos recibidos se reutiliza y disminuyen en energía en una relación constante para cada marco oculto.
[0021] Los datos de envoltura resultantes se introducen seguidamente en el proceso de decodificación normal en el que el ajustador de HF los utiliza para calcular las ganancias, que se utilizan para ajustar las bandas altas parcheadas fuera del generador de HF. El resto de la decodificación de SBR se lleva a cabo como de costumbre.
[0022] Por otra parte, los valores delta del ruido de fondo codificados se están ajustando a cero, lo que permite que el ruido de fondo decodificado por delta permanezca estático. Al final del proceso de la decodificación, esto significa que la energía del ruido de fondo sigue la energía de la señal de HF.
[0023] Por otra parte, se despejan las banderas para añadir senos.
[0024] La ocultación de SBR del estado de la técnica también se ocupa de la recuperación. Proporciona una transición suave desde la señal oculta a la señal correctamente decodificada en términos de brechas de energía que pueden resultar de límites de marco no concordantes.
[0025] La ocultación de SBR del estado de la técnica en conjunto con CELP/HVXC se describe in [EBU12, capítulo 5.6.3.2] y se describe en términos generales en lo que sigue:
Cuando quiera que se haya detectado un marco corrupto, se aplica un conjunto predeterminado de valores de datos al decodificador de SBR. Esto permite obtener una “envoltura espectral estática de banda alta con un nivel de reproducción relativamente bajo, que presenta una tendencia hacia las frecuencias más elevadas" [EBU12, capítulo 5.6.3.2]. En este caso, la ocultación de SBR inserta algún tipo de ruido de confort, que no tiene un desvanecimiento dedicado en el dominio del SBR. Esto protege los oídos del escucha contra ráfagas de audio relativamente fuertes y mantiene la impresión de un ancho de banda constante.
[0026] La ocultación del BWE del estado de la técnica según G.718 se describe en [ITU08, 7.11.1.7.1] y se señala a grandes rasgos como sigue:
En el modo de bajo retardo, que está disponible exclusivamente para la capa 1 y 2, la ocultación de la banda de alta frecuencia de 6000 a 7000 Hz se realiza exactamente de la misma manera como cuando no se producen borrados de marco. La operación del decodificador de canal limpio para las capas 1, 2 y 3 es como sigue: se aplica una extensión de ancho de banda ciego. El espectro en el rango de 6400-7000 Hz se rellena con una señal de ruido blanco, adecuadamente escalada en el dominio de excitación (la energía de la banda alta debe coincidir con la energía de banda baja). Se sintetiza a continuación, con un filtro derivado mediante la ponderación del mismo filtro de síntesis de LP que el utilizado en el dominio de 12,8 kHz. Para las capas 4 y 5 no se realiza ninguna extensión de ancho de banda, dado que estas capas cubren la banda completa hasta 8 kHz.
[0027] En la operación por defecto se lleva a cabo un procesamiento de baja complejidad para reconstruir la banda de alta frecuencia de la señal sintetizada con una frecuencia de muestreo de 16 kHz. En primer lugar, la excitación de banda de alta frecuencia escalada, U''h b (n), es linealmente atenuada a lo largo del marco como
uHBÍn) = wHB(n ) •*»*(«)> para n = |0 , ... ,319 (9)
en el que la longitud del marco es de 320 muestras y gatt (n) es un factor de atenuación que está dada por
Figure imgf000005_0001
[0028] En la ecuación anterior, SP es la ganancia promedia de pitch (tono). Es la misma ganancia utilizada durante la ocultación del libro de código adaptativo. A continuación, se atenúa la memoria del filtro de paso de banda en el intervalo de frecuencias 6000 - 7000 Hz para lo cual se utiliza gatt (n), como se deriva en la ecuación 10, para impedir cualquier discontinuidad. Finalmente, la señal de excitación de elevada frecuencia, u'” (n), se filtra a través del filtro de síntesis. La señal sintetizada es añadida a continuación a la síntesis oculta con una frecuencia de muestreo de 16 kHz.
[0029] La ocultación en el estado de la técnica del ancho de banda a ciegas en AMR-WB se señala a grandes rasgos en [3GP12b, 6.2.4] y se indica abreviadamente como sigue:
Cuando un marco se pierde o se pierde parcialmente, el parámetro de ganancia de banda alta no se recibe y se utiliza una estimación para la ganancia de banda alta en su lugar. Esto significa que en el caso de marcos de habla malos/perdidos, la reconstrucción de banda alta funciona de la misma manera para todos los modos diferentes.
[0030] En el caso de que se pierda un marco, el filtro de síntesis de LP de banda alta se deriva como es habitual a partir de los coeficientes de LP procedentes de la banda de núcleo. La única excepción es que los coeficientes de LPC no han sido decodificados a partir de la corriente de bits, sino que han sido extrapolados mediante la estrategia normal de ocultación de AMR-WB.
[0031] La ocultación en el estado de la técnica de la extensión del ancho de banda en AMR-WB+ se señala a grandes rasgos en [3GP09, 6.2] y se resume sumariamente en lo que sigue:
En el caso de una pérdida de paquetes, los datos de control que son internos para el decodificador de HF se
generan a partir del vector indicador de marcos malos BFI = (bfiO, bfi 1, bf¡2, bf¡3). Estos datos son BFIgain, y el número de submarcos para la interpolación de ISF. La naturaleza de estos datos se define con mayor detalle en lo que sigue:
> isf \ f es una bandera binaria que indica la pérdida de los parámetros ISF. Dado que los parámetros de ISF para la señal de HF son siempre transmitidos en el primer paquete (que contiene el primer submarco) que es sea de HF20, 40 o 80, la bandera de pérdida siempre se coloca al indicador bfi del primer submarco (bfi0). Lo mismo es válido para la indicación de ganancias de HF pérdidas. Si el primer paquete/submarco del modo vigente se pierde (HF20, 40 o 80) se pierde la ganancia y es necesario ocultarla.
[0032] La ocultación de los vectores HF ISF es muy similar a la ocultación ISF para los ISF de núcleo. La idea principal es la de reutilizar el último vector ISF bueno, pero desplazarlo hacia el vector ISF medio (en el que el vector de ISF medio es entrenado offline):
Figure imgf000006_0001
[0033] Las ganancias de BWE (9o, . . . , ¿ ? n b - i ) se estiman según el siguiente código de fuente (en el código: 3 i = gain_q[i]; 2.807458 es una constante del decodificador).
/* utilizar las ganancias pasadas ligeramente desplazadas hacia la media */
*past_q = (0.9f*(*past_q 20.0f)) - 20.0f;
para (i=0; i<4; i++) {
gain_q[i] = *past_q 2.807458f;
}
tmp = 0.0;
para (i=0; i<4; i++) {
} tmp = gain_q[i];
*past_q = 0.25f*tmp - 2.807458f;
[0034] Con el fin de derivar las “ganancias para hacer concordar la magnitud en fs/4” se utiliza el mismo algoritmo que en la decodificación de canal limpio, pero con la excepción de que los ISF para la parte de HF y/o de LF ya pueden haberse ocultado. Todas las etapas siguientes tales como la interpolación lineal, suma y aplicación de ganancias son las mismas que en el caso del canal limpio.
[0035] Para derivar la excitación, se utiliza el mismo procedimiento que en un marco correctamente recibido, donde la excitación de banda inferior se utiliza después:
• de que haya sido aleatorizado
• de que haya sido ampliado en el dominio del tiempo con ganancias de submarco
• de que haya sido configurado en el dominio de las frecuencias con un filtro de LP
• la energía haya sido alisada a lo largo del tiempo
[0036] A continuación, la síntesis se lleva a cabo según la Figura 3.
[0037] El documento: AES convention paper 6789: Schneider, Krauss y Ehret [SKE06] describe una técnica de ocultación que reutiliza los últimos datos de envoltura de SBR válidos. Si se pierde más de un marco de SBR, se aplica un desvanecimiento. “El principio básico es el de bloquear simplemente los últimos valores de SBR de envoltura válidos conocidos hasta que sea posible continuar el procesamiento de SBR con datos transmitidos de nuevo. Además, se lleva a cabo un desvanecimiento si más de un marco de SBR no es decodificable”.
[0038] En el documento AES convention paper 6962: Sang-Uk Ryu y Kenneth Rose [RR06] se describe una técnica de ocultación que estima la información paramétrica, para lo cual utiliza datos de s Br del marco anterior y del marco siguiente. Las envolturas de banda alta son estimadas de manera adaptativa a partir de la evolución de la energía en los marcos circundantes.
[0039] Los conceptos de la ocultación de pérdidas de paquetes pueden producir una señal de audio perceptualmente degradada durante la pérdida de paquetes.
[0040] El documento WO201/127617 A1 describe un procedimiento de ocultación de error por el que los coeficientes de dominio de frecuencia son copiados desde un marco anterior. La señal de banda alta para el marco actual se escala de forma adaptativa con el fin de mantener el índice de energía entre la señal de banda alta y la señal de banda baja.
[0041] Uno de los objetivos de la presente invención es el de proporcionar un decodificador de audio y un procedimiento que tenga un concepto mejorado en cuanto a la ocultación de pérdidas de paquetes.
[0042] Este objeto puede alcanzarse mediante un decodificador de audio según la reivindicación 1. El decodificador de audio según la invención une el módulo de extensión de ancho de banda para el módulo de decodificación de banda de núcleo en términos de energía o, en otras palabras, asegura que el módulo de extensión de ancho de banda siga al módulo de decodificación de banda de núcleo en cuanto a energía durante la ocultación, independientemente de lo que haga el módulo de decodificación de la banda de núcleo.
[0043] La innovación con esta estrategia es que -en caso de ocultación- la generación de banda alta ya no se adapta estrictamente a las energías de envoltura. Con la técnica del bloqueo de la ganancia, las energías de banda alta se adaptan a las energías de banda baja durante la ocultación y, por tanto, ya no se basan únicamente en los datos transmitidos en el último marco bueno. Este procedimiento utiliza la idea de utilizar la información de banda baja para la reconstrucción de la banda alta.
[0044] Con esta estrategia, no es necesario transferir datos adicionales (por ejemplo, el factor de desvanecimiento) desde el codificador de núcleo al codificador de extensión de ancho de banda. Esto hace que la técnica sea de fácil aplicación a cualquier codificador con extensión de ancho de banda, especialmente a SBR, donde el cálculo de la ganancia ya se realiza inherentemente (Ecuación 1).
[0045] La ocultación del decodificador de audio de la invención tiene en cuenta la pendiente de desvanecimiento del módulo de decodificación de banda de núcleo. Esto conduce a un comportamiento previsto del desvanecimiento en su conjunto. Se evitan las situaciones en las que las energías de las bandas de frecuencia del módulo de decodificación de banda de núcleo se desvanecen más lentamente que las energías de las bandas de frecuencia del módulo de ampliación de ancho de banda, que se harían perceptibles y causarían la impresión desagradable de una banda de la señal limitada.
[0046] Por otra parte, también se evitan las situaciones en las que las energías en las bandas de frecuencia del módulo de decodificación de banda de núcleo se desvanecen más rápidamente que las energías de las bandas de frecuencia del módulo de ampliación de ancho de banda, lo que introduciría artefactos porque las bandas de frecuencia de los módulos de extensión de ancho de banda se amplifican excesivamente, en comparación con las bandas de frecuencia del módulo de decodificación de banda de núcleo.
[0047] En contraste con un decodificador sin desvanecimiento que tiene una extensión de ancho de banda con niveles de energía predefinidos (como por ejemplo un decodificador CELP/HVXC SBR decodificador), que conserva solamente la inclinación espectral de un cierto tipo de señal, funciona el decodificador de audio de la invención de forma independiente con respecto a las características espectrales de las señales, de manera que se evita una degradación perceptualmente decodificada de la señal de audio.
[0048] La técnica propuesta podría ser utilizada con cualquier procedimiento de extensión de ancho de banda (BWE) en la parte superior de un módulo de decodificación de banda de núcleo (en lo que sigue: codificador de núcleo). La mayor parte de la técnica de extensión de ancho de banda se basa en la ganancia por banda entre los niveles originales de energía y los niveles de energía que obtienen después de copiar el espectro de núcleo. La técnica propuesta no actúa sobre las energías del marco de audio anterior, como lo hace el estado de la técnica, sino sobre las ganancias del marco de audio anterior.
[0049] Cuando un marco de audio se pierde o es ilegible (o en otras palabras, si se produce una pérdida de marco de audio) las ganancias derivadas del último marco bueno se introducen en el proceso de decodificación normal del módulo de decodificación de banda de núcleo, que ajusta las energías de las bandas de frecuencia del módulo de extensión de ancho de banda (véase la ecuación 1). Esto forma la ocultación. Cualquier desvanecimiento, que se aplique en el módulo de decodificación de banda de núcleo por una ocultación del módulo de decodificación de banda de núcleo, se aplicará de forma automática a las energías de las bandas de frecuencia del módulo de ampliación de ancho de banda mediante el bloqueo de las energías entre las bandas alta y baja.
[0050] La señal de dominio de frecuencia que tiene al menos una banda de frecuencia puede ser, por ejemplo, una señal de excitación de predicción lineal excitada por código algebraico (señal de excitación ACELP).
[0051] En algunas formas de realización, el módulo de extensión de ancho de banda comprende un módulo que proporciona un factor de ganancia para enviar el factor de ganancia actual, al menos en el marco de audio real en el que la pérdida de marco de audio se produce en el módulo de ajuste de energía.
[0052] En una forma de realización preferida, el módulo que proporciona el factor de ganancia está configurado de tal manera que en el marco de audio actual en el que tiene lugar la pérdida de marco de audio el factor de ganancia actual es el factor de ganancia del marco de audio anterior. Esta forma de realización desactiva por completo el desvanecimiento contenido en el módulo que decodifica la extensión del ancho de banda mediante el solo bloqueo de las ganancias derivadas para la última envoltura en el último tramo bueno:
Figure imgf000008_0001
en la que EAdj [k] designa la energía de una banda de frecuencia k del módulo de extensión de ancho de banda,
[n] rb l n r,
ajustada para expresar lo mejor posible la distribución original de la energía; Sb™ LKJ' Sbwe LKI designa el factor de ganancia del marco actual; y a Sb l1w1’e1] r tK t- iJ designa el factor de ganancia del marco anterior.
[0053] En otra forma de realización preferida, el módulo que proporciona el factor de ganancia está configurado de tal manera que en el marco de audio actual en el que tiene lugar la pérdida de marco el factor de ganancia actual se calcula a partir del factor de ganancia del marco de audio anterior y a partir de una clase de señal del marco de audio anterior.
[0054] Esta forma de realización utiliza un clasificador de señales para calcular las ganancias sobre la base de las ganancias pasadas y también adaptativamente sobre la clase de señal del marco anteriormente recibido:
Figure imgf000008_0002
en el que >
Figure imgf000008_0003
designa una función que depende del factor de ganancia abw e del marco de audio anterior y de la clase de señal sW del marco de audio anterior. Las clases de señal pueden referirse a clases de sonidos del habla tales como: obstruyente (con subclases: stop, africativo, fricativo), sonoras (estas subclases: nasal, flap approximant, vocal), lateral, trill.
[0055] En una forma de realización preferida el módulo que proporciona el factor de ganancia está configurado para calcular un número de marcos de audio subsiguientes en los que tiene lugar una pérdida de marco de audio y configurado para llevar a cabo un procedimiento reductor del factor de ganancia en el que el número de marcos de audio subsiguientes en los que tiene lugar una pérdida de marco de audio que supera un número predefinido.
[0056] Si tiene lugar un fricativo inmediatamente antes de una pérdida de marco en forma de ráfaga (múltiples pérdidas de marco en marcos de audio subsiguientes), el desvanecimiento inherente por defecto del módulo de decodificación de banda de núcleo puede ser demasiado lento para asegurar un sonido agradable y natural en combinación con el bloqueo de ganancia. El resultado percibido de esto puede ser un fricativo prolongado con mucha energía en las bandas de frecuencia del módulo de extensión de ancho de banda. Por esta razón es posible que se lleve a cabo una verificación de múltiples pérdidas de marco. Si esta verificación es positiva, puede llevarse a cabo un procedimiento para disminuir el factor de ganancia.
[0057] En una forma de realización preferida, el procedimiento para reducir el factor de ganancia comprende la etapa de reducción del factor de ganancia actual dividendo el factor de ganancia actual por un primer número en el caso en que el factor de ganancia actual supere un primer umbral. Mediante estos rasgos se reducen las ganancias que superen un primer umbral (que puede determinarse empíricamente).
[0058] En una forma de realización preferida, el procedimiento para reducir el factor de ganancia comprende la etapa de reducción del factor de ganancia actual para lo cual se divide el factor de ganancia actual por un segundo número que es más grande que el primer número en el caso en que el factor de ganancia actual supera un segundo umbral que es más grande que el primer umbral. Estos rasgos aseguran que las ganancias extremadamente más elevadas disminuyan más rápidamente aun. Todas las ganancias que superen el segundo umbral disminuirán más rápidamente.
[0059] En algunas formas de realización el procedimiento para reducir el factor de ganancia comprende la etapa de ajuste del factor de ganancia actual en el primer umbral en el caso en que el umbral actual, después de su reducción, sea inferior al primer umbral. Mediante estos aspectos se impide que las ganancias disminuidas caigan por debajo del primer umbral.
[0060] Puede verse un ejemplo dentro del pseudocódigo 1:
/*limitar ganancia en el caso de múltiples pérdidas de marco*/
#DEFINE BWE_GAINDEC 10
si (previousFrameErrorFlag && (gain[k] > BWE_GAINDEC) ) {
/* las ganancias que superan el primer umbral en 50 veces serán disminuidas más rápidamente */
Si (gain[k] > 50* BWE_GAINDEC) {
gain[k] /= 6;
}
en caso contrario {
gain[k] /= 4;
} /* impedir que las ganancias caigan por debajo de BWE_GAINDEC */
si (gain[k] < BWE_GAINDEC) {
gain[k] = BWE_GAINDEC;
}}
en el que previousFrameErrorFlag es una bandera que indica si hay una pérdida de marco múltiple está presente, BWE_GAINDEC designa el primer umbral, 50* BWE_GAINDEC designa el segundo umbral y gain[k] designa el factor de ganancia actual para la banda de frecuencia k.
[0061] En algunas formas de realización el módulo de extensión de ancho de banda comprende un módulo generador de ruido configurado para añadir ruido al menos a una banda de frecuencia, en la que en el marco de audio actual en la que tiene lugar la pérdida de marco de audio se utiliza una relación entre la energía de señal y la energía de ruido de al menos una banda de frecuencia del marco de audio anterior para calcular la energía de ruido del marco de audio actual.
[0062] En el caso de que haya una característica de ruido de fondo (es decir, componentes de ruido adicionales para conservar el ruido de la señal original) implementado en la extensión del ancho de banda, es necesario adoptar la idea del bloqueo de la ganancia también hacia el ruido de fondo. Para conseguir esto, niveles de energía de ruido de fondo de marcos no ocultos son convertidos en una relación de ruido, para lo cual se tiene en cuenta la energía de las bandas de frecuencia del módulo de extensión de ancho de banda. Se guarda la relación en una memoria intermedia y será la base del nivel de ruido en el caso de una ocultación. La principal ventaja es el mejor acoplamiento del ruido de fondo a la energía del codificador de núcleo debido al cálculo de la relación ratio prev_noise[k].
[0063] El pseudocódigo 2 muestra esto:
para (k=bands) {
si !(frameErrorFlag) {
prev_noise[k] = nrgHighband[k] / noiseLevel[k];
} En caso contrario {
noiseLevel[k] = nrgHighband[k] / prev_noise[k]; } }
en el que frameErrorFlag es una bandera que indica que hay una pérdida de marco presente y prev_noise[k] es la relación entre la energía nrgHighband[k] de la banda de frecuencia k y el nivel de ruido Level[k] de la banda de frecuencia k.
[0064] En una forma de realización preferida el decodificador de audio comprende un módulo analizador de espectros configurado para establecer el espectro del marco de audio actual de la señal de audio de banda de núcleo y para derivar la energía estimada para la señal para el marco actual para al menos una banda de frecuencia a partir del espectro del marco de audio actual de la señal de audio de banda de núcleo.
[0065] En algunas formas de realización el módulo que proporciona el factor de ganancia está configurado de tal manera que, en el caso de que un marco de audio actual, en el que no tiene lugar una pérdida de marco de audio, siga subsiguientemente en un marco de audio anterior, en el que tiene lugar una pérdida de marco de audio, se utiliza el factor de ganancia recibido para el marco de audio actual para el marco vigente, si un retardo entre marcos de audio del módulo de extensión de ancho de banda con respecto a los marcos de audio del módulo de decodificación de banda de núcleo es más pequeño que un umbral de retardo, utilizándose el factor de ganancia tomado del marco de audio anterior para el marco vigente, si el retardo entre marcos de audio del módulo de extensión de ancho de banda con respecto a los marcos de audio del módulo de decodificación de banda de núcleo es mayor que el umbral de retardo.
[0066] Por encima de la ocultación, en el módulo de extensión de ancho de banda debe prestarse especial atención a la formación de los marcos. Los marcos de audio del módulo de extensión de ancho de banda y los marcos de audio del módulo de decodificación de banda de núcleo con frecuencia no están alineados exactamente, sino que podrían tener un determinado retardo. Por ello puede suceder que un paquete perdido contenga datos de extensión del ancho de banda que se estén retardando, con respecto a la señal de núcleo contenido en el mismo paquete.
[0067] El resultado en este caso es que el primer paquete bueno después de una pérdida puede contener datos de extensión para crear partes de las bandas de frecuencia del módulo de extensión de ancho de banda del módulo de decodificación de banda anterior del marco de audio de núcleo, que ya estaba oculto en el decodificador.
[0068] Por esta razón, es necesario considerar la formación de marcos durante la recuperación, en función de las respectivas propiedades del núcleo, módulo de decodificación y módulo de extensión de ancho de banda. Esto podría significar tratar el primer marco de audio o partes de él en el módulo de extensión de ancho de banda como erróneos y no aplicar las ganancias más nuevas de una vez sino conservar las ganancias bloqueadas del primer marco de audio para un marco adicional.
[0069] Conservar o no las ganancias bloqueadas para el primer marco bueno depende del retardo. La aplicación experimental a códecs con diferentes retardos mostró diferentes beneficios para códecs con diferentes retardos. Para códecs con retardos bastante pequeños (por ejemplo, de 1ms), es mejor utilizar las ganancias más nuevas para el primer marco de audio bueno.
[0070] En una forma de realización preferida el módulo de extensión de ancho de banda comprende un módulo generador de señales configurado para crear una señal bruta en el dominio de las frecuencias que tiene al menos una banda de frecuencia, que es comunicada al módulo de ajuste de energía, sobre la base de la señal de audio de banda de núcleo y la corriente de bits.
[0071] En una forma de realización preferida el módulo de extensión de ancho de banda comprende un módulo de síntesis de señales configurado de manera que produzca la señal de audio de extensión de ancho de banda a partir de la señal en el dominio de frecuencias.
[0072] El objetivo de la invención puede lograrse por medio de un procedimiento para producir una señal de audio desde una corriente de bits que contiene marcos de audio según la reivindicación 14. El objetivo de la invención puede lograrse además mediante un programa informático para llevar a cabo, cuando se ejecuta en un ordenador o procesador, el procedimiento anteriormente descrito, según la reivindicación 15. En lo que sigue se exponen formas de realización preferidas de la invención con respecto a los dibujos adjuntos, en los que:
la Figura 4 ilustra una forma de realización de un decodificador de audio según la invención en una vista esquemática; y
la Figura 5 ilustra la formación de marcos de una forma de realización de un decodificador de audio según la invención.
[0073] La Figura 4 ilustra una forma de realización de un decodificador de audio 1 según la invención en una vista esquemática. El decodificador de audio 1 está configurado para producir una señal de audio, AS (audio signal) de una corriente de bits, BS (bitstream) que contiene marcos de audio AF (audio frames). El decodificador de audio 1 comprende:
un módulo de decodificación de banda de núcleo configurado para derivar una señal de audio de banda de núcleo directamente decodificada CBS a partir de la corriente de bits BS;
un módulo de extensión de ancho de banda 2 configurado para derivar una señal de audio de extensión de ancho de banda paramétricamente decodificada BES a partir de la señal de audio de banda de núcleo CBS y a partir de la corriente de bits BS, en el que la señal de audio de extensión de ancho de banda BES está basada en una señal en el dominio de las frecuencias FDS que tiene al menos una banda de frecuencia FB; y
un combinador 4 configurado para combinar la señal de audio de banda de núcleo CBS y la señal de audio de extensión de ancho de banda BES de manera que se produzca la señal de audio AS;
en el que el módulo de extensión de ancho de banda 3 comprende un módulo de ajuste de energía 5 que está configurado de tal manera que en un marco de audio actual AF2 en el que tiene lugar una pérdida de marco de audio AFL, se establece una energía de señal ajustada para el marco de audio actual AF2 para al menos una banda de frecuencia FB sobre la base de un factor de ganancia actual CGF para el marco de audio actual AF2, en el que el factor de ganancia actual CGF se deriva a partir de un factor de ganancia tomado de un marco de audio previo AF1 o a partir de la corriente de bits BS, y sobre la base de una energía estimada para la señal EE para al menos una banda de frecuencia FB, donde la energía estimada para la señal EE se deriva a partir de un espectro del marco de audio actual AF2 de la señal de audio de banda de núcleo CBS.
[0074] El decodificador de audio 1 según la invención une el módulo de extensión de ancho de banda 3 al módulo de decodificación de banda de núcleo en términos de energía o, en otras palabras, asegura que el módulo de extensión de ancho de banda 3 siga al módulo de decodificación de banda de núcleo 2 en cuanto a energía durante la ocultación, no importa lo que haga el módulo de decodificación de banda de núcleo.
[0075] La innovación con esta estrategia es que -en el caso de la ocultación- la generación de bandas altas ya no está estrictamente adaptada para envolver energías. Con la técnica del bloqueo de ganancias, las energías de banda alta se adaptan a las energías de baja banda durante la ocultación y por lo tanto ya no se basan solamente sobre los datos transmitidos durante el último marco bueno AF1. Este procedimiento aprovecha la idea de utilizar información de baja banda para la reconstrucción de bandas altas.
[0076] Con esta estrategia, no es necesario transferir datos adicionales (por ejemplo, el factor de desvanecimiento) desde decodificador de núcleo 2 hacia el codificador de extensión de ancho de banda 3. Esto hace que la técnica sea fácilmente aplicable a cualquier codificador 1 con extensión de ancho de banda 3, especialmente a SBR, en el que ya se lleva a cabo el cálculo de la ganancia de manera inherente (ecuación 1).
[0077] La ocultación del decodificador de audio según la invención 1 tiene en cuenta la pendiente de desvanecimiento del módulo de decodificación de banda de núcleo 2. Esto conduce al comportamiento previsto del desvanecimiento como un conjunto. Se evitan las situaciones en las que las energías de las bandas de frecuencia FB del módulo de decodificación de banda de núcleo 2 se desvanecen más lentamente que las energías de las bandas de frecuencia FB del módulo de ampliación de ancho de banda 3, que se harían perceptibles y causarían la impresión desagradable de un banda de la señal limitada.
[0078] Por otra parte, también se evitan las situaciones en las que las energías en las bandas de frecuencia FB del módulo de decodificación de banda de núcleo 2 se desvanecen más rápidamente que las energías de las bandas de frecuencia FB del módulo de ampliación de ancho de banda 3, lo que introduciría artefactos porque las bandas de frecuencia FB de los módulos de extensión de ancho de banda 3 se amplifican excesivamente, en comparación con las bandas de frecuencia FB del módulo de decodificación de banda de núcleo 2.
[0079] En contraste con un decodificador sin desvanecimiento que tiene una extensión de ancho de banda con niveles de energía predefinidos (como por ejemplo un decodificador CELP/HVXC SBR decodificador), que conserva solamente la inclinación espectral de un cierto tipo de señal, funciona el decodificador de audio 1 de la invención de forma independiente con respecto a las características espectrales de las señales, de manera que se evita una degradación perceptualmente decodificada de la señal de audio AS.
[0080] La técnica propuesta podría ser utilizada con cualquier procedimiento de extensión de ancho de banda (BWE) en la parte superior de un módulo de decodificación de banda de núcleo 2 (en lo que sigue: codificador de núcleo). La mayor parte de la técnica de extensión de ancho de banda se basa en la ganancia por banda entre los niveles originales de energía y los niveles de energía que obtienen después de copiar el espectro de núcleo. La técnica propuesta no actúa sobre las energías del marco de audio previo, como lo hace el estado de la técnica, sino sobre las ganancias del marco de audio previo AF1.
[0081] Cuando un marco de audio AF2 se pierde o es ilegible (o en otras palabras, si se produce una pérdida de marco de audio AFL) las ganancias derivadas del último marco bueno se introducen en el proceso de decodificación normal del módulo de decodificación de banda de núcleo 2, que ajusta las energías de las bandas de frecuencia del módulo de extensión de ancho de banda 3 (véase la ecuación 1). Esto forma la ocultación. Cualquier desvanecimiento, que se aplique en el módulo de decodificación de banda de núcleo por una ocultación del módulo de decodificación de banda de núcleo 2, se aplicará de forma automática a las energías de las bandas de frecuencia FB del módulo de ampliación de ancho de banda 3 mediante el bloqueo de las energías entre las bandas alta y baja.
[0082] En algunas formas de realización, el módulo de extensión de ancho de banda 3 comprende un módulo que proporciona factor de ganancia 6 configurado para comunicar el factor de ganancia actual c Gf al menos en el marco de audio actual AF2 en el que tiene lugar la pérdida de marco de audio AFL hacia el módulo de ajuste de energía 5.
[0083] En una forma de realización preferida, el módulo que proporciona el factor de ganancia 6 está configurado de tal manera que en el marco de audio actual AF2 en el que tiene lugar la pérdida de marco de audio AFL el factor de ganancia actual CGF es el factor de ganancia del marco de audio previo AF1.
[0084] Esta forma de realización desactiva por completo el desvanecimiento contenido en el módulo de decodificación de la extensión del ancho de banda 3 mediante el mero bloqueo de las ganancias derivadas para la última envoltura en el último tramo bueno. En otra forma de realización preferida, el módulo que proporciona el factor de ganancia 6 está configurado de tal manera que en el marco de audio actual AF2 en el que tiene lugar la pérdida de marco AFL el factor de ganancia actual CGS se calcula a partir del factor de ganancia del marco de audio previo y a partir de una clase de señal del marco de audio previo.
[0085] Esta forma de realización utiliza un clasificador de señales para calcular ganancias GCS sobre la base de las ganancias pasadas y también adaptativamente sobre la clase de señal del marco anteriormente recibido AF1. Las clases de señal pueden referirse a clases de sonidos del habla tales como: obstruyente (con subclases: stop, africativo, fricativo), sonoras (estas subclases: nasal, flap approximant, vocal), lateral, trill.
[0086] En una forma de realización preferida, el módulo que proporciona el factor de ganancia 6 está configurado para calcular un número de marcos de audio subsiguientes en los que tiene lugar pérdidas de marco de audio AFL y configurado para llevar a cabo un procedimiento reductor del factor de ganancia en el que el número de marcos de audio subsiguientes en los que tiene lugar una pérdida de marco de audio AFL supera un número predefinido.
[0087] Si tiene lugar un fricativo inmediatamente antes de una pérdida de marco en forma de ráfaga (múltiples pérdidas de marco AFL en marcos de audio subsiguientes AF), el desvanecimiento inherente por defecto del módulo de decodificación de banda de núcleo 2 puede ser demasiado lento para asegurar un sonido agradable y natural en combinación con el bloqueo de ganancia. El resultado percibido de esto puede ser un fricativo prolongado con mucha energía en las bandas de frecuencia FB del módulo de extensión de ancho de banda 3. Por esta razón es posible que se lleve a cabo una verificación de múltiples pérdidas de marco AFL. Si esta verificación es positiva, puede llevarse a cabo un procedimiento para disminuir el factor de ganancia.
[0088] En una forma de realización preferida, el procedimiento para reducir el factor de ganancia comprende la etapa de reducción del factor de ganancia actual dividiendo el factor de ganancia actual por un primer número en el caso en que el factor de ganancia actual supera un primer umbral. Mediante estos rasgos se reducen las ganancias que superen un primer umbral (que puede determinarse empíricamente).
[0089] En una forma de realización preferida, el procedimiento para reducir el factor de ganancia comprende la etapa de reducir el factor de ganancia actual para lo cual se divide el factor de ganancia actual por un segundo número que es más grande que el primer número en el caso en que el factor de ganancia actual supera un segundo umbral que es mayor que el primer umbral. Estos rasgos aseguran que las ganancias extremadamente más elevadas disminuyan más rápidamente incluso. Todas las ganancias que superen el segundo umbral disminuirán más rápidamente.
[0090] En algunas formas de realización el procedimiento para reducir el factor de ganancia comprende la etapa de ajuste del factor de ganancia actual en el primer umbral en el caso en que el umbral actual, después de su reducción, es inferior al primer umbral. Mediante estos aspectos se impide que las ganancias disminuidas caigan por debajo del primer umbral.
[0091] En algunas formas de realización el módulo de extensión de ancho de banda 3 comprende un módulo generador de ruido 7 configurado para añadir ruido NOI al menos a una banda de frecuencia FB, en el que, en el marco de audio actual AF2 en el que tiene lugar la pérdida de marco de audio AFL, se utiliza una relación entre la energía de la señal y la energía del ruido de al menos una banda de frecuencia FB del marco de audio previo AF1 para calcular la energía del ruido del marco de audio actual AF2.
[0092] En el caso en que haya un rasgo de ruido de fondo (es decir, componentes de ruido adicionales para conservar el ruido de la señal original) implementado en la extensión del ancho de banda 3, es necesario adoptar la idea del bloqueo de la ganancia también hacia el ruido de fondo. Para lograr esto, niveles de energía de ruido de fondo de marcos no ocultos son convertidos en una relación de ruido, para lo cual se tiene en cuenta la energía de las bandas de frecuencia del módulo de extensión de ancho de banda. Se guarda la relación en una memoria intermedia y será la base del nivel de ruido en el caso de una ocultación. La principal ventaja es el mejor acoplamiento del ruido de fondo a la energía del codificador de núcleo debido a un cálculo de la relación.
[0093] En una forma de realización preferida el decodificador de audio 1 comprende un módulo para analizar espectros 8 configurado para establecer el espectro del marco de audio actual AF2 de la señal de audio de banda de núcleo CBS y para derivar la energía estimada para la señal EE para el marco vigente AF2 para al menos una banda de frecuencia FB a partir del espectro del marco de audio actual AF2 de la señal de audio de banda de núcleo CBS.
En una forma de realización preferida el módulo de extensión de ancho de banda 3 comprende un módulo generador de señales 9 configurado para crear una señal en el dominio de las frecuencias en bruto RFS que tiene al menos una banda de frecuencia FB, que se comunica al módulo de ajuste de energía 5, sobre la base de la señal de audio de banda de núcleo CBS y de la corriente de bits BS.
En una forma de realización preferida el módulo de extensión de ancho de banda 3 comprende un módulo de síntesis de señales 10 configurado de manera que se produzca la señal de audio de extensión de ancho de banda BES a partir de la señal en el dominio de las frecuencias FDS.
La Figura 5 ilustra la formación de marcos de una forma de realización de un decodificador de audio 1 según la invención.
[0094] En algunas formas de realización el módulo que proporciona el factor de ganancia 6 está configurado de tal manera que, en el caso en que un marco de audio actual a F2, en el que no tiene lugar una pérdida de marco AFL, sigue sustancialmente un marco de audio previo AF1, en el que tiene lugar una pérdida de marco de audio AFL, el factor de ganancia recibido para el marco de audio actual AF2 se utiliza para el marco vigente AF2, si un retardo DEL entre marcos de audio AF del módulo de extensión de ancho de banda 3 con respecto a los marcos de audio AF' del nódulo decodificador de banda de núcleo 2 es más pequeño que un retardo umbral, mientras que el factor de ganancia tomado del marco de audio previo AF1 se utiliza para el marco vigente AF 2, si el retardo DEL entre marcos de audio AF del módulo de extensión de ancho de banda 3 con respecto a los marcos de audio AF' del módulo de decodificación de banda de núcleo 3 es mayor que el umbral de retardo.
[0095] Además de la ocultación, en el módulo de extensión de ancho de banda 3 debe prestarse especial atención a la formación de marcos. Los marcos de audio AF del módulo de extensión de ancho de banda y los marcos de audio AF' del módulo de decodificación de banda de núcleo 3 frecuentemente no están exactamente alineados pero podrían tener un determinado retardo DEL. Por ello puede suceder que un paquete perdido contenga datos de extensión de ancho de banda que estén retardados, con respecto a la señal de núcleo contenida en el mismo paquete.
[0096] El resultado en este caso es que el primer paquete bueno después de una pérdida puede contener datos de extensión para crear partes de las bandas de frecuencia FB del módulo de extensión de ancho de banda 3 del módulo de decodificación de banda previo del marco de audio de núcleo AF', que ya estaba oculto en el decodificador 2.
[0097] Por esta razón, es necesario considerar la formación de marcos durante la recuperación, en función de las respectivas propiedades del núcleo, módulo de decodificación y módulo de extensión de ancho de banda. Esto podría significar tratar el primer marco de audio o partes de él en el módulo de extensión de ancho de banda 3 como erróneos y no aplicar las ganancias más nuevas de una vez sino conservar las ganancias bloqueadas del primer marco de audio para un marco adicional.
[0098] Conservar o no las ganancias bloqueadas para el primer marco bueno depende del retardo. La aplicación experimental a códecs con diferentes retardos mostró diferentes beneficios para códecs con diferentes retardos. Para códecs con retardos más bien pequeños (por ejemplo, de 1 ms), es mejor utilizar las ganancias más nuevas para el primer marco de audio bueno.
[0099] Aunque algunos aspectos han sido descritos en el contexto de un aparato, es evidente que estos aspectos también representan una descripción del procedimiento correspondiente, en el que un recuadro o dispositivo corresponde a una etapa de procedimiento o a un rasgo de una etapa del procedimiento. De manera análoga, los aspectos descritos en el contexto de una etapa de procedimiento también representan una descripción de un recuadro, elemento o característica, correspondientes de un aparato correspondiente. Algunas de las etapas de procedimiento, o todas ellas, pueden ser llevadas a cabo mediante un aparato de hardware (o mediante la utilización de un aparato de hardware), tal como por ejemplo un microprocesador, un ordenador programable o un circuito electrónico. En algunas formas de realización, algunas, una o más de las etapas más importantes del procedimiento pueden ser llevadas a cabo mediante un aparato de este tipo.
[0100] En función de determinados requisitos para la implementación, las formas de realización de la invención pueden ser implementadas en hardware o en software. La implementación puede llevarse a cabo mediante un medio de almacenamiento digital, por ejemplo un floppy disk, un DVD, un Blu-Ray, un CD, un ROM; un PROM, un EPROM, un EEPROM, o una memoria FLASH, que tienen señales de control electrónicamente legibles almacenadas en ellos, que cooperan (o que son capaces de cooperar) con un sistema de ordenador programable de tal manera que se lleve a cabo el respectivo procedimiento. Por ello, el medio de almacenamiento digital puede ser legible por ordenador.
[0101] Algunas formas de realización según la invención comprenden un soporte de datos no transitorio que tiene señales de control electrónicamente legibles, que son capaces de cooperar con un sistema de ordenador programable, de tal manera que se lleve a cabo uno de los procedimientos descritos en esta invención.
[0102] En términos generales, las formas de realización de la presente invención pueden implementarse como un producto de programa informático con un código de programa, siendo el código del programa operativo para llevar a cabo uno de los procedimientos cuando el producto de programa informático es ejecutado en un ordenador. El código de programa puede almacenarse por ejemplo en un soporte legible por máquina.
[0103] Otras formas de realización comprenden el programa informático para llevar a cabo uno de los procedimientos descritos en esta invención, almacenado en un soporte legible por máquina.
[0104] En otras palabras, una forma de realización del procedimiento inventivo consiste, por tanto, en un programa informático que tiene un código de programa para llevar a cabo uno de los procedimientos descritos presenten esta invención, cuando el programa informático se ejecuta en un ordenador.
[0105] Por lo tanto, otra forma de realización de los procedimientos inventivos consiste en un soporte de datos (o en un medio de almacenamiento digital, o en un medio legible por ordenador) que comprende, grabado en él, el programa informático para llevar a cabo uno de los procedimientos descritos en esta invención. El soporte de datos, el medio de almacenamiento digital o el medio grabado son típicamente tangibles y/o no transitorios.
[0106] Por lo tanto, otra forma de realización del procedimiento inventivo consiste en una corriente de datos o en una secuencia de señales que representa el programa informático para llevar a cabo uno de los procedimientos descritos en esta invención. La corriente de datos o la secuencia de señales pueden estar configuradas por ejemplo para ser transferida por medio de una conexión para la comunicación de datos, por ejemplo por intermedio de Internet.
[0107] Una forma de realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador, o un dispositivo lógico programable, configurado o adaptado para llevar a cabo uno de los procedimientos descritos en esta invención.
[0108] Otra forma de realización comprende un ordenador que tiene instalada en él el programa informático para llevar a cabo uno de los procedimientos descritos en esta invención.
[0109] Otra forma de realización según la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, electrónicamente u ópticamente) un programa informático para llevar a cabo uno de los procedimientos descritos en esta invención en un receptor. El receptor puede ser por ejemplo un ordenador, un dispositivo móvil, un dispositivo de memoria o similar. El aparato o sistema puede comprender por ejemplo un servidor de archivos para transferir el programa informático hacia el receptor.
[0110] En algunas formas de realización, puede utilizarse un dispositivo lógico programable (por ejemplo un field programmable gate array) para llevar a cabo algunas de las funcionalidades, o todas ellas, de los procedimientos descritos en esta invención. En algunas formas de realización, un field programmable gate array puede cooperar con un microprocesador con el fin de llevar a cabo uno de los procedimientos descritos en esta invención. En términos generales es preferible que los procedimientos sean llevados a cabo mediante cualquier aparato de hardware.
[0111] Las formas de realización anteriormente descritas son meramente ilustrativas de los principios de la presente invención. Se entiende que para la persona experta en la técnica le serán evidentes modificaciones y variaciones en cuanto a las disposiciones y detalles descritos en esta invención. Por ello la finalidad es que la invención quede limitada solamente por los alcances de las reivindicaciones de patente pendientes y no por los detalles específicos presentados a modo de descripción y explicación de las formas de realización en esta invención. Signos de referencia:
[0112]
1 Decodificador de audio
2 Módulo de decodificación de banda de núcleo
3 Módulo de extensión de ancho de banda
4 Combinador
5 Módulo de ajuste de la energía
6 Módulo que proporciona factor de ganancia
7 Módulo generador de ruido
8 Módulo de análisis de espectros
9 Módulo generador de señales
10 Módulo de síntesis de señales
AS Señal de audio
BS Corriente de bits
AF Marco de audio
CBS Señal de audio de banda de núcleo
BES Señal de audio de extensión de ancho de banda
FDS Señal de dominio de frecuencias
FB Banda de frecuencia
AFL Pérdida de marco de audio
CGF Factor de ganancia actual
EE Energía de señal estimada
NOI Ruido
DEL Retardo
RFS Señal de dominio de frecuencias en bruto
Referencias:
[0113]
[3GP09] 3GPP; Technical Specification Group Services and System Aspects, Extended adaptive multi-rate -wideband (AMR-WB+) codec, 3GPP TS 26.290, 3rd Generation Partnership Project, 2009.
[3GP12a] General audio codec audio processing functions; Enhanced aacPlus general audio codec; additional decoder tools (release 11), 3GPP TS 26.402, 3rd Generation Partnership Project, Sep 2012.
[3GP12b] Speech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; error concealment of erroneous or lost frames, 3GPP TS 26.191, 3rd Generation Partnership Project, Sep 2012. [EBU10] EBU/ETSI JTC Broadcast, Digital audio broadcasting (DAB); transport of advanced audio coding (AAC) audio, ETSI TS 102563, European Broadcasting Union, May 2010.
[EBU12] Digital radio mondiale (DRM); system specification, ETSI ES 201 980, ETSI, Jun 2012.
[lSO09] ISO/IEC JTC1/SC29/WG11, Information technology - coding of audio-visual objects - part 3: Audio, ISO/IEC IS 14496-3, International Organization for Standardization, 2009.
[ITU08] ITU-T, G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s, Recommendation ITU-T G.718, Telecommunication Standardization Sector of ITU, Jun 2008.
[RR06] Sang-Uk Ryu and Kenneth Rose, Frame loss concealment for audio decoders employing spectral band replication, Convention Paper 6962, Electrical and Computer Engineering, University of California, Oct 2006, AES.
[SKE06] Andreas Schneider, Kurt Krauss, and Andreas Ehret, Evaluation of real-time transport protocol configurations using aacplus, Convention paper 6789, AES, May 2006, Presented at the 120th Convention 2006 May 20-23.

Claims (15)

REIVINDICACIONES
1. Decodificador de audio configurado para producir una señal de audio (AS) desde una corriente de bits (BS) que contiene marcos de audio (AF), comprendiendo el decodificador de audio (1):
un módulo de decodificación de banda de núcleo (2) configurado para derivar una señal de audio de banda de núcleo directamente decodificada (CBS) a partir de la corriente de bits (BS);
un módulo de extensión de ancho de banda (3) configurado para derivar una señal de audio de extensión de ancho de banda paramétricamente decodificada (BES) a partir de la señal de audio de banda de núcleo (CBS) y a partir de la corriente de bits (BS), donde la señal de audio de extensión de ancho de banda (BES) está basada en una señal en el dominio de las frecuencias (FDS) que tiene al menos una banda de frecuencia (FB); y
un combinador (4) configurado para combinar la señal de audio de banda de núcleo (CBS) y la señal de audio de extensión de ancho de banda (BES) de manera que se produzca la señal de audio (AS);
en el que el módulo de extensión de ancho de banda (3) comprende un módulo de ajuste de energía (5) que está configurado de tal manera que en un marco de audio actual (AF2) en el que tiene lugar una pérdida de marco de audio (AFL), se establece una energía de señal ajustada para el marco de audio actual (AF2) para al menos una banda de frecuencia (FB);
sobre la base de un factor de ganancia actual (CGF) para el marco de audio actual (AF2), en el que el factor de ganancia actual (CGF) se deriva a partir de un factor de ganancia de un marco de audio previo (AF1) o a partir de la corriente de bits (BS), y
sobre la base de una energía estimada para la señal (EE) para al menos una banda de frecuencia, en la que la energía estimada para la señal (EE) se deriva a partir de un espectro del marco de audio actual (AF2') de la señal de audio de banda de núcleo (CBS).
2. Decodificador de audio según la reivindicación anterior, en el que el módulo de extensión de ancho de banda (3) comprende un módulo que proporciona factor de ganancia (6) configurado para comunicar el factor de ganancia actual (CGF) al menos en el marco de audio actual (AF2) en el que tiene la pérdida de marco de audio (AFL), al módulo de ajuste de energía (5).
3. Decodificador de audio según la reivindicación anterior, en el que el módulo que proporciona el factor de ganancia (6) está configurado de tal manera que en el marco de audio actual (AF2) en el que tiene lugar la pérdida de marco de audio (AFL) el factor de ganancia actual (CGF) es el factor de ganancia del marco de audio previo (AF1).
4. Decodificador de audio según la reivindicación 2 o 3, en el que el módulo que proporciona el factor de ganancia (6) está configurado de tal manera que en el marco de audio actual (AF2) en el que tiene lugar la pérdida de marco (AFL) el factor de ganancia actual (CGF) se calcula a partir del factor de ganancia del marco de audio previo (AF1) y a partir de una clase de señal del marco de audio previo (AF1).
5. Decodificador de audio según una de las reivindicaciones 2 a 4, en el que el módulo que proporciona el factor de ganancia (6) está configurado para calcular un número de marcos de audio subsiguientes en los que tienen lugar pérdidas de marco de audio (AFL) y configurado para llevar a cabo un procedimiento reductor de la ganancia en el caso en que el número de marcos de audio subsiguientes en los que tienen lugar pérdidas de marcos de audio (AFL) supere un número predefinido.
6. Decodificador de audio según la reivindicación anterior, en el que el procedimiento para reducir el factor de ganancia comprende la etapa de reducción del factor de ganancia actual para lo que se divide el factor de ganancia actual por un primer número en el caso en que el factor de ganancia actual supere un primer umbral.
7. Decodificador de audio según la reivindicación 5 o 6, en el que el procedimiento para reducir el factor de ganancia comprende la etapa de reducción del factor de ganancia actual para lo que se divide el factor de ganancia actual por un segundo número que es mayor que el primer número en el caso en que el factor de ganancia actual supere un segundo umbral que es mayor que el primer umbral.
8. Decodificador de audio según una de las reivindicaciones 5 a 7, en el que el procedimiento para reducir el factor de ganancia comprende la etapa de ajuste del factor de ganancia actual al primer umbral en el caso en que el umbral actual, después de su reducción, sea inferior al primer umbral.
9. Decodificador de audio según una de las reivindicaciones anteriores, en el que el módulo de extensión de ancho de banda (3) comprende un módulo generador de ruido (7) configurado para añadir ruido (NOI) al menos a una banda de frecuencia (Fb), en el que, en el marco de audio actual (AF2) en el que tiene lugar la pérdida de marco de audio (AFL), se utiliza una relación entre la energía de la señal y la energía del ruido de al menos una banda de frecuencia (FB) del marco de audio previo (AF1) para calcular la energía del ruido del marco de audio actual (AF2).
10. Decodificador de audio según una de las reivindicaciones anteriores, en el que el decodificador de audio (1) comprende un módulo de análisis de espectros (8) configurado para establecer el espectro del marco de audio actual (AF2') de la señal de audio de banda de núcleo (CBS) y para derivar la energía estimada para la señal para el marco vigente (AF2) para al menos una banda de frecuencia (FB) a partir del espectro del marco de audio actual (AF2') de la señal de audio de banda de núcleo (CBS).
11. Decodificador de audio según una de las reivindicaciones 2 a 10, en el que el módulo que proporciona el factor de ganancia (6) está configurado de tal manera que, en el caso en que un marco de audio actual, en el que no tiene lugar una pérdida de marco, siga sustancialmente un marco de audio previo, en el que tiene lugar una pérdida de marco, el factor de ganancia recibido para el marco de audio actual es utilizado para el marco vigente, si un retardo (DEL) entre marcos de audio (AF1, AF2) del módulo de extensión de ancho de banda (3) con respecto a los marcos de audio (AF1', AF2') del módulo de decodificación de banda de núcleo (2) es menor que un retardo umbral, mientras que el factor de ganancia a partir del marco de audio previo se utiliza para el marco vigente, si el retardo (DEL) entre marcos de audio del módulo de extensión de ancho de banda con respecto a los marcos de audio del módulo de decodificación de banda de núcleo es mayor que el umbral de retardo.
12. Decodificador de audio según una de las reivindicaciones anteriores, en el que el módulo de extensión de ancho de banda (3) comprende un módulo generador de señales (9) configurado para crear una señal en el dominio de las frecuencias en bruto (RFS) que tiene al menos una banda de frecuencia (FB), que es comunicada al módulo de ajuste de energía (5), sobre la base de la señal de audio de banda de núcleo (CBS) y de la corriente de bits (BS).
13. Decodificador de audio según una de las reivindicaciones anteriores, en el que el módulo de extensión de ancho de banda (3) comprende un módulo de síntesis de señales (10) configurado de manera que se produzca la señal de audio de extensión de ancho de banda (BES) a partir de la señal en el dominio de las frecuencias (FDS).
14. Procedimiento para producir una señal de audio (AS) a partir de una corriente de bits (BS) que contiene marcos de audio (AF), comprendiendo el procedimiento las siguientes etapas:
derivación de una señal de audio de banda de núcleo directamente decodificada (CBS) a partir de la corriente de bits (BS);
derivación de una señal de audio de extensión de ancho de banda paramétricamente decodificada (BES) a partir de la señal de audio de banda de núcleo (CBS) y a partir de la corriente de bits (BS), en la que la señal de audio de extensión de ancho de banda (BES) se basa sobre una señal en el dominio de las frecuencias (FDS) que tiene al menos una banda de frecuencia (FB); y
combinación de la señal de audio de banda de núcleo (CBS) y la señal de audio de extensión de ancho de banda (BES) de manera que se produzca la señal de audio (AS);
en el que, en un marco de audio actual (AF2) en el que tiene una pérdida de marco de audio (AFL), se establece una energía de señal ajustada para el marco de audio actual (AF2) para al menos una banda de frecuencia (FB) sobre la base de un factor de ganancia actual (CGF) para el marco de audio actual (AF2), en el que el factor de ganancia actual (CGF) se deriva a partir de un factor de ganancia a partir de un marco de audio previo (AF1), y
sobre la base de una energía estimada para la señal para al menos una banda de frecuencia (FB), en la que la energía estimada para la señal se deriva a partir de un espectro del marco de audio actual (AF2') de la señal de audio de banda de núcleo (CBS).
15. Programa informático adaptado para llevar a cabo, cuando se ejecuta en un ordenador o procesador, el procedimiento según la reivindicación 14.
ES14733125T 2013-06-21 2014-06-18 Decodificador de audio que tiene un módulo de extensión de ancho de banda con un módulo de ajuste de energía Active ES2697474T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13173152 2013-06-21
EP14167050 2014-05-05
PCT/EP2014/062902 WO2014202701A1 (en) 2013-06-21 2014-06-18 Audio decoder having a bandwidth extension module with an energy adjusting module

Publications (1)

Publication Number Publication Date
ES2697474T3 true ES2697474T3 (es) 2019-01-24

Family

ID=51022308

Family Applications (1)

Application Number Title Priority Date Filing Date
ES14733125T Active ES2697474T3 (es) 2013-06-21 2014-06-18 Decodificador de audio que tiene un módulo de extensión de ancho de banda con un módulo de ajuste de energía

Country Status (18)

Country Link
US (2) US10096322B2 (es)
EP (1) EP3011560B1 (es)
JP (1) JP6228298B2 (es)
KR (2) KR101991421B1 (es)
CN (1) CN105431898B (es)
AU (1) AU2014283285B2 (es)
BR (1) BR112015031605B1 (es)
CA (1) CA2915001C (es)
ES (1) ES2697474T3 (es)
HK (1) HK1224368A1 (es)
MX (1) MX358362B (es)
MY (1) MY169410A (es)
PL (1) PL3011560T3 (es)
PT (1) PT3011560T (es)
RU (1) RU2642894C2 (es)
SG (1) SG11201510458UA (es)
TW (1) TWI564883B (es)
WO (1) WO2014202701A1 (es)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3011560B1 (en) * 2013-06-21 2018-08-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder having a bandwidth extension module with an energy adjusting module
JP6576934B2 (ja) * 2014-01-07 2019-09-18 ハーマン インターナショナル インダストリーズ インコーポレイテッド 圧縮済みオーディオ信号の信号品質ベース強調及び補償
WO2019081070A1 (en) * 2017-10-27 2019-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. APPARATUS, METHOD, OR COMPUTER PROGRAM PRODUCT FOR GENERATING ENHANCED BANDWIDTH AUDIO SIGNAL USING NEURAL NETWORK PROCESSOR
CN109668917B (zh) * 2018-09-29 2020-06-19 中国科学院高能物理研究所 一种利用单色器获得不同能量带宽x射线的方法
CN113324546B (zh) * 2021-05-24 2022-12-13 哈尔滨工程大学 罗经失效下的多潜航器协同定位自适应调节鲁棒滤波方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6009117A (en) * 1996-09-17 1999-12-28 Kabushiki Kaisha Toyoda Jidoshokki Seisakusho Spread spectrum communication system
WO1999050828A1 (en) 1998-03-30 1999-10-07 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6763142B2 (en) * 2001-09-07 2004-07-13 Nline Corporation System and method for correlated noise removal in complex imaging systems
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US6985856B2 (en) * 2002-12-31 2006-01-10 Nokia Corporation Method and device for compressed-domain packet loss concealment
CA2603255C (en) 2005-04-01 2015-06-23 Qualcomm Incorporated Systems, methods, and apparatus for wideband speech coding
CN101213590B (zh) * 2005-06-29 2011-09-21 松下电器产业株式会社 可扩展解码装置及丢失数据插值方法
US8374857B2 (en) * 2006-08-08 2013-02-12 Stmicroelectronics Asia Pacific Pte, Ltd. Estimating rate controlling parameters in perceptual audio encoders
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
MX2011000361A (es) * 2008-07-11 2011-02-25 Ten Forschung Ev Fraunhofer Un aparato y un metodo para generar datos de salida por ampliacion de ancho de banda.
WO2010051857A1 (en) * 2008-11-10 2010-05-14 Oticon A/S N band fm demodulation to aid cochlear hearing impaired persons
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
US8428938B2 (en) * 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
CA2792011C (en) * 2010-07-19 2016-04-26 Dolby International Ab Processing of audio signals during high frequency reconstruction
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
WO2012131438A1 (en) * 2011-03-31 2012-10-04 Nokia Corporation A low band bandwidth extender
US8909539B2 (en) * 2011-12-07 2014-12-09 Gwangju Institute Of Science And Technology Method and device for extending bandwidth of speech signal
EP2950308B1 (en) * 2013-01-22 2020-02-19 Panasonic Corporation Bandwidth expansion parameter-generator, encoder, decoder, bandwidth expansion parameter-generating method, encoding method, and decoding method
EP3011560B1 (en) * 2013-06-21 2018-08-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder having a bandwidth extension module with an energy adjusting module

Also Published As

Publication number Publication date
CA2915001A1 (en) 2014-12-24
RU2016101607A (ru) 2017-07-26
JP2016530548A (ja) 2016-09-29
MX2015017846A (es) 2016-04-18
CA2915001C (en) 2019-04-02
EP3011560B1 (en) 2018-08-01
AU2014283285A1 (en) 2016-02-11
KR20170124590A (ko) 2017-11-10
CN105431898B (zh) 2019-09-06
KR101991421B1 (ko) 2019-06-21
TW201513097A (zh) 2015-04-01
WO2014202701A1 (en) 2014-12-24
PL3011560T3 (pl) 2019-01-31
SG11201510458UA (en) 2016-01-28
JP6228298B2 (ja) 2017-11-08
TWI564883B (zh) 2017-01-01
US10096322B2 (en) 2018-10-09
US20160180854A1 (en) 2016-06-23
CN105431898A (zh) 2016-03-23
KR20160024920A (ko) 2016-03-07
EP3011560A1 (en) 2016-04-27
BR112015031605A2 (pt) 2017-07-25
MY169410A (en) 2019-04-01
US20190027153A1 (en) 2019-01-24
PT3011560T (pt) 2018-11-09
AU2014283285B2 (en) 2017-09-21
RU2642894C2 (ru) 2018-01-29
MX358362B (es) 2018-08-15
HK1224368A1 (zh) 2017-08-18
BR112015031605B1 (pt) 2022-03-29

Similar Documents

Publication Publication Date Title
ES2780696T3 (es) Decodificación de audio con reconstrucción de tramas no recibidas o alteradas mediante el uso de TCX LTP
ES2732952T3 (es) Decodificador de audio y procedimiento para proporcionar una información de audio decodificada usando un ocultamiento de error basado en una señal de excitación en el dominio del tiempo
ES2755166T3 (es) Decodificador de audio y método para proporcionar una información de audio decodificada usando una ocultación de error que modifica una señal de excitación de dominio de tiempo
ES2697474T3 (es) Decodificador de audio que tiene un módulo de extensión de ancho de banda con un módulo de ajuste de energía
ES2712304T3 (es) Procesamiento de señales de audio durante la reconstrucción de alta frecuencia
ES2539304T3 (es) Un aparato y un método para generar datos de salida por ampliación de ancho de banda
ES2372014T3 (es) Aparato y método para calcular datos de ampliación de ancho de banda utilizando un encuadre controlado por pendiente espectral.
ES2688021T3 (es) Adición de ruido de confort para modelar ruido de fondo a bajas tasas de bits
ES2732560T3 (es) Llenado de ruido sin información secundaria para codificadores tipo celp
ES2724576T3 (es) Extensión mejorada de la banda de frecuencia en un decodificador de señales de audiofrecuencia
ES2955964T3 (es) Extensión de banda de frecuencia mejorada en un decodificador de señales de audiofrecuencia
ES2905846T3 (es) Aparato y procedimiento para generar una señal de frecuencia reforzada mediante la suavización temporal de las subbandas
US20130156112A1 (en) Decoding device, encoding device, decoding method, and encoding method