ES2639127T3 - Aparato y procedimiento que realiza un desvanecimiento de un espectro MDCT a ruido blanco antes de la aplicación de FDNS - Google Patents

Aparato y procedimiento que realiza un desvanecimiento de un espectro MDCT a ruido blanco antes de la aplicación de FDNS Download PDF

Info

Publication number
ES2639127T3
ES2639127T3 ES14732195.4T ES14732195T ES2639127T3 ES 2639127 T3 ES2639127 T3 ES 2639127T3 ES 14732195 T ES14732195 T ES 14732195T ES 2639127 T3 ES2639127 T3 ES 2639127T3
Authority
ES
Spain
Prior art keywords
audio signal
spectrum
domain
received
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14732195.4T
Other languages
English (en)
Inventor
Michael Schnabel
Goran MARKOVIC
Ralph Sperschneider
Jérémie Lecomte
Christian Helmrich
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2639127T3 publication Critical patent/ES2639127T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Noise Elimination (AREA)
  • Circuits Of Receivers In General (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Mathematical Physics (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

Un aparato para decodificar una señal de audio codificada para obtener una señal de audio reconstruida, en el que el aparato comprende: una interfaz receptora (1210) para recibir una o más tramas que comprenden información sobre una pluralidad de muestras de señal de audio de un espectro de señal de audio de la señal de audio codificada, y un procesador (1220) para generar la señal de audio reconstruida, en el que el procesador (1220) está configurado para generar la señal de audio reconstruida desvaneciendo un espectro modificado a un espectro diana, si una trama actual no es recibida por la interfaz receptora (1210) o si la trama actual es recibida por la interfaz receptora (1210) pero está alterada, en el que el espectro modificado comprende una pluralidad de muestras de señal modificadas, en el que, para cada una de las muestras de señal modificadas del espectro modificado, un valor absoluto de dicha muestra de señal modificada es igual a un valor absoluto de una de las muestras de señal de audio del espectro de señal de audio, y en el que el procesador (1220) está configurado para no desvanecer el espectro modificado al espectro diana, si la trama actual de las una o más tramas es recibida por la interfaz receptora (1210) y si la trama actual que es recibida por la interfaz receptora (1210) no está alterada.

Description

DESCRIPCION
Aparato y procedimiento que realiza un desvanecimiento de un espectro MDCT a ruido blanco antes de la aplicacion de FDNS 5
[0001] La presente invencion se refiere a la codificacion, el procesamiento y la decodificacion de senales de
audio, y, en particular, a un aparato y un procedimiento para el desvanecimiento senales mejorado para sistemas de codificacion de audio conmutados durante el ocultamiento de errores.
10 [0002] En lo sucesivo, se describe el estado de la tecnica respecto al desvanecimiento de codecs
[codificadores-decodificadores] de voz y de audio durante el ocultamiento de perdida de paquetes (PLC). Las explicaciones con respecto al estado de la tecnica con los codecs ITU-T de la serie G (G.718, G.719, G.722, G.722.1, G.729. G.729.1) son seguidas por los codecs 3GPP (AMR, AMR-WB, AMR-WB+) y un codec IETF (OPUS), y concluyen con dos codecs MPEG (HE-AAC, HILN) (ITU = Union Internacional de Telecomunicaciones; 3GPP = 15 Proyecto Asociacion de 3a Generation; AMR = Multitasa Adaptativa; WB = Banda Ancha; IETF = Grupo de Trabajo de Ingenierla de Internet). A continuation, se analiza el estado de la tecnica respecto del rastreo del nivel de ruido de fondo, seguido de un resumen que proporciona una vision de conjunto
[0003] En primer lugar, se considera G.718. G.718 es un codec de voz de banda estrecha y de banda ancha, 20 que soporta DTX/CNG (DTX = Digital Theater Systems (marca registrada); CNG = Generacion de Ruido de Confort).
Dado que realizaciones se refieren en particular al codigo de retardo bajo, en este contexto se describira con mas detalle el modo de version de retardo bajo.
[0004] Considerando ACELP (Capa 1) (ACELP = Prediction Lineal Excitada por Codigo Algebraico), la ITU-T 25 recomienda para G.718 [ITU08a, section 7.11] un desvanecimiento adaptativo en el dominio predictivo lineal para
controlar la velocidad de desvanecimiento. En general, el ocultamiento sigue este principio:
De acuerdo con G.718, en el caso de borrados de tramas, la estrategia de ocultamiento puede resumirse como una convergencia de la energla de senal y la envoltura espectral para los parametros estimados del ruido de fondo. La 30 periodicidad de la senal converge a cero. La velocidad de la convergencia depende de los parametros de la ultima trama recibida correctamente y el numero de tramas borradas consecutivas, y es controlada por un factor de atenuacion, a. El factor de atenuacion a depende ademas de la estabilidad, q del filtro LP (LP = Prediccion Lineal) para tramas SIN VOZ. En general, la convergencia es lenta si la ultima buena trama recibida esta en un segmento estable y es rapida si la trama esta en un segmento de transition.
35
[0005] El factor de atenuacion a depende de la clase de senal de voz, que se deriva mediante clasificacion de senales descrita en [ITU08a, seccion 6.8.1.3.1 y 7.11.1.1]. El factor de estabilidad qse calcula sobre la base de una medida de distancia entre los filtros ISF (Frecuencia Espectral de Inmitancia) adyacentes [ITU08a, seccion 7.1.2.4.2].
40 [0006] La tabla 1 muestra el esquema de calculo de a:
Tabla 1: Valores del factor de atenuacion a, el valor qes un factor de estabilidad calculado a partir de una medida de
distancia entre los filtros de LP adyacentes. [ITU08a, seccion 7.1 2.4.2].
ultima trama buena recibida
Numero de tramas borradas sucesivas a
INICIO ARTIFICIAL
0,6
INICIO, CON VOZ
< 3 1,0
> 3 0,4
TRANSICION CON VOZ
0,4
TRANSICION SIN VOZ
0,8
SIN VOZ
= 1 0,2 ■ q+ 0,8
= 2 0,6
> 2 0,4
45 [0007] Ademas, G.718 proporciona un procedimiento de desvanecimiento a fin de modificar la envoltura
espectral. La idea general es hacer converger los ultimos parametros de ISF hacia un vector de la media de ISF adaptativo. En primer lugar, se calcula un vector de ISF promedio a partir de los ultimos 3 vectores de ISF conocidos. A continuacion, se promedia nuevamente el vector de ISF promedio con un vector de ISF a largo plazo capacitado fuera de llnea (que es un vector constante) [ITU08a, seccion 7.11.1.2].
[0008] Ademas, G.718 proporciona un procedimiento de desvanecimiento para controlar el comportamiento a
largo plazo, y, en consecuencia, la interaccion con el ruido de fondo, donde la energfa de excitacion de altura tonal (y, por lo tanto, la periodicidad de excitacion) converge en 0, mientras que la energfa de excitacion aleatoria 5 converge en la energfa de excitacion de CNG [ITU08a, seccion 7.11.1.6]. La atenuacion de ganancia de innovacion se calcula como:
imagen1
rm
donde es la ganancia innovadora al comienzo de la siguiente trama, &s es la ganancia innovadora al 10 comienzo de la trama actual, gn es la ganancia de la excitacion usada durante la generacion de ruido de confort y el factor de atenuacion a.
15
[0009] De forma similar a la atenuacion de excitacion periodica, la ganancia se atenua de forma lineal a lo
J2-[°3 *r[1]
largo de la trama muestra por muestra comenzando con, & s y alcanza & s al comienzo de la siguiente trama.
[0010] La figura 2 perfila la estructura del decodificador de G.718. En particular, la figura 2 ilustra una estructura de decodificador de G.718 de alto nivel para PLC, que presenta un filtro de paso alto.
[0011] Mediante el enfoque descrito anteriormente de G.718, la ganancia innovadora gs converge con la
20 ganancia usada durante la generacion de ruido de confort gn para rafagas largas de perdidas de paquetes. Tal como se describe en [ITU08a, seccion 6.12.3], la ganancia de ruido de confort gn viene dada como la rafz cuadrada de la energfa E. Las condiciones de la actualizacion de E no se describen con detalle. Siguiendo la implementacion de referencia (codigo C de punto flotante, stat_noise_uv_mod.c), E se deriva de la siguiente manera:
if (unvoiced_vad == 0) { if unv_cnt >20) {
ftmp = lp_gainc * lp_gainc;
lp_ener = 0.7f * lp_ener + 0.3f * ftmp;
}
else {
}
else {
unv cnt++;
unv cnt = 0;
25
en la que unvoiced_vad contiene la deteccion de actividad de voz, en la que unv_cnt contiene el numero de tramas sin voz en una fila, en la que lp_gainc contiene las ganancias de paso bajo del libro de codigos fijo, y en la que lp_ener contiene la estimacion de energfa de CNG de paso bajo E, se inicializa con 0.
30
[0012] Ademas, G.718 proporciona un filtro de paso alto, introducido en la trayectoria de serial de la excitacion sin voz, si la serial de la ultima trama buena se clasifico diferente de SIN VOZ, vease la figura 2, vease tambien [ITU08a, seccion 7.11.1.6]. Este filtro tiene una caracterfstica parametrica baja con una respuesta de frecuencia en CC que es aproximadamente 5 dB mas baja que en la frecuencia Nyquist.
35
[0013] Ademas, G.718 propone un bucle de retroalimentacion de LTP desacoplado (LTP = prediccion a largo plazo): aunque durante el funcionamiento normal el bucle de retroalimentacion para el libro de codigos adaptativo se actualiza por subtramas ([ITU08a, seccion 7.1.2.1.4]) basandose en la excitacion completa. Durante el ocultamiento, este bucle de retroalimentacion se actualiza por tramas (vease [ITU08a, secciones 7.11.1.4, 7.11.2.4, 7.11.1.6,
40 7.11.2.6; dec_GV_exc@dec_gen_voic.c y syn_bfi_post@syn_bfi_pre_post.c]) basandose en la excitacion con voz solamente. Con este enfoque, el libro de codigos adaptativo no esta "contaminado" con ruido que tiene su origen en la excitacion de innovacion seleccionada aleatoriamente.
[0014] Respecto a las capas de mejora codificadas por transformada (3-5) de G.718, durante el ocultamiento,
el decodificador se comporta respecto a la decodificacion de capa alta, similar al funcionamiento normal, solo que el espectro MDCT se ajusta a cero. No se aplica comportamiento de desvanecimiento especial durante el ocultamiento.
[0015] Con respecto a CNG, en G.718, la sintesis de CNG se realiza en el siguiente orden. En primer lugar,
5 se decodifican parametros de una trama de ruido de confort. A continuacion, se sintetiza una trama de ruido de confort. Seguidamente, el bufer de altura tonal se restablece. A continuacion, se guarda la sintesis para la FER (recuperacion de error de trama). Seguidamente, se lleva a cabo el desenfasis del espectro. A continuacion, se lleva a cabo postfiltrado de baja frecuencia. A continuacion, se actualizan las variables de CNG.
10 [0016] En el caso de ocultamiento, se realiza exactamente lo mismo, excepto que los parametros de CNG no
se decodifican a partir del flujo de bits. Esto significa que los parametros no se actualizan durante la perdida de trama, sino que se usan los parametros decodificados a partir de la ultima trama de SID (descriptor de insercion de silencio) buena.
15 [0017] Ahora, se considera G.719. G.719, que se basa en Siren 22, es un codec de audio de banda completa
basado en transformada. La ITU-T recomienda para G.719 un desvanecimiento con repeticion de trama en el dominio espectral [ITU08b, seccion 8.6]. De acuerdo con G.719, se incorpora un mecanismo de ocultamiento de borrado de trama en el decodificador. Cuando una trama es recibida correctamente, los coeficientes de transformada reconstruidos son almacenados en un bufer. Si el decodificador es informado de que se ha perdido una trama o que
20 una trama esta alterada, los coeficientes de transformada reconstruidos en la trama recibida mas recientemente son convertidos a escala decreciente con un factor 0,5, y a continuacion, son usados como los coeficientes de transformada reconstruidos para la trama actual. El decodificador continua transformandolos en el dominio temporal, y la realizacion de la operation de generation de ventanas-superposicion-adicion.
25 [0018] En lo sucesivo, se describe G.722. G.722 es un sistema de codification de 50 a 7000 Hz que usa
modulation por codigo de pulsos diferenciales adaptativos de subbanda (SB-ADPCM) dentro de una tasa de bits hasta 64 kbit/s. La senal se divide en una subbanda superior y una inferior, usando un analisis de QMF (QMF = filtro espejo en cuadratura). Las dos bandas resultantes son codificadas por ADPCM (ADPCM = modulacion por codigo de pulsos diferenciales adaptativos).
30
[0019] Para G.722, se especifica un algoritmo de alta complejidad para ocultamiento de perdida de paquetes en el Apendice III [ITU06a] y se especifica un algoritmo de baja complejidad para ocultamiento de perdida de paquetes en el Apendice IV [ITU07]. G.722 - Apendice III ([ITU06a, seccion 111.5]) propone un silenciamiento realizado gradualmente, que comienza despues de 20 ms de perdida de tramas, que esta completo despues de 60
35 ms de perdida de tramas. Ademas, G.722 - Apendice IV propone una tecnica de desvanecimiento que aplica "a cada muestra un factor de ganancia que se calcula y se adapta muestra por muestra " [ITU07, seccion IV.6.1.2.7].
[0020] En G.722, el proceso de silenciamiento tiene lugar en el domino de subbanda justo antes de la sintesis de QMF y como la ultima etapa del modulo de PLC. El calculo del factor de silenciamiento se realiza usando
40 information de clase del clasificador de senales que tambien es parte del modulo de PLC. Se realiza la distincion entre clases TRANSIENT (transitoria), UV_TRANSITION (uv_transicion) y otras. Ademas, se realiza la distincion entre perdidas individuales de tramas de 10 ms y otros casos (multiples perdidas de tramas de 10 ms y perdidas unicas/multiples de tramas de 20 ms).
45 [0021] Esto se ilustra mediante la figura 3. En particular, la figura 3 representa un escenario, donde el factor
de desvanecimiento de G.722, depende de informacion de clase y en el que 80 muestras son equivalentes a 10 ms.
[0022] De acuerdo con G.722, el modulo de PLC crea la senal para la trama que falta y alguna senal adicional (10 ms) que se supone que se somete a desvanecimiento gradual con la siguiente trama buena. El
50 enmudecimiento para esta senal adicional sigue las mismas normas. En ocultamiento de banda alta de G.722, el desvanecimiento gradual no tiene lugar.
[0023] En lo sucesivo, se considera G.722.1. G.722.1, que se basa en Siren 7, es un codec de audio de banda ancha basado en transformada con un modo de extension de banda superancha, denominado G.722.1C. G.
55 722.1C, a su vez, se basa en Siren 14. La ITU-T recomienda para G.722.1 una repeticion de tramas con posterior silenciamiento [ITU05, seccion 4.7]. Si el decodificador es informado, por medio de un mecanismo de serialization externo no definido en esta recomendacion, de que una trama se ha perdido o ha sido alterada, repite los coeficientes de MLT (transformada superpuesta modulada) decodificados de la trama anterior. Continua transformandolos al dominio temporal, y realizando la operacion de superposition y adicion con la informacion
decodificada de la trama anterior y siguiente. Si la trama anterior tambien se perdio o se altero, entonces el decodificador ajusta todos los coeficientes de MLT de las tramas actuales a cero.
[0024] Ahora se considera G.729. G.729 es un algoritmo de compresion de datos de audio para voz que 5 comprime voz digital en paquetes de 10 milisegundos de duracion. Se describe oficialmente como codificacion de
voz a 8 kbit/s usando codificacion de voz de prediccion lineal con excitacion por codigo (CS-ACELP) [ITU12].
[0025] Tal como se perfila en [CPK08], G.729 recomienda un desvanecimiento en el dominio de LP. El algoritmo de PLC empleado en la norma G.729 reconstruye la senal de voz para la trama actual basandose en
10 informacion de voz recibida previamente. En otras palabras, el algoritmo de PLC sustituye la excitacion que falta con una caracteristica equivalente de una trama recibida previamente, aunque la energia de excitacion declina gradualmente, finalmente, las ganancias de los libros de codigos adaptativo y fijo estan atenuadas por un factor constante.
15 [0026] La ganancia del libro de codigos fijo atenuada viene dada por:
gim) = 0,98 ■
con m es el indice de subtrama.
20 [0027] La ganancia del libro de codigos adaptativo se basa en una version atenuada de la ganancia del libro
de codigos adaptativo anterior:
im) = 0,9 • 4m-1>
limitada por
(m)
>P
< 0,9
[0028] Nam In Park y col. sugieren para G.729, un control de amplitud de senal usando prediccion por medio
25 de regresion lineal [CPK08, PKJ+11]. Se dirige a la perdida de paquetes en rafagas y usa regresion lineal como una tecnica fundamental. La regresion lineal se basa en el modelo lineal como
donde &i es la amplitud actual recien predicha, a y Jb son coeficientes para la funcion lineal de primer orden, e i es 30 el indice de la trama. Con el fin de descubrir los coeficientes optimizados a* y b*, la suma total del error de prediccion al cuadrado se minimiza:
imagen2
e es el error al cuadrado, g, es la amplitud j-esima pasada original. Para minimizar este error, simplemente la
*
35 derivada respecto a y b se ajusta a cero. Usando los parametros optimizados a*y b*, una estimation de cada se indica mediante
St
[0029] La figura 4 muestra la prediccion de amplitud, en particular, la prediccion de la amplitud ’ usando 40 regresion lineal.
A1
[0030] Para obtener la amplitud 1 del paquete perdido i, una relacion
imagen3
imagen4
imagen5
se multiplica con un factor de escala
4.* — Si * Gi
(6)
5 en la que el factor de escala S/ depende del numero de tramas ocultas consecutivas /(/):
Q
Oi
1,0, si z(i) = l,2 0,9. si l(i) = 3*4
0,8,
0,
si
l(t)
D.
6
[0031]
lo contrario (j
En [PKJ+11], se propone una conversion a escala ligeramente diferente
10 [0032] De acuerdo con G.729, seguidamente, A'/ se suavizara para prevenir atenuacion discreta en los
bordes de trama. La amplitud suavizada final Ai(n) se multiplica hasta la excitacion, obtenida de los componentes de PLC previos.
[0033] En lo sucesivo, se considera G.729.1. G.729.1 es un codificador de tasa de bits variable insertado
15 basado en G.729: un flujo de bits de codificador de banda ancha convertible a escala de 8-32 kbit/s inter-operable con G.729 [ITU06b].
[0034] De acuerdo con G.729.1, como en G.718 (vease anteriormente), se propone un desvanecimiento adaptativo, que depende de la estabilidad de las caracterlsticas de senal ([ITU06b, seccion 7.6.1]). Durante el
20 ocultamiento, la senal se atenua habitualmente basandose en un factor de atenuacion a que depende de los parametros de la clase de la ultima trama buena recibida y el numero de tramas borradas consecutivas. El factor de atenuacion a depende ademas de la estabilidad del filtro de LP para tramas SIN VOZ. En general, la atenuacion es lenta si la ultima trama buena recibida esta en un segmento estable y es rapida si la trama esta en un segmento de transicion.
25 _
[0035] Ademas, el factor de atenuacion a depende de la ganancia de altura tonal promedio por subtrama ^P ([ITU06b, ec. 163, 164]):
9p
= 0,1S<°> + 0,2 + 0,3s® + 0.%<3>
P
(8)
.8
(i)
30 donde^P es la ganancia de altura tonal en la subtrama/.
[0036]
35 [0037]
La tabla 2 muestra el esquema de calculo de a, donde
imagen6
Durante el proceso de ocultamiento, a se usa en las siguientes herramientas de ocultamiento:
Tabla 2: valores del factor de atenuacion a, el valor 8es un factor de estabilidad calculado a partir de una medida de distancia entre los filtros de LP adyacentes. [ITU06b, seccion 7.6.1].__________________________
ultima trama buena recibida
Numero de tramas borradas sucesivas a
CON VOZ
1 b
2,3 gp
>3 0,4
INICIO
1 0,8 b
2,3 gp
>3 0,4
INICIO ARTIFICIAL
1 0,6 b
2,3 g p
> 3 0,4
TRANSICION CON VOZ
< 2 0,8
> 2 0,2
TRANSICION SIN VOZ
0,88
SIN VOZ
1 0,95
2,3 0,6 q+ 0,4
> 3 0,4
5
10
[0038] De acuerdo con G.729.1, respecto a resincronizacion de pulsos glotales, dado que el ultimo pulso de
la excitacion de la trama anterior se usa para la construccion de la parte periodica, su ganancia es aproximadamente correcta al comienzo de la trama oculta y puede ajustarse a 1. La ganancia se atenua a continuacion linealmente a lo largo de la trama muestra por muestra hasta conseguir el valor de a al final de la trama. La evolucion de energla de los segmentos con voz se extrapola usando los valores de ganancia de excitacion de altura tonal de cada subtrama de la ultima trama buena. En general, si estas ganancias son mayores de 1, la energla de la serial esta
aumentando, si son menores que 1, la energla esta disminuyendo. a se ajusta, por lo tanto, a v tal como se ha descrito anteriormente, vease [ITU06b, ec. 163, 164]. El valor de ftse recorta entre 0,98 y 0,85 para evitar aumentos y disminuciones fuertes de energla, vease [ITU06b, seccion 7.6.4].
[0039] Respecto a la construccion de la parte aleatoria de la excitacion, de acuerdo con G.729.1, al comienzo
15 de un bloque borrado, la ganancia de innovacion gs se inicializa usando las ganancias de excitacion de innovation de cada subtrama de la ultima trama buena:
gs - 0,1,g(0) + 0,2g(1) + 0,+ 0,
en la que g(0), g(1) , g(2) y g(3) son las ganancias del libro de codigos fijo, o de innovacion, de las cuatro subtramas de 20 la ultima trama recibida correctamente. La atenuacion de ganancia de innovacion se realiza como:
imagen7
|(l) (0)
, 65 es la ganancia de innovacion al comienzo de la siguiente trama, °s es la ganancia de innovacion
al comienzo de la trama actual, y a es tal como se define en la tabla 2 anterior. De manera similar a la atenuacion de 25 excitacion periodica, la ganancia es atenuada, de este modo, linealmente a lo largo de la trama muestra por muestra
(0) (0
comenzando con "Ss y yendo hasta el valor de 5 que se conseguirla al comienzo de la siguiente trama.
[0040] De acuerdo con G.729.1, si la ultima trama buena es SIN VOZ, solamente se usa la excitacion de
innovacion y esta atenuada ademas mediante un factor de 0,8. En este caso, el bufer de excitacion pasado se 30 actualiza con la excitacion de innovacion dado que no hay ninguna parte periodica de la excitacion disponible, vease [ITU06b, seccion 7.6.6].
[0041] En lo sucesivo, se considera AMR. 3GPP AMR [3GP12b] es un codec de voz que utiliza el algoritmo
ACELP. AMR es capaz de codificar voz con una tasa de muestreo de 8000 muestras/s y una tasa de bits entre 4,75 35 y 12,2 kbit/s y soporta serialization de tramas descriptoras de silencio (DTX/CNG).
[0042] En AMR, durante el ocultamiento de errores (vease [3GP12a]), se distingue entre tramas que son propensas al error (errores de bits) y tramas, que estan completamente perdidas (no hay datos en absoluto).
[0043] Para ocultamiento de ACELP, AMR introduce una maquina de estados que estima la calidad del canal:
5 cuanto mayor sea el valor del contador de estados, peor es la calidad del canal. El sistema comienza en estado 0.
Cada vez que se detecta una trama mala, el contador de estados aumenta en uno y se satura cuando llega a 6. Cada vez que se detecta una trama de voz buena, el contador de estados se reajusta a cero, excepto cuando el estado es 6, donde el contador de estados se ajusta a 5. El flujo de control de la maquina de estados puede describirse mediante el siguiente codigo C (BFI es un indicador de trama mala, State es una variable de estado):
10
if (BFI != 0) {
State = State +
}
else if (State == 6) {
State = 5;
}
else {
State = 0;
}
if (State > 6) {
State = 6;
}
[0044] Ademas de esta maquina de estados, en AMR, se verifican las marcas de trama mala de las tramas 15 actual y anterior (prevBFI).
[0045] Son posibles tres combinaciones diferentes:
La primera de las tres combinaciones es BFI = 0, prevBFI = 0, State = 0: No se detecta ningun error en la trama 20 de voz recibida o en la recibida anterior. Los parametros de voz recibidos se usan de la manera normal en la slntesis de voz. La trama actual de los parametros de voz se guarda.
[0046] La segunda de las tres combinaciones es BFI = 0, prevBFI = 1, State = 0 o 5: No se detecta ningun error en loa trama de voz recibida, pero la trama de voz recibida anterior era mala. La ganancia de LTP y la ganancia
25 del libro de codigos fijo estan limitadas por debajo de los valores usados para la ultima subtrama buena recibida:
f 9p-> 9p — dpi 1)
l)? 9p --> 9pi~ 1)
(10)
donde gp = ganancia de LTP decodificada actual, gp(-1) = ganancia de LTP usada para la ultima subtrama buena 30 (BFI = 0), y
imagen8
donde gc = ganancia del libro de codigos fijo decodificada actual, y gc (-1) = ganancia del libro de codigos fijo usada 35 para la ultima subtrama buena (BFI = 0).
[0047] El resto de los parametros de voz recibidos se usan normalmente en la sfntesis de voz. La trama actual de parametros de voz se guarda.
[0048] La tercera de las tres combinaciones es BFI = 1, prevBFI = 0 o 1, State = 1...6: Se detecta un error en 5 la trama de voz recibida y se inicia el procedimiento de sustitucion y silenciamiento. La ganancia de LTP y la
ganancia del libro de codigos fijo se sustituyen por valores atenuados de las subtramas anteriores:
P(state) ■ gp(-1). < median5(gp(-l),,.. ,gp(~5))
P(state) ■ medianb(gp(-l),.. .,gp(-5)) gp(-1) > medianS(gp(-l),.. .,gp(-5))
(12)
donde gp indica la ganancia de LTP decodificada actual y gp(-1), ... , gp(-n) indican las ganancias de LTP usadas 10 para las ultimas n subtramas y median5() indica una operacion de mediana de 5 puntos y P(state) = factor de atenuacion,
donde (P(1) = 0,98, P(2) = 0,98, P(3) = 0,8, P(4) = 0,3, P(5) = 0,2, P(6) = 0,2) y state = numero de estado, y
3c =
C (state) • gc(— 1), ,gc(—1) < mediano(gc(—l).... , gc(—5))
C(state) ■ median5(gc(—l),... ,gc(—5)) pc(—1) > median5(gc(—1),. ■. 5))
(13)
15 donde gc indica la ganancia del libro de codigos fijo decodificada actual y gc(-1), ... , gc(-n) indican las ganancias de libro de codigos fijo usadas para las ultimas n subtramas y median5() indica una operacion de mediana de 5 puntos y C(state) = factor de atenuacion, donde (C(1) = 0,98, C(2) = 0,98, C(3) = 0,98, C(4) = 0,98, C(5) = 0,98, C(6) = 0,7) y state = numero de estado.
20 [0049] En AMR, los valores de retraso de LTP (LTP = prediction a largo plazo) se sustituyen por el valor pasado de la 4a subtrama de la trama anterior (modo 12.2) o valores ligeramente modificados basandose en el ultimo valor recibido correctamente (todos los demas modos).
[0050] De acuerdo con AMR, los pulsos de innovation de libro de codigos fijo recibidos a partir de la trama 25 erronea se usan en el estado en el que se recibieron cuando se reciben datos alterados. En el caso en que no se recibieron datos deben emplearse Indices de libro de codigos fijo aleatorios.
[0051] Respecto a CNG en AMR, de acuerdo con [3GP12a, section 6.4], cada primera trama de SID perdida se sustituye usando la information de SID a partir de tramas de SID validas recibidas previamente y se aplica el
30 procedimiento para tramas de SID validas. Para tramas de SID perdidas posteriores, se aplica una tecnica de atenuacion al ruido de confort que reducira gradualmente el nivel de salida. Por lo tanto, se verifica si la ultima actualization de SID fue de hace mas de 50 tramas (=1 s), en caso afirmativo, la salida se silenciara (atenuacion de nivel en -6/8 dB por trama [3GP12d, dtx_dec{}@sp_dec.c] lo que produce 37,5 dB por segundo). Notese que el desvanecimiento aplicado a CNG se realiza en el dominio de LP.
35
[0052] En lo sucesivo, se considera AMR-WB. Multitasa adaptativa - WB [ITU03, 3GP09c] es un codec de voz, ACELP, basado en AMR (vease la seccion 1.8). Usa extension de ancho de banda parametrica y tambien soporta DTX/CNG. En la description de la norma [3GP12g] hay soluciones ejemplares de ocultamiento dadas que son iguales que para AMR [3GP12a] con desviaciones menores. Por lo tanto, en este contexto solamente se
40 describen las diferencias respecto a AMR. Para la descripcion de la norma, vease la descripcion anteriormente.
[0053] Respecto a ACELP, en AMR-WB, se realiza el desvanecimiento de ACELP basandose en el codigo fuente de referencia [3GP12c] modificando la ganancia de altura tonal gp (para AMR anterior denominada ganancia de LTP) y modificado la ganancia de codigo gc.
45
[0054] En el caso de trama perdida, la ganancia de altura tonal gp para la primera subtrama es la misma que en la ultima trama buena, excepto que esta limitada entre 0,95 y 0,5. Para la segunda, la tercera y las siguientes subtramas, la ganancia de altura tonal gp disminuye en un factor de 0,95 y esta, nuevamente, limitada.
50 [0055] AMR-WB propone que, en una trama oculta, gc se basa en la ultima gc:
9ctcurrent — 9c,past * (1,4 9pipast)
(14)
9c — 9c,current * [Jci
%n.o-v
(15)
imagen9
[0056] Para ocultar los retrasos de LTP, en AMR-WB, se usa el historial de los cinco ultimos buenos retrasos 5 de LTP y ganancias de LTP para descubrir el mejor procedimiento para actualizar, en el caso de una perdida de
trama. En caso de que la trama se reciba con errores de bits se realiza una prediccion, de si el retraso de LTP recibido es utilizable o no [3GP12g].
[0057] Respecto a CNG, en AMR-WB, si la ultima trama recibida correctamente fue una trama de SID y una
10 trama se clasifica como perdida, sera sustituida por la ultima informacion de trama de SID valida y debe aplicarse el
procedimiento para tramas de SID validas.
[0058] Para posteriores tramas de SID perdidas, AMR-WB propone aplicar una tecnica de atenuacion al ruido de confort que disminuira gradualmente el nivel de salida. Por lo tanto, se verifica si la ultima actualizacion de SID
15 fue hace mas de 50 tramas (=1 s), en caso afirmativo, la salida se silenciara (atenuacion de nivel en -3/8 dB por trama [3GP12f, dtx_dec{}@dtx.c] que produce 18,75 dB por segundo). Notese que el desvanecimiento aplicado a CNG se realiza en el dominio de LP.
[0059] Ahora, se considera AMR-WB+. Multitasa adaptativa - WB+ [3GP09a] es un codec conmutado usando 20 ACELP y TCX (TCX = Excitacion codificada por transformada) como codecs de nucleo. Usa extension de ancho de
banda parametrica y tambien soporta DTX/cNg.
[0060] En AMR-WB+, se aplica una logica de extrapolacion de modos para extrapolar los modos de las tramas perdidas dentro de una supertrama distorsionada. Esta extrapolacion de modo se basa en el hecho de que
25 existe redundancia en la definicion de indicadores de modo. La logica de decision (dada en [3GP09a, figura 18]) propuesta por AMR-WB+ es la siguiente:
- Se define un modo de vector, (m-1, m0, m1, m2, m3), donde m-1 indica el modo de la ultima trama de la supertrama anterior y m0, m1, m2, m3 indican los modos de las tramas en la supertrama actual (decodificada a
30 partir del flujo de bits), donde mk = -1, 0, 1, 2 o 3 (-1: perdida, 0: ACELP, 1: TCX20, 2: TCX40, 3: TCX80), y donde el numero tramas perdidas nloss puede estar entre 0 y 4.
- Si m-1 = 3 y dos de los indicadores de modo de las tramas 0 - 3 son iguales a tres, todos los indicadores se ajustaran a tres dado que entonces es seguro que una trama TCX80 estaba indicada dentro de la supertrama.
35
- Si solamente un indicador de las tramas 0 - 3 es tres (y el numero de tramas perdidas nloss es tres), el modo se ajustara a (1, 1, 1, 1), dado que entonces 3/4 del espectro diana TCX80 se ha perdido y es muy probable que la
ganancia de TCX global se haya perdido.
- Si el modo esta indicando (x, 2,-1, x, x) o (x,-1, 2, x, x), se extrapolara a (x, 2, 2, x, x), indicando una trama TCX40. Si el modo indica (x, x, x, 2,-1) o (x, x,-1, 2) se extrapolara a (x, x, x, 2, 2), indicando tambien una trama
5 TCX40. Debe observarse que (x, [0, 1], 2, 2, [0, 1]) son configuraciones invalidas.
- Despues de eso, para cada trama que esta perdida (modo = -1), el modo se ajusta a ACELP (modo = 0) si la trama anterior fue ACELP y el modo se ajusta a TCX20 (modo = 1) para todos los demas casos.
10 [0061] Respecto a ACELP, de acuerdo con AMR-WB+, si un modo de tramas perdidas da como resultado mk
= 0 despues de la extrapolacion de modo, el mismo enfoque que en [3GP12g] se aplica para esta trama (vease anteriormente).
[0062] En AMR-WB+, dependiendo del numero de tramas perdidas y el modo extrapolado, se distinguen los
15 siguientes enfoques de ocultamiento relacionados con TCX (TCX = Excitacion codificada por transformada):
- Si una trama completa esta perdida, entonces se aplica un ocultamiento de tipo ACELP: la ultima excitacion se repite y se usan coeficientes de ISF ocultos (ligeramente desplazados hacia su media adaptativa) para sintetizar la senal de dominio temporal. Adicionalmente, un factor de desvanecimiento de 0,7 por trama (20 ms) [3GP09b,
20 dec_tcx.c] se multiplica en el dominio predictivo lineal, justo antes de la slntesis de LPC (Codificacion predictiva lineal).
- Si el ultimo modo fue TCX80 as! como el modo extrapolado de la supertrama (parcialmente perdida) es TCX80 (nloss = [1, 2], modo = (3, 3, 3, 3, 3)), se realiza ocultamiento en el dominio de FFT, utilizando extrapolacion de
25 fase y amplitud, teniendo en cuenta la ultima trama recibida correctamente. El enfoque de extrapolacion de la informacion de fase no es de ningun interes en este contexto (sin relacion con la estrategia de desvanecimiento) y por lo tanto no se describe. Para mas detalles, vease [3GP09a, seccion 6.5.1.2.4]. Con respecto a la modification de amplitud de AMR-WB+, el enfoque realizado para ocultamiento de TCX consiste en las siguientes etapas [3GP09a, seccion 6.5.1.2.3]:
30
- Se calcula el espectro de magnitud de la trama anterior:
I
old-A[k] = \oldX[k]
35 - Se calcula el espectro de magnitud de la trama actual:
imagen10
- Se calcula la diferencia de ganancia de energla de coeficientes espectrales no perdidos entre la trama anterior 40 y la actual:
imagen11
45 - La amplitud de los coeficientes espectrales que faltan se extrapola usando:
imagen12
- En cualquier otro caso de una trama perdida con mk = [2, 3], la diana de TCX (FFT inversa de espectro 50 decodificado mas relleno de ruido (usando un nivel de ruido decodificado a partir del flujo de bits)) se sintetiza
5
10
15
20
25
30
35
40
usando toda la informacion disponible (incluyendo ganancia de TCX global). No se aplica desvanecimiento en este caso.
[0063] Respecto a CNG en AMR-WB+, se usa el mismo enfoque que e AMR-WB (vease anteriormente).
[0064] En lo sucesivo, se considera OPUS. OPUS [IET12] incorpora tecnologla de dos codecs: el SILK orientado a la voz (conocido como codec Skype) y el CELT de baja latencia (CELT = transformada superpuesta de energla restringida). Opus puede ajustarse de manera continua entre tasas de bits altas y bajas, e internamente, conmuta entre un codec de prediccion lineal a tasas de bits bajas (SILK) y un codec de transformada a tasas de bits mas altas (CELT) asl como un hlbrido para una superposicion corta.
[0065] Respecto a la compresion y descompresion de datos de audio de SILK, en OPUS, hay varios parametros que se atenuan durante el ocultamiento en la rutina del decodificador SILK. El parametro de ganancia de LTP se atenua multiplicando todos los coeficientes de LPC por 0,99, 0,95 o 0,90 por trama, dependiendo del numero de tramas perdidas consecutivas, donde la excitacion se acumula usando el ultimo ciclo de altura tonal desde la excitacion de la trama anterior. El parametro de retraso de altura tonal aumenta muy lentamente durante perdidas consecutivas. Para perdidas individuales, se mantiene constante en comparacion con la ultima trama. Ademas, el parametro de ganancia de excitacion se atenua exponencialmente con 0,99lostcnt por trama, de este modo el parametro de ganancia de excitacion es 0,99 para el primer parametro de ganancia de excitacion, de modo que el parametro de ganancia de excitacion es 0,992 para el segundo parametro de ganancia de excitacion, y asl sucesivamente. La excitacion se genera usando un generador de numeros aleatorios que esta generando ruido blanco mediante desbordamiento variable. Ademas, los coeficientes de LPC se extrapolan/promedian basandose en el ultimo conjunto de coeficientes recibido correctamente. Despues de generar el vector de excitacion atenuado, los coeficientes de LPC ocultos se usan en OPUS para sintetizar la senal de salida de dominio temporal.
[0066] Ahora, en el contexto de OPUS, se considera CELT. CELT es un codec basado en transformada. El ocultamiento de CELT presenta un enfoque de PLC basado en altura tonal, que se aplica para hasta cinco tramas perdidas consecutivamente. Comenzando con la trama 6, se aplica un enfoque de ocultamiento de tipo ruido, que genera ruido de fondo, caracterlstica que se supone que suena como ruido de fondo precedente.
[0067] La figura 5 ilustra el comportamiento de perdida de rafaga de CELT. En particular, la figura 5 representa un espectrograma (eje x: tiempo; eje y: frecuencia) de un segmento de voz oculto de CELT. El recuadro gris claro indica las 5 primeras tramas perdidas consecutivamente, donde se aplica el enfoque de PLC basado en altura tonal. Mas alla de esto, se muestra el ocultamiento de tipo ruido. Debe observarse que la conmutacion se realiza instantaneamente, y no transita suavemente.
[0068] Respecto al ocultamiento basado en altura tonal, en OPUS, el ocultamiento basado en altura tonal
consiste en descubrir la periodicidad en la senal decodificada mediante autocorrelation repitiendo la forma de onda en ventanas (en el dominio de excitacion usando analisis y slntesis de LPC) usando la desviacion de altura tonal (retraso de altura tonal). La forma de onda en ventanas se superpone de tal manera que preserve la cancelacion del solapamiento sucesivo “aliasing" del dominio temporal con la trama anterior y la siguiente trama [IET12]. Adicionalmente, un factor de desvanecimiento se deriva y se aplica mediante el siguiente codigo:
opus val32 El=l, E2=l; int period;
if (pitch_index <= MAX_PERIOD/2) {
period = pitch index;
}
else {
period = MAX PERIOD/2;
}
for ( i = 0 ; Kperiod; i++)
{
El += exc[MAX_PERIOD- period+i] * exc[MAX_PERIOD- period+i]; E2 += exc[MAX_PERIOD-2*period+i] * exc[MAX_PERIOD-2*period+i]
}
if (El > E2) {
El = E2;
}
decay = sqrt(E1/E2) ) ; attenuation = decay;
[0069] En este codigo, exc contiene la senal de excitacion hasta muestras de MAX_PERIOD antes de la perdida.
5 [0070] La senal de excitacion se multiplica mas adelante con atenuacion, a continuation, se sintetiza y es emitida mediante sintesis de LPC.
[0071] El algoritmo de desvanecimiento para el enfoque de dominio temporal puede resumirse de la siguiente manera:
10
- Descubrir la energia sincrona de altura tonal del ultimo ciclo de altura tonal antes de la perdida.
- Descubrir la energia sincrona de altura tonal del segundo ultimo ciclo de altura tonal antes de la perdida.
15 - Si la energia esta aumentando, limitarla para que permanezca constante: atenuacion = 1
- Si la energia esta disminuyendo, continuar con la misma atenuacion durante el ocultamiento.
[0072] Respecto al ocultamiento de tipo ruido, de acuerdo con OPUS, para la 6a y siguientes tramas perdidas 20 consecutivas, se realiza un enfoque de sustitucion de ruido en el dominio de MDCT, con el fin de simular ruido de
fondo de confort.
[0073] Respecto al rastreo del nivel y la forma del ruido de fondo, en OPUS, la estimation del ruido de fondo se realiza de la siguiente manera: despues del analisis de MDCT, se calcula la raiz cuadrada de las energias de
25 banda de MDCT por banda de frecuencia, donde el agrupamiento de los “bins” de MDCT sigue la escala de Bark de acuerdo con [IET12, Tabla 55]. Entonces, la raiz cuadrada de las energias se transforma en el dominio log2 mediante:
bandLogE[i} = log2{e) • loge{banclE\i] — eMeans[i\) para i = 0 ... 21 30
en la que e es el numero de Euler, bandE es la raiz cuadrada de la banda de MDCT y eMeans es un vector de las constantes (necesarias para obtener el resultado de media cero, que da como resultado una ganancia de codification mejorada).
35 [0074] En OPUS, el ruido de fondo se registra en el lado del decodificador de la siguiente manera [IET12, amp2Log2 y log2Amp@quant_bands.c]:
backgro-undLogE[i] — min(ba.ckgroundLogE[i] +8 • 0,001, ba.ndLogE[i\)
para i — 0...21 (19)
40 [0075] La energia minima rastreada se determina basicamente mediante la raiz cuadrada de la energia de la
banda de la trama actual, pero el aumento de una trama a la siguiente esta limitado por 0,05 dB.
[0076] Respecto a la aplicacion del nivel y la forma del ruido de fondo, de acuerdo con OPUS, si se aplica PLC de tipo ruido, se usa backgroundLogE tal como se deriva en la ultima trama buena y se convierte de vuelta al
45 dominio lineal:
band.E{i] = e(log,(2)-(backgroundLogE[q+eMeans{{\))para j = Q . . . 21
(20)
donde e es el numero de Euler y eMeans es el mismo vector de las constantes que para la transformada "lineal a 50 log".
[0077] El procedimiento de ocultamiento actual es para llenar la trama de MDCT con ruido blanco producido
por un generador de numeros aleatorios, y convertir a escala este ruido blanco de manera que coincida en banda con la energfa de bandE. Posteriormente, se aplica la MDCT inversa, lo que da como resultado una senal de dominio temporal. Despues de la superposicion, adicion y desenfasis (como en decodificacion regular) esta se apaga.
5
[0078] En lo sucesivo, se considera MPEG-4 HE-AAC (MPEG = grupo de expertos en imagenes en movimiento; HE-AAC = codificacion de audio avanzada de alta eficiencia). La codificacion de audio avanzada de alta eficiencia consiste en un codec de audio basado en transformada (AAC), suplementado mediante una extension de ancho de banda parametrica (SBR).
10
[0079] Respecto a AAC (AAC = codificacion de audio avanzada), el consorcio de DAB especifica para AAC en DAB+, un desvanecimiento a cero en el dominio de frecuencia [EBU10, seccion A1.2] (DAB = difusion de audio digital). El comportamiento de desvanecimiento, por ejemplo, la rampa de atenuacion, podrfa fijarse o ser ajustable por el usuario. Los coeficientes espectrales de la ultima AU (AU = unidad de acceso) estan atenuados en un factor
15 correspondiente a las caracterfsticas de desvanecimiento y a continuacion se pasan al mapeo de frecuencia a tiempo. Dependiendo de la rampa de atenuacion, el ocultamiento conmuta a silenciamiento despues de un numero de AU invalidas consecutivas, lo que significa que el espectro completo se ajustara a 0.
[0080] El consorcio de DRM (DRM = gestion de derechos digitales) especifica para AAC en DRM un 20 desvanecimiento en el dominio de frecuencia [EBU12, seccion 5.3.3]. El ocultamiento trabaja sobre los datos
espectrales justo antes de la conversion final de frecuencia a tiempo. Si multiples tramas estan alteradas, el ocultamiento implementa en primer lugar un desvanecimiento basado en valores espectrales ligeramente modificados desde la ultima trama valida. Ademas, similar a DAB+, el comportamiento de desvanecimiento, por ejemplo, la rampa de atenuacion, podrfa ser fija o ajustable por el usuario. Los coeficientes espectrales de la ultima 25 trama se atenuan en un factor correspondiente a las caracterfsticas de desvanecimiento y a continuacion se pasa al mapeo de frecuencia a tiempo. Dependiendo de la rampa de atenuacion, el ocultamiento conmuta a silenciamiento despues de un numero de tramas invalidas consecutivas, lo que significa que el espectro completo se ajustara a 0.
[0081] 3GPP presentan para AAC en aacPlus mejorado el desvanecimiento en el dominio de frecuencia 30 similar a DRM [3GP12e, seccion 5.1]. El ocultamiento trabaja sobre los datos espectrales justo antes de la
conversion final de frecuencia a tiempo. Si multiples tramas estan alteradas, el ocultamiento implementa en primer lugar un desvanecimiento basado en valores espectrales ligeramente modificados desde la ultima trama buena. Un desvanecimiento completo requiere 5 tramas. Los coeficientes espectrales desde la ultima trama buena se copian y se atenuan en un factor de:
35
fadeOutF ac = 2~(nFade°utFrame/V
con nFadeOutFrame como contador de tramas desde la ultima trama buena. Despues de cinco tramas de desvanecimiento, el ocultamiento conmuta a silenciamiento, lo que significa que el espectro completo se ajustara a 40 0.
[0082] Lauber y Sperschneider presentan para AAC un desvanecimiento por tramas del espectro MDCT, basado en extrapolacion de energfa [LS01, seccion 4.4]. Podrfan usarse formas de energfa de un espectro anterior para extrapolar la forma de un espectro estimado. La extrapolacion de energfa puede realizarse independiente de
45 las tecnicas de ocultamiento como una clase de postocultamiento.
[0083] Respecto a AAC, el calculo de energfa se realiza sobre la base de una banda de factor de escala con el fin de acercarse a las bandas crfticas del sistema auditivo humano. Los valores de energfa individuales disminuyen trama a trama con el fin de reducir el volumen suavemente, por ejemplo, para desvanecer la senal. Esto
50 se vuelve necesario dado que la probabilidad de que los valores estimados representen la senal actual, disminuye rapidamente con el tiempo.
[0084] Para la generacion del espectro a desvanecer, sugieren repeticion de tramas o sustitucion de ruido [LS01, secciones 3.2 t 3.3].
55
[0085] Quackenbusch y Driesen sugieren para AAC un desvanecimiento por tramas a cero exponencial [QD03]. Se propone una repeticion de un conjunto adyacente de coeficientes de tiempo/frecuencia, en la que cada repeticion ha aumentado exponencialmente la atenuacion, desvaneciendose de este modo gradualmente a silencio
en el caso de apagones prolongados.
[0086] Respecto a SBR (SBR = replication de banda espectral) in MPEG-4 HE-AAC, 3GPP sugiere SBR en aacPIus mejorada para almacenar temporalmente los datos de envoltura decodificados y, en el caso de una perdida
5 de trama, para reutilizar las energlas almacenadas temporalmente de los datos de envoltura transmitidos y para disminuirlas en una relation constante de 3 dB para cada trama oculta. El resultado se introduce en el proceso de decodificacion normal donde el ajustador de envoltura lo usa para calcular las ganancias, usadas para ajustar las bandas altas parcheadas creadas por el generador de HF. La decodificacion de SBR tiene lugar a continuation de la manera habitual. Ademas, los valores de umbral mlnimo de ruido y nivel del seno codificados en delta estan siendo 10 eliminados. Dado que queda disponible ninguna diferencia con la information previa, el umbral mlnimo de ruido y los niveles del seno decodificados siguen siendo proporcionales a la energla de la senal generada de HF [3GP12e, section 5.2].
[0087] El consorcio de DRM especifico para SBR junto con AAC la misma tecnica que 3GPP [EBU12, 15 seccion 5.6.3.1]. Ademas, el consorcio de DAB especifica para SBR en DAB+ la misma tecnica que 3GPP [EBU10,
seccion A2].
[0088] En lo sucesivo, se consideran MPEG-4 CELP y MPEG-4 HVXC (HVXC = codification de excitation de vector armonico). El consorcio de DRM especifica para SBR junto con CELP y HVXC [EBU12, seccion 5.6.3.2] que
20 el ocultamiento de requisito mlnimo para SBR para los codecs de voz es aplicar un conjunto predeterminado de valores de datos, cada vez que se ha detectado una trama de SBR alterada. Esos valores dan una envoltura espectral de banda alta estatica a un nivel de reproduction relativo bajo, mostrando una calda hacia las frecuencias mas altas. El objetivo es simplemente garantizar que ninguna rafaga de audio de mal comportamiento, potencialmente alta, alcance los oldos del oyente, por medio de la insertion de "ruido de confort" (en oposicion al 25 silenciamiento estricto). Esto no es, de hecho, desvanecimiento real sino en su lugar un salto a cierto nivel de energla con el fin de insertar alguna clase de ruido de confort.
[0089] Posteriormente, se menciona una alternativa [EBU12, seccion 5.6.3.2] que reutiliza los ultimos datos decodificados correctamente y desvaneciendo lentamente los niveles (L) hacia 0, analogamente al caso de AAC +
30 SBR.
[0090] Ahora, se considera MPEG-4 HILN (HILN = armonicos y llneas individuales mas ruido). Meine y col., presentan un desvanecimiento para el codec MPEG-4 HILN parametrico [ISO09] en un dominio parametrico [MEP01]. Para componentes armonicos continuados un buen comportamiento por defecto para sustituir parametros
35 codificas de forma diferencial alterados es mantener la frecuencia constante, reducir la amplitud en un factor de atenuacion (por ejemplo, -6 dB), y dejar que la envoltura espectral converja hacia la de la caracterlstica de paso bajo promediada. Una alternativa para la envoltura espectral serla mantenerla inalterada. Con respecto a amplitudes y envolturas espectrales, componentes de ruido pueden tratarse de la misma manera que componentes armonicos.
40 [0091] En lo sucesivo, se considera el rastreo del nivel de ruido de fondo en la tecnica anterior. Rangachari y
Loizou [RL06] proporcionan una buena vision de conjunto de varios procedimientos y describen algunas de sus limitaciones. Procedimientos para rastrear el nivel de ruido de fondo son, por ejemplo, procedimiento de seguimiento mlnimo [RL06] [Coh03] [SfB00] [Dob95], basado en VAD (VAD = detection de actividad de voz); filtration de Kalman [Gan05] [BJH06], descomposicion subespacial [BP06] [HJH08]; Decision programada [SS98] [MPC89] 45 [HE95] y estadlstica minima.
[0092] El enfoque de estadistica minima se selecciono para usarlo dentro del alcance para USAC-2, (USAC =
codificacion de voz y audio unificada) y se perfila posteriormente con mas detalle.
50 [0093] La estimation de densidad espectral de potencia del ruido basada en suavizado optimo y estadistica
minima [Mar01] presenta un estimador de ruido, que es capaz de funcionar independientemente de que la senal sea voz activa o ruido de fondo. En contraste con otros procedimientos, el algoritmo de estadistica minima no usa ningun umbral explicito para distinguir entre actividad de voz y pausa de voz y esta, por lo tanto, mas estrechamente relacionada con procedimientos de decision programada que con los procedimientos de deteccion de actividad de 55 voz tradicionales. Similar a los procedimientos de decision programada, tambien puede actualizar la PSD (densidad espectral de potencia) del ruido estimada durante la actividad de voz.
[0094] El procedimiento de estadistica minima se basa en dos observaciones, concretamente que la voz y el
ruido son habitualmente estadisticamente independientes y que la potencia de una senal de voz ruidosa
frecuentemente decae al nivel de potencia del ruido. Es posible, por lo tanto, derivar una estimacion de PSD (PSD = densidad espectral de potencia) de ruido precisa rastreando el minimo de la PSD de senal ruidosa. Dado que el minimo es mas pequeno que (o en otros casos igual a) el valor promedio, el procedimiento de rastreo minimo requiere una compensation del sesgo.
5
[0095] El sesgo esta en funcion de la varianza de la PSD de senal suavizada y, por lo tanto, depende del parametro de suavizado del estimador de PSD. En contraste con un trabajo anterior sobre rastreo minimo, que utiliza un parametro de suavizado constante y una correction del sesgo minima constante, se usa un suavizado de PSD dependiente del tiempo y la frecuencia, lo que tambien requiere una compensacion del sesgo dependiente del
10 tiempo y la frecuencia.
[0096] El uso de rastreo minimo proporciona una estimacion aproximada de la potencia del ruido. Sin embargo, existen algunas desventajas. El suavizado con un parametro de suavizado fijo amplia los picos de actividad de voz de la estimacion de PSD suavizada. Esto causara estimaciones de ruido inexactas, dado que la
15 ventana deslizante para la busqueda minima podria deslizarse hacia picos amplios. Por lo tanto, no pueden usarse parametros de suavizado cercanos a uno, y, como consecuencia, la estimacion de ruido tendra una varianza relativamente grande. Ademas, la estimacion de ruido esta sesgada hacia valores mas bajos. Ademas, en el caso de aumento de la potencia del ruido, el rastreo minimo se retrasa.
20 [0097] El rastreo de la PSD de ruido basado en MMSE con baja complejidad [HHJ10] presenta un enfoque de
PSD de ruido de fondo que utiliza una busqueda de MMSE usada en un espectro de DFT (transformada de Fourier discreta). El algoritmo consiste en estas etapas de procesamiento:
- Se calcula el estimador de maxima probabilidad basandose en la PSD de ruido de la trama anterior.
25
- Se calcula el estimador de media cuadratica minima.
- Se estima el estimador de maxima probabilidad usando el enfoque dirigido por decision [EM84].
30 - Se calcula el factor de sesgo inverso suponiendo que los coeficientes de DFT de voz y ruido tienen una
distribucion Gaussiana.
- Se suaviza la densidad espectral de potencia del ruido estimada.
35 [0098] Tambien hay un enfoque de red de seguridad aplicado con el fin de evitar un bloqueo completo del
algoritmo.
[0099] El rastreo de ruido no estacionario basandose en estimacion de ruido recursiva impulsada por datos [EH08] presenta un procedimiento para la estimacion de la varianza espectral de ruido a partir de senales de voz
40 contaminadas por fuentes de ruido altamente no estacionario. Este procedimiento tambien esta usando suavizado en direction de tiempo/frecuencia.
[0100] Un algoritmo de estimacion de ruido de baja complejidad basado en el suavizado de estimacion de potencia de ruido y correccion del sesgo de estimacion [Yu09] mejora el enfoque presentado en [EH08]. La principal
45 diferencia es, que la funcion de ganancia espectral para estimacion de potencia de ruido se descubre mediante un procedimiento impulsado por datos iterativo.
[0101] Procedimientos estadisticos para la mejora de voz ruidosa [Mar03] combinan el enfoque de estadistica minima dado en [Mar01] mediante modification de ganancia de decision programada [MCA99], mediante una
50 estimacion de la SNR a priori [MCA99], mediante una limitation de ganancia adaptativa [MC99] y mediante un estimador de amplitud espectral de log MMSE [EM85].
[0102] El desvanecimiento es de particular interes para una pluralidad de codecs de voz y de audio, en particular, AMR (vease [3GP12b]) (incluyendo ACELP y CNG), AMR-WB (vease [3GP09c]) (incluyendo ACELP y
55 CNG), AMR-WB+ (vease [3GP09a]) (incluyendo ACELP, TCX y CNG), G.718 (vease [ITU08a]), G.719 (vease [ITU08b]), G.722 (vease [ITU07]), G.722.1 (vease [ITU05]), G.729 (vease [ITU12, CPK08, PKJ+11]), MPEG-4 HE- AAC/aacPlus mejorada (vease [EBU10, EBU12, 3GP12e, LS01, QD03]) (incluyendo AAC y SBR), MPEG-4 HILN (vease [ISO09, MEP01]) y OPUS (vease [IET12]) (incluyendo SILK y CELT).
[0103] Dependiendo del codec, el desvanecimiento se realiza en diferentes dominios:
Para codecs que utilizan LPC, el desvanecimiento se realiza en el dominio predictivo lineal (tambien conocido como el dominio de excitacion). Esto es cierto para codecs que se basan en ACELP, por ejemplo, AMR, AMR- 5 WB, el nucleo de ACELP de AMR-WB+, G.718, G.729, G.729.1, el nucleo de SILK en OPUS; codecs que procesan ademas la senal de excitacion usando una transformation de tiempo-frecuencia, por ejemplo, el nucleo de TCX de AMR-WB+, el nucleo de CELT en OPUS; y para esquemas de generation de ruido de confort (CNG), que operan en el dominio predictivo lineal, por ejemplo, CNG en AMR, CNG en AMR-WB, CNG en AMR-WB+.
10 [0104] Para codecs que transforman directamente la senal temporal en el dominio de frecuencia, el
desvanecimiento se realiza el dominio espectral/de subbanda. Esto es cierto para codecs que se basan en MDCT o una transformacion similar, tales como AAC en MPEG-4 HE-AAC, G.719, G.722 (dominio de subbanda) y G.722.1.
[0105] Para codecs parametricos, se aplica desvanecimiento en el dominio parametrico. Esto es cierto para 15 MPEG-4 HILN.
[0106] Respecto a la velocidad de desvanecimiento y la curva de desvanecimiento, un desvanecimiento se realiza comunmente mediante la aplicacion de un factor de atenuacion, que se aplica a la representation de senal en el dominio apropiado. El tamano del factor de atenuacion controla la velocidad de desvanecimiento y la curva de
20 desvanecimiento. En la mayoria de los casos, el factor de atenuacion se aplica por tramas, pero tambien se utiliza una aplicacion por muestras vease, por ejemplo, G.718 y G.722.
[0107] El factor de atenuacion para cierto segmento de senal podria proporcionarse de dos maneras, absoluta y relativa.
25
[0108] En el caso en que un factor de atenuacion se proporciona de forma absoluta, el nivel de referencia es siempre el de la ultima trama recibida. Los factores de atenuacion absolutos habitualmente comienzan con un valor cercano a 1 para el segmento de senal inmediatamente despues de la ultima trama buena y a continuation se degradan mas rapido o mas lento hacia 0. La curva de desvanecimiento depende directamente de estos factores.
30 Este es, por ejemplo, el caso para el ocultamiento descrito en el Apendice IV de G.722 (vease, en particular, [ITU07, figura IV.7]), donde las posibles curvas de desvanecimiento son lineales linear o gradualmente lineales. Considerando un factor de ganancia g(n), mientras que g(0) representa el factor de ganancia de la ultima trama buena, un factor de atenuacion absoluto aabs (n), el factor de ganancia de cualquier trama perdida posterior puede derivarse como 35
g(n) = aabs(n) • fir(0) (21)
[0109] En el caso en que un factor de atenuacion se proporciona de forma relativa, el nivel de referencia es el de la trama anterior. Esto tiene ventajas en el caso de un procedimiento de ocultamiento recursivo, por ejemplo, si la
40 senal ya atenuada es procesada adicionalmente y atenuada de nuevo.
[0110] Si un factor de atenuacion se aplica de forma recursiva, entonces este podria ser un valor fijo independiente del numero de tramas perdidas consecutivamente, por ejemplo, 0,5 para G.719 (vease anteriormente); un valor fijo con respecto al numero de tramas perdidas consecutivamente, por ejemplo, segun lo
45 propuesto para G.729 en [CPK08]: 1,0 para las dos primeras tramas, 0,9 para las dos tramas siguientes, 0,8 para las tramas 5 y 6, y 0 para todas las tramas posteriores (vease anteriormente); o un valor que es relativo al numero de tramas perdidas consecutivamente y que depende de caracteristicas de senal, por ejemplo, un desvanecimiento mas rapido para una senal inestable y un desvanecimiento mas lento para una senal estable, por ejemplo, G.718 (vease la section anterior y [ITU08a, tabla 44]);
50
[0111] Suponiendo un factor de desvanecimiento relativo 0 < arei(n) < 1, mientras que n es el numero de la trama perdida (n > 1); el factor de ganancia de cualquier trama posterior puede derivarse como
imagen13
(22)
(23)
(24)
dando como resultado un desvanecimiento exponencial.
5 [0112] Respecto al procedimiento de desvanecimiento, habitualmente, se especifica el factor de atenuacion,
pero en algunas normas de aplicacion (DRM, DAB+) este ultimo se deja al fabricante.
[0113] Si diferentes partes de senal se desvanecen por separado, podrfan aplicarse diferentes factores de atenuacion, por ejemplo, para desvanecer componentes tonales con cierta velocidad y componentes de tipo ruido
10 con otra velocidad (por ejemplo, AMR, SILK).
[0114] Habitualmente, se aplica cierta ganancia a toda la trama. Cuando se realiza el desvanecimiento en el dominio espectral, esta es la unica manera posible. Sin embargo, si el desvanecimiento se realiza en el dominio temporal o el dominio predictivo lineal, es posible un desvanecimiento mas granular. Dicho desvanecimiento mas
15 granular se aplica en G.718, donde factores de ganancia individuales se derivan para cada muestra mediante interpolation lineal entre el factor de ganancia de la ultima trama y el factor de ganancia de la trama actual.
[0115] Para codecs con una duration de trama variable, un factor de atenuacion relativo constante causa una velocidad de desvanecimiento diferente dependiendo de la duracion de la trama. Este es, por ejemplo, el caso para
20 AAC, donde la duracion de la trama depende de la tasa de muestreo.
[0116] Para adoptar la curva de desvanecimiento aplicada a la forma temporal de la ultima senal recibida, los factores de desvanecimiento (estaticos) podrfan ajustarse adicionalmente. Dicho ajuste dinamico adicional se aplica, por ejemplo, para AMR donde la mediana de los cinco factores de ganancia previos se tiene en cuenta (vease
25 [3GPl2b] y section 1.8.1). Antes de que se realice cualquier atenuacion, la ganancia actual se ajusta a la mediana, si la mediana es mas pequena que la ultima ganancia, de lo contrario se usa la ultima ganancia. Ademas, dicho ajuste dinamico adicional se aplica, por ejemplo, para G729, donde la amplitud se predice usando regresion lineal de los factores de ganancia previos (vease [CPK08, PKJ+11] y seccion 1.6). En este caso, el factor de ganancia resultante para las primeras tramas ocultas podrfa superar el factor de ganancia de la ultima trama recibida.
30
[0117] Respecto al nivel diana del desvanecimiento, con la exception de G.718 y CELT, el nivel diana es 0 para todos los codecs analizados, incluyendo aquellos codecs de generation de ruido de confort (CNG).
[0118] En G.718, el desvanecimiento de la excitation de altura tonal (que representa componentes tonales) y 35 el desvanecimiento de la excitacion aleatoria (que representa componentes de tipo ruido) se realiza por separado.
Aunque la ganancia de altura tonal factor se desvanece a cero, la ganancia de innovation factor se desvanece a la energfa de excitacion de CNG.
[0119] Suponiendo que se dan factores de atenuacion relativos, esto conduce - basandose en la formula (23) 40 - al siguiente factor de atenuacion absoluto:
imagen14
con gn siendo la ganancia de la excitacion usada durante la generacion de ruido de confort. Esta formula 45 corresponde a la formula (23), cuando gn = 0.
[0120] G.718 no realiza ningun desvanecimiento en el caso de DTX/CNG.
[0121] En CELT no hay ningun desvanecimiento hacia el nivel diana, pero despues de 5 tramas de ocultamiento tonal (incluyendo un desvanecimiento) el nivel se conmuta instantaneamente al nivel diana en la 6a trama perdida consecutivamente. El nivel se deriva por bandas usando la formula (19).
5
[0122] Respecto a la forma espectral diana del desvanecimiento, todos los codecs basados en transformada pura analizados (AAC, G.719, G.722, G.722.1) as! como SBR simplemente prolongan la forma espectral de la ultima trama buena durante el desvanecimiento.
10 [0123] Diversos codecs de voz desvanecen la forma espectral a una media usando la slntesis de LPC. La
media podrla ser estatica (AMR) o adaptativa (AMR-WB, AMR-WB+, G.718), mientras que esta ultima se deriva de una media estatica y una media a corto plazo (derivada promediando los ultimos n conjuntos de coeficientes de LP) (LP = prediccion lineal).
15 [0124] Todos los modulos de CNG en los codecs descritos AMR, AMR-WB, AMR-WB+, G.718 prolongan la
forma espectral de la ultima trama buena durante el desvanecimiento.
[0125] Respecto al rastreo del nivel del ruido de fondo, hay cinco enfoques diferentes conocidos a partir de la bibliografla:
20
- Basado en detector de actividad de voz: basado en SNR/VAD, pero muy diflcil de ajustar finamente y diflcil de usar para voz de SNR baja.
- Esquema de decision programada: el enfoque de decision programada tiene en cuenta la probabilidad de
25 presencia de voz [SS98] [MPC89] [HE95].
- Estadlstica minima: el mlnimo de la PSD se rastrea reteniendo cierta cantidad de valores a lo largo del tiempo en un bufer, permitiendo de este modo descubrir el ruido mlnimo a partir de las muestras pasadas [Mar01] [HHJ10] [EH08] [Yu09].
30
- Filtracion de Kalman: el algoritmo usa una serie de mediciones observadas a lo largo del tiempo, que contienen ruido (variaciones aleatorias), y produce estimaciones de la PSD del ruido que tiende a ser mas precisa que las basadas en una unica medicion solamente. El filtro de Kalman opera de forma recursiva sobre flujos de datos de entrada ruidosos para producir una estimacion estadlsticamente optima del estado del sistema [Gan05] [BJH06].
35
- Descomposicion subespacial: este enfoque intenta descomponer una serial de tipo ruido en una serial de voz limpia y una parte de ruido, utilizando por ejemplo la KLT (transformada de Karhunen-Loeve, tambien conocida como analisis de componentes principales) y/o la DFT (Transformada de Fourier temporal discreta). A continuacion, los vectores propios/valores propios pueden rastrearse usando un algoritmo de suavizado arbitrario
40 [BP06] [HJH08].
Una disposicion de ocultamiento de perdida de paquetes de audio basada en interpolacion se propone ademas en el documento EP 2 360 682 A1. El objetivo de la presente invention es proporcionar conceptos mejorados para sistemas de codification de audio. El objetivo de la presente invencion se resuelve mediante un aparato de acuerdo
45 con la reivindicacion 1, mediante un procedimiento de acuerdo con la reivindicacion 19 y mediante un programa informatico de acuerdo con la reivindicacion 20.
[0126] Se proporciona un aparato para decodificar una serial de audio codificada para obtener una serial de audio reconstruida. El aparato comprende una interfaz receptora para recibir una o mas tramas que comprenden
50 information sobre una pluralidad de muestras de serial de audio de un espectro de serial de audio de la serial de audio codificada, y un procesador para generar la serial de audio reconstruida. El procesador esta configurado para generar la serial de audio reconstruida desvaneciendo un espectro modificado a un espectro diana, si una trama actual no es recibida por la interfaz receptora o si la trama actual es recibida por la interfaz receptora pero esta alterada, en el que el espectro modificado comprende una pluralidad de muestras de serial modificadas, en la que,
55 para cada una de las muestras de serial modificadas del espectro modificado, un valor absoluto de dicha muestra de serial modificada es igual a un valor absoluto de una de las muestras de serial de audio del espectro de serial de audio. Ademas, el procesador esta configurado para no desvanecer el espectro modificado al espectro diana, si la trama actual de las una o mas tramas es recibida por la interfaz receptora y si la trama actual que es recibida por la interfaz receptora no esta alterada.
10
15
20
25
30
[0127] De acuerdo con una realization, el espectro diana puede ser, por ejemplo, un espectro de tipo ruido.
[0128] En una realization, el espectro de tipo ruido puede representar, por ejemplo, ruido blanco.
[0129] De acuerdo con una realization, el espectro de tipo ruido puede estar, por ejemplo, conformado.
[0130] En una realization, la forma del espectro de tipo ruido puede depender, por ejemplo, de un espectro de senal de audio de una senal recibida previamente.
[0131] De acuerdo con una realization, el espectro de tipo ruido puede estar, por ejemplo, conformado dependiendo de la forma del espectro de senal de audio.
[0132] En una realization, el procesador puede emplear, por ejemplo, un factor de inclination para conformar el espectro de tipo ruido.
[0133] De acuerdo con una realization, el procesador puede emplear, por ejemplo, la formula
shaped_noise[i] = noise * power(tilt_factor,i/N)
en la que N indica el numero de muestras, en la que i es un indice, en la que 0<= i < N, con tilt_factor > 0, y en la que power es una funcion de potencia. power (x, y) indica xy i
power (tilt_factor,i/N) indica
tilt factor1
[0134] Si tilt_factor es menor que 1 esto significa atenuacion con i creciente. Si tilt_factor es mayor que 1 significa amplification con i creciente.
[0135] De acuerdo con otra realization, el procesador puede emplear, por ejemplo, la formula
shaped_noise[i] = noise * (1 -t- i / (N-l) * (tilt factor-1))
en la que N indica el numero de muestras, en la que i es un indice, en la que 0<= i < N, con tilt_factor > 0.
35 [0136] Si el tilt_factor es menor que 1 esto significa atenuacion con i creciente. Si tilt_factor es mayor que 1
significa amplification con i creciente.
[0137] De acuerdo con una realization, el procesador puede estar configurado, por ejemplo, para generar el espectro modificado, cambiando un signo de una o mas de las muestras de senal de audio del espectro de senal de
40 audio, si la trama actual no es recibida por la interfaz receptora o si la trama actual que es recibida por la interfaz receptora esta alterada.
[0138] En una realization, cada una de las muestras de senal de audio del espectro de senal de audio puede estar, por ejemplo, representada por un numero real pero no por un numero imaginario.
45
[0139] De acuerdo con una realization, las muestras de senal de audio del espectro de senal de audio
pueden estar, por ejemplo, representadas en un dominio de transformada de coseno discreta modificada.
[0140] En otra realization, las muestras de senal de audio del espectro de senal de audio pueden estar, por 50 ejemplo, representadas en un dominio de transformada de seno discreta modificada.
[0141] De acuerdo con una realization, el procesador puede estar configurado, por ejemplo, para generar el espectro modificado empleando una funcion de signo aleatorio que emite de forma aleatoria o pseudoaleatoria bien un primer o bien un segundo valor.
55
[0142] En una realization, el procesador puede estar, por ejemplo, configurado para desvanecer el espectro modificado al espectro diana disminuyendo posteriormente un factor de atenuacion.
[0143] De acuerdo con una realization, el procesador puede estar, por ejemplo, configurado para desvanecer el espectro modificado al espectro diana aumentando posteriormente un factor de atenuacion.
5 [0144] En una realization, si la trama actual no es recibida por la interfaz receptora o si la trama actual que es recibida por la interfaz receptora esta alterada, el procesador puede estar configurado, por ejemplo, para generar la senal de audio reconstruida empleando la formula:
x [i] = (l-cum_damping) * noise[i] + cum_damping *
random_sign() * x_old[i]
10
en la que i es un indice, en la que x[i] indica una muestra de la senal de audio reconstruida, en la que cum_damping es un factor de atenuacion, en la que x_old[i] indica una de las muestras de senal de audio del espectro de senal de audio de la senal de audio codificada, en la que random_sign() retorna 1 o -1, y en la que noise es un vector aleatorio que indica el espectro diana.
15
[0145] En una realization, dicho vector aleatorio noise puede, por ejemplo, convertirse a escala de modo que su media cuadratica es similar a la media cuadratica del espectro de la senal de audio codificada que esta compuesta por una de las tramas que son recibidas las ultimas por la interfaz receptora.
20 [0146] De acuerdo con una realization general, el procesador puede estar configurado, por ejemplo, para generar la senal de audio reconstruida, empleando un vector aleatorio que es convertido a escala, de modo que su media cuadratica sea similar a la media cuadratica del espectro de la senal de audio codificada que esta compuesta por una de las tramas que son recibidas las ultimas por la interfaz receptora.
25 [0147] Ademas, se proporciona un procedimiento para decodificar una senal de audio codificada para obtener una senal de audio reconstruida. El procedimiento comprende:
- Recibir una o mas tramas que comprenden information sobre una pluralidad de muestras de senal de audio de un espectro de senal de audio de la senal de audio codificada. Y:
30
- Generar la senal de audio reconstruida.
[0148] Generar la senal de audio reconstruida se lleva a cabo desvaneciendo un espectro modificado a un espectro diana, si una trama actual no es recibida o si la trama actual es recibida pero esta alterada, en la que el
35 espectro modificado comprende una pluralidad de muestras de senal modificadas, en la que, para cada una de las muestras de senal modificadas del espectro modificado, un valor absoluto de dicha muestra de senal modificada es igual a un valor absoluto de una de las muestras de senal de audio del espectro de senal de audio. El espectro modificado no se desvanece a un espectro de ruido blanco, si la trama actual de las una o mas tramas es recibida y si la trama actual que es recibida no esta alterada.
40
[0149] Ademas, se proporciona un programa informatico para implementar el procedimiento descrito anteriormente cuando es ejecutado en un ordenador o un procesador de senales.
[0150] Ejemplos realizan un espectro de MDCT de desvanecimiento a ruido blanco antes de la aplicacion de 45 FDNS (FDNS = Sustitucion de ruido en el dominio de frecuencia).
[0151] De acuerdo con la tecnica anterior, en codecs basados en ACELP, el libro de codigos innovador se sustituye con un vector aleatorio (por ejemplo, con ruido). En ejemplos, el enfoque de ACELP, que consiste en sustituir el libro de codigos innovador con un vector aleatorio (por ejemplo, con ruido) se adopta para la estructura
50 del decodificador de TCX. En este contexto, el equivalente del libro de codigos innovador es el espectro de MDCT habitualmente recibido dentro del flujo de bits e introducido en la FDNS.
[0152] El enfoque de ocultacion de MDCT clasico seria simplemente repetir este espectro como es o aplicar cierto proceso de aleatorizacion, que basicamente prolonga la forma espectral de la ultima trama recibida [LS01].
55 Esto tiene la desventaja de que la forma espectral a corto plazo se prolonga, conduciendo frecuentemente a un sonido metalico repetitivo, que no es de tipo ruido de fondo, y, por lo tanto, no puede usarse como ruido de confort.
[0153] Usando el procedimiento propuesto la conformacion espectral a corto plazo se realiza mediante la FDNS y la LTP de TCX, la conformacion espectral a la larga se realiza mediante la FDNS solamente. La conformacion por la FDNS se desvanece desde forma espectral a corto plazo a la forma espectral a largo plazo rastreada del ruido de fondo, y la LTP de TCX se desvanece a cero.
5
[0154] El desvanecimiento de los coeficientes de FDNS a coeficientes de ruido de fondo rastreados conduce a tener una transition suave entre la ultima envoltura espectral buena y la envoltura de fondo espectral que debe ser la diana a la larga, con el fin de conseguir un ruido de fondo agradable en el caso de perdidas de trama de rafaga larga.
10
[0155] En contraste, de acuerdo con el estado de la tecnica, para codecs basados en transformada, se lleva a cabo ocultamiento de tipo ruido mediante repetition de tramas o sustitucion de ruido en el dominio de frecuencia [LS01]. En la tecnica anterior, la sustitucion de ruido se realiza habitualmente mediante mezcla de signos de los “bins” espectrales. Si en la tecnica anterior se usa mezcla de signos de TCX (dominio de frecuencia) durante el
15 ocultamiento, los ultimos coeficientes de MDCT recibidos se reutilizan y cada signo se aleatoriza antes de que el espectro se transforme de forma inversa en el dominio temporal. La desventaja de este procedimiento de la tecnica anterior es que, para tramas perdidas consecutivamente, se usa el mismo espectro una y otra vez, justo con diferentes aleatorizaciones de signo y atenuacion global. Cuando se observa la envoltura espectral a lo largo del tiempo en una cuadrlcula temporal grosera, puede verse que la envoltura es aproximadamente constante durante 20 perdida de tramas consecutivas, dado que las energlas de banda se mantienen constante unas con respecto a otras dentro de una trama y solamente son atenuadas globalmente. En el sistema de codification usado, de acuerdo con la tecnica anterior, los valores espectrales se procesan usando FDNS, con el fin de restaurar el espectro original. Esto significa que, si se desea desvanecer el espectro MDCT a cierta envoltura espectral (usando coeficientes de FDNS, por ejemplo, que describen el ruido de fondo actual), el resultado es no solamente dependiente de los 25 coeficientes de FDNS, sino tambien dependiente del espectro decodificado previamente que se sometio a mezcla de signos. Los ejemplos mencionados anteriormente superan estas desventajas de la tecnica anterior.
[0156] Los ejemplos se basan en el descubrimiento de que es necesario desvanecer el espectro usado para la mezcla de signos a ruido blanco, antes de introducirlo en el procesamiento de FDNS. En caso contrario, el
30 espectro emitido no coincidira nunca con la envoltura diana usada para procesamiento por FDNS.
[0157] En ejemplos, se usa la misma velocidad de desvanecimiento para desvanecimiento de la ganancia de LTP que para el desvanecimiento de ruido blanco.
35 [0158] Ademas, se proporciona un aparato para decodificar una senal de audio.
[0159] El aparato comprende una interfaz receptora. La interfaz receptora esta configurada para recibir una pluralidad de tramas, en la que la interfaz receptora esta configurada para recibir una primera trama de la pluralidad de tramas, comprendiendo dicha primera trama una primera portion de senal de audio de la senal de audio, estando
40 dicha primera porcion de senal de audio representada en un primer dominio, y en la que la interfaz receptora esta configurada para recibir una segunda trama de la pluralidad de tramas, comprendiendo dicha segunda trama una segunda porcion de senal de audio de la senal de audio.
[0160] Ademas, el aparato comprende una unidad de transformada para transformar la segunda porcion de 45 senal de audio o un valor o senal derivada de la segunda porcion de senal de audio a partir de un segundo dominio
a un dominio de rastreo para obtener una information de segunda porcion de senal, en el que el segundo dominio es diferente del primer dominio, en el que el dominio de rastreo es diferente del segundo dominio, y en el que el dominio de rastreo es igual a o diferente del primer dominio.
50 [0161] Ademas, el aparato comprende una unidad de rastreo del nivel de ruido, en la que la unidad de rastreo
del nivel de ruido esta configurada para recibir una informacion de primera porcion de senal que esta representada en el dominio de rastreo, en la que la informacion de primera porcion de senal depende de la primera porcion de senal de audio. La unidad de rastreo del nivel de ruido esta configurada para recibir la segunda porcion de senal que esta representada en el dominio de rastreo, y en la que la unidad de rastreo del nivel de ruido esta configurada para 55 determinar informacion sobre el nivel de ruido dependiendo de la informacion de primera porcion de senal que esta representada en el dominio de rastreo y dependiendo de la informacion de segunda porcion de senal que esta representada en el dominio de rastreo.
[0162] Ademas, el aparato comprende una unidad de reconstruction para reconstruir una tercera porcion de
senal de audio de la senal de audio dependiendo de la informacion sobre el nivel de ruido, si una tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora, pero esta alterada.
[0163] Una senal de audio puede ser, por ejemplo, una senal de voz, o una senal de musica, o senal que 5 comprende voz y musica, etc.
[0164] La afirmacion de que la informacion de primera porcion de senal depende de la primera porcion de senal de audio significa que la informacion de primera porcion de senal es la primera porcion de senal de audio, o que la informacion de primera porcion de senal se ha obtenido/generado dependiendo de la primera porcion de
10 senal de audio o, de alguna otra manera, depende de la primera porcion de senal de audio. Por ejemplo, la primera porcion de senal de audio puede haber sido transformada de un dominio a otro dominio para obtener la informacion de primera porcion de senal.
[0165] Del mismo modo, una afirmacion de que la informacion de segunda porcion de senal depende de una 15 segunda porcion de senal de audio significa que la informacion de segunda porcion de senal es la segunda porcion
de senal de audio, o que la informacion de segunda porcion de senal se ha obtenido/generado dependiendo de la segunda porcion de senal de audio o, de alguna otra manera, depende de la segunda porcion de senal de audio. Por ejemplo, la segunda porcion de senal de audio puede haber sido transformada de un dominio a otro dominio para obtener informacion de segunda porcion de senal.
20
[0166] En un ejemplo, la primera porcion de senal de audio puede estar, por ejemplo, representada en un dominio temporal como el primer dominio. Ademas, la unidad de transformada puede estar, por ejemplo, configurada para transformar la segunda porcion de senal de audio o el valor derivado de la segunda porcion de senal de audio desde un dominio de excitacion que es el segundo dominio hasta el dominio temporal que es el dominio de rastreo.
25 Ademas, la unidad de rastreo del nivel de ruido puede estar, por ejemplo, configurada para recibir la informacion de primera porcion de senal que esta representada en el dominio temporal como el dominio de rastreo. Ademas, la unidad de rastreo del nivel de ruido puede estar, por ejemplo, configurada para recibir la segunda porcion de senal que esta representada en el dominio temporal como el dominio de rastreo.
30 [0167] De acuerdo con un ejemplo, la primera porcion de senal de audio puede estar, por ejemplo,
representada en un dominio de excitacion como el primer dominio. Ademas, la unidad de transformada puede estar, por ejemplo, configurada para transformar la segunda porcion de senal de audio o el valor derivado de la segunda porcion de senal de audio desde un dominio temporal que es el segundo dominio hasta el dominio de excitacion que es el dominio de rastreo. Ademas, la unidad de rastreo del nivel de ruido puede estar, por ejemplo, configurada para 35 recibir la informacion de primera porcion de senal que esta representada en el dominio de excitacion como el dominio de rastreo. Ademas, la unidad de rastreo del nivel de ruido puede estar, por ejemplo, configurada para recibir la segunda porcion de senal que esta representada en el dominio de excitacion como el dominio de rastreo.
[0168] En un ejemplo, la primera porcion de senal de audio puede estar, por ejemplo, representada en un
40 dominio de excitacion como el primer dominio, en la que la unidad de rastreo del nivel de ruido puede estar, por ejemplo, configurada para recibir la informacion de primera porcion de senal, en la que dicha informacion de primera porcion de senal esta representada en el dominio de FFT, que es el dominio de rastreo, y en la que dicha informacion de primera porcion de senal depende de dicha primera porcion de senal de audio que esta representada en el dominio de excitacion, en la que la unidad de transformada puede estar, por ejemplo, configurada para 45 transformar la segunda porcion de senal de audio o el valor derivado de la segunda porcion de senal de audio desde un dominio temporal que es el segundo dominio hasta un dominio de FFT que es el dominio de rastreo, y en la que la unidad de rastreo del nivel de ruido puede estar, por ejemplo, configurada para recibir la segunda porcion de senal de audio que esta representada en el dominio de fFt.
50 [0169] En un ejemplo, el aparato puede comprender, por ejemplo, ademas una primera unidad de agregacion
para determinar un primer valor agregado dependiendo de la primera porcion de senal de audio. Ademas, el aparato puede comprender, por ejemplo, ademas una segunda unidad de agregacion para determinar, dependiendo de la segunda porcion de senal de audio, un segundo valor agregado como el valor derivado de la segunda porcion de senal de audio. Ademas, la unidad de rastreo del nivel de ruido puede estar, por ejemplo, configurada para recibir el 55 primer valor agregado como la informacion de primera porcion de senal que esta representada en el dominio de rastreo, en la que la unidad de rastreo del nivel de ruido puede estar, por ejemplo, configurada para recibir el segundo valor agregado como la informacion de segunda porcion de senal que esta representada en el dominio de rastreo, y en la que la unidad de rastreo del nivel de ruido puede estar, por ejemplo, configurada para determinar informacion sobre el nivel de ruido dependiendo del primer valor agregado que esta representado en el dominio de
rastreo y dependiendo del segundo valor agregado que esta representado en el dominio de rastreo.
[0170] De acuerdo con un ejemplo, la primera unidad de agregacion puede estar, por ejemplo, configurada
para determinar el primer valor agregado de modo que el primer valor agregado indica una media cuadratica de la 5 primera porcion de senal de audio o de una senal derivada de la primera porcion de senal de audio. Ademas, la segunda unidad de agregacion puede estar, por ejemplo, configurada para determinar el segundo valor agregado de modo que el segundo valor agregado indica a media cuadratica de la segunda porcion de senal de audio o de una senal derivada de la segunda porcion de senal de audio.
10 [0171] En un ejemplo, la unidad de transformada puede estar, por ejemplo, configurada para transformar el
valor derivado de la segunda porcion de senal de audio desde el segundo dominio hasta el dominio de rastreo aplicando un valor de ganancia sobre el valor derivado de la segunda porcion de senal de audio. De acuerdo con ejemplos, el valor de ganancia puede indicar, por ejemplo, una ganancia introducida por slntesis de codificacion predictiva lineal, o el valor de ganancia puede indicar, por ejemplo, una ganancia introducida por slntesis y 15 desenfasis de codificacion predictiva lineal.
[0172] En un ejemplo, la unidad de rastreo del nivel de ruido puede estar, por ejemplo, configurada para
determinar informacion sobre el nivel de ruido aplicando un enfoque de estadlstica minima.
20 [0173] De acuerdo con un ejemplo, la unidad de rastreo del nivel de ruido puede estar, por ejemplo,
configurada para determinar un nivel de ruido de confort como la informacion sobre el nivel de ruido. La unidad de reconstruction puede estar, por ejemplo, configurada para reconstruir la tercera porcion de senal de audio dependiendo de la informacion sobre el nivel de ruido, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora, pero esta alterada.
25
[0174] En un ejemplo, la unidad de rastreo del nivel de ruido puede estar, por ejemplo, configurada para determinar un nivel de ruido de confort como la informacion sobre el nivel de ruido derivada de un espectro del nivel de ruido, en la que dicho espectro del nivel de ruido se obtiene aplicando el enfoque de estadlstica minima. La unidad de reconstruccion puede estar, por ejemplo, configurada para reconstruir la tercera porcion de senal de audio
30 dependiendo de una pluralidad de Coeficientes predictivos lineales, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora, pero esta alterada.
[0175] De acuerdo con otro ejemplo, la unidad de rastreo del nivel de ruido puede estar, por ejemplo, 35 configurada para determinar una pluralidad de coeficientes predictivos lineales que indican un nivel de ruido de
confort como la informacion sobre el nivel de ruido, y la unidad de reconstruccion puede estar, por ejemplo, configurada para reconstruir la tercera porcion de senal de audio dependiendo de la pluralidad de coeficientes predictivos lineales.
40 [0176] En un ejemplo, la unidad de rastreo del nivel de ruido esta configurada para determinar una pluralidad
de coeficientes de FFT que indican un nivel de ruido de confort como la informacion sobre el nivel de ruido, y la primera unidad de reconstruccion esta configurada para reconstruir la tercera porcion de senal de audio dependiendo de un nivel de ruido de confort derivado de dichos coeficientes de FFT, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz 45 receptora pero esta alterada.
[0177] En un ejemplo, la unidad de reconstruccion puede estar, por ejemplo, configurada para reconstruir la tercera porcion de senal de audio dependiendo de la informacion sobre el nivel de ruido y dependiendo de la primera porcion de senal de audio, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o
50 si dicha tercera trama es recibida por la interfaz receptora, pero esta alterada.
[0178] De acuerdo con un ejemplo, la unidad de reconstruccion puede estar, por ejemplo, configurada para reconstruir la tercera porcion de senal de audio atenuando o amplificando una senal derivada de la primera o la segunda porcion de senal de audio.
55
[0179] En un ejemplo, el aparato puede comprender, por ejemplo, ademas una unidad de prediction a largo plazo que comprende un bufer de retardo. Ademas, la unidad de prediccion a largo plazo puede estar configurada, por ejemplo, para generar una senal procesada dependiendo de la primera o la segunda porcion de senal de audio, dependiendo de una entrada del bufer de retardo que se almacena en el bufer de retardo y dependiendo de una
ganancia de prediction a largo plazo. Ademas, la unidad de prediction a largo plazo configurada para desvanecer la ganancia de prediccion a largo plazo hacia cero, si pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama receptora, pero esta alterada.
5
[0180] De acuerdo con un ejemplo, la unidad de prediccion a largo plazo puede estar, por ejemplo,
configurada para desvanecer la ganancia de prediccion a largo plazo hacia cero, en la que una velocidad con la que la ganancia de prediccion a largo plazo se desvanece a cero depende de un factor de desvanecimiento.
10 [0181] En un ejemplo, la unidad de prediccion a largo plazo puede estar, por ejemplo, configurada para
actualizar la entrada del bufer de retardo almacenando la senal procesada generada en el bufer de retardo, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora, pero esta alterada.
15 [0182] De acuerdo con un ejemplo, la unidad de transformada puede ser, por ejemplo, una primera unidad de
transformada, y la unidad de reconstruction es una primera unidad de reconstruction. El aparato comprende ademas una segunda unidad de transformada y una segunda unidad de reconstruccion. La segunda unidad de transformada puede estar, por ejemplo, configurada para transformar la information sobre el nivel de ruido desde el dominio de rastreo hasta el segundo dominio, si una cuarta trama de la pluralidad de tramas no es recibida por la 20 interfaz receptora o si dicha cuarta trama es recibida por la interfaz receptora, pero esta alterada. Ademas, la segunda unidad de reconstruccion puede estar, por ejemplo, configurada para reconstruir una cuarta portion de senal de audio de la senal de audio dependiendo de la informacion sobre el nivel de ruido que esta representada en el segundo dominio si dicha cuarta trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha cuarta trama es recibida por la interfaz receptora, pero esta alterada.
25
[0183] En un ejemplo, la segunda unidad de reconstruccion puede estar, por ejemplo, configurada para
reconstruir la cuarta porcion de senal de audio dependiendo de la informacion sobre el nivel de ruido y dependiendo de la segunda porcion de senal de audio.
30 [0184] De acuerdo con un ejemplo, la segunda unidad de reconstruccion puede estar, por ejemplo,
configurada para reconstruir la cuarta porcion de senal de audio atenuando o amplificando una senal derivada de la primera o la segunda porcion de senal de audio.
[0185] Ademas, se proporciona un procedimiento para decodificar una senal de audio.
35
[0186] El procedimiento comprende:
- Recibir una primera trama de una pluralidad de tramas, comprendiendo dicha primera trama una primera porcion de senal de audio de la senal de audio, estando dicha primera porcion de senal de audio representada
40 en un primer dominio.
- Recibir una segunda trama de la pluralidad de tramas, comprendiendo dicha segunda trama una segunda porcion de senal de audio de la senal de audio.
45 - Transformar la segunda porcion de senal de audio o un valor o senal derivada de la segunda porcion de senal
de audio desde un segundo dominio hasta un dominio de rastreo para obtener una informacion de segunda porcion de senal, en la que el segundo dominio es diferente del primer dominio, en la que el dominio de rastreo es diferente del segundo dominio, y en el que el dominio de rastreo es igual a o diferente del primer dominio.
50 - Determinar informacion sobre el nivel de ruido dependiendo de informacion de primera porcion de senal, que
esta representada en el dominio de rastreo, y dependiendo de la informacion de segunda porcion de senal que esta representada en el dominio de rastreo, en la que la informacion de primera porcion de senal depende de la primera porcion de senal de audio. Y:
55 - Reconstruir una tercera porcion de senal de audio de la senal de audio dependiendo de la informacion sobre el
nivel de ruido que esta representada en el dominio de rastreo, si una tercera trama de la pluralidad de tramas no es recibida o si dicha tercera trama es recibida, pero esta alterada.
[0187] Ademas, se proporciona un programa informatico para implementar el procedimiento descrito
puede estar, por ejemplo, dicha tercera trama de la es recibida por la interfaz
anteriormente cuando es ejecutado en un ordenador o un procesador de senales.
[0188] Algunos de los ejemplos proporcionan un parametro de suavizado que varla con el tiempo de modo que las capacidades de rastreo del periodograma suavizado y su varianza esten mejor equilibradas, para desarrollar
5 un algoritmo para compensacion de sesgo, y para acelerar el rastreo de ruido en general.
[0189] Los ejemplos se basan en el descubrimiento de que, con respecto al desvanecimiento, los siguientes parametros son de interes: el dominio de desvanecimiento; la velocidad de desvanecimiento, o, mas general, curva de desvanecimiento; el nivel diana del desvanecimiento; la forma espectral diana del desvanecimiento; y/o el rastreo
10 del nivel de ruido de fondo. En este contexto, los ejemplos se basan en el descubrimiento de que la tecnica anterior presenta desventajas significativas.
[0190] Se proporciona un aparato y un procedimiento para desvanecimiento de senales mejorado para sistemas de codificacion de audio conmutados durante el ocultamiento de errores.
15
[0191] Ademas, se proporciona un programa informatico para implementar el procedimiento descrito anteriormente cuando es ejecutado en un ordenador o un procesador de senales.
[0192] Los ejemplos realizan un desvanecimiento al nivel de ruido de confort. De acuerdo con ejemplos, se 20 realiza un rastreo del nivel de ruido de confort comun en el dominio de excitacion. El nivel de ruido de confort que es
la diana durante la perdida de paquetes en rafagas sera el mismo, independientemente del codificador de nucleo (ACELP/TCX) en uso, y siempre esta actualizado. No existe tecnica anterior conocida, donde un rastreo del nivel de ruido comun es necesario. Los ejemplos proporcionan el desvanecimiento de un codec conmutado a una senal de tipo ruido de confort durante perdidas de paquetes en rafagas.
25
[0193] Ademas, los ejemplos realizan que la complejidad global sera mas baja en comparacion con tener dos modulos de rastreo del nivel de ruido independientes, dado que las funciones (PROM) y memoria pueden compartirse.
30 [0194] En los ejemplos, la derivacion de nivel en el dominio de excitacion (en comparacion con la derivacion
de nivel en el dominio temporal) proporciona mas mlnimos durante la voz activa, dado que parte de la informacion de voz esta cubierta por los coeficientes de LP.
[0195] En el caso de ACELP, de acuerdo con ejemplos, la derivacion de nivel tiene lugar en el dominio de 35 excitacion. En el caso de TCX, en los ejemplos, el nivel se deriva en el dominio temporal, y la ganancia de la slntesis
y desenfasis de LPC se aplica como un factor de correccion con el fin de modelar el nivel de energla en el dominio de excitacion. Rastrear el nivel en el dominio de excitacion, por ejemplo, antes de la FDNS, teoricamente tambien serla posible, pero la compensacion de nivel entre el dominio de excitacion de TCX y el dominio de excitacion de ACELP se considera bastante compleja.
40
[0196] Ninguna tecnica anterior incorpora dicho rastreo de nivel de fondo comun en diferentes dominios. Las tecnicas de la tecnica anterior no tienen dicho rastreo del nivel de ruido de confort comun, por ejemplo, en el dominio de excitacion, en un sistema de codec conmutado. Por lo tanto, los ejemplos son ventajosos respecto a la tecnica anterior, puesto que para las tecnicas de la tecnica anterior, el nivel de ruido de confort que es diana durante
45 perdidas de paquetes en rafagas puede ser diferente, dependiendo del modo de codificacion precedente (ACELP/TCX), donde el nivel fue rastreado; como en la tecnica anterior, siendo el rastreo independiente para cada modo de codificacion causara complejidad computacional adicional y sobrecarga innecesaria; y dado que en la tecnica anterior, podrla no haber disponible ningun nivel de ruido de confort actualizado en ningun nucleo debido a reciente conmutacion a este nucleo.
50
[0197] De acuerdo con algunos ejemplos, el rastreo de nivel se lleva a cabo en el dominio de excitacion, pero el desvanecimiento de TCX se lleva a cabo en el dominio temporal. Mediante desvanecimiento en el dominio temporal, se evitan fallos de la TDAC, que causarlan solapamiento sucesivo. Esto se vuelve de particular interes cuando se ocultan componentes de senal tonal. Ademas, se evita la conversion de nivel entre el dominio de
55 excitacion de ACELP y el dominio espectral de MDCT y de este modo, por ejemplo, se ahorran recursos de computacion. Debido a la conmutacion entre el dominio de excitacion y el dominio temporal, se requiere un ajuste de nivel entre el dominio de excitacion y el dominio temporal. Esto se resuelve mediante la derivacion de la ganancia que serla introducida por la slntesis de LPC y el preenfasis y para para usar esta ganancia como un factor de correccion para convertir el nivel entre los dos dominios.
[0198] En contraste, las tecnicas de la tecnica anterior no llevan a cabo rastreo de nivel en el dominio de excitacion y desvanecimiento de TCX en el dominio temporal. Respecto a codecs basados en transformada del estado de la tecnica, el factor de atenuacion se aplica bien en el dominio de excitacion (para enfoques de
5 ocultamiento de tipo dominio temporal/ACELP, vease [3GP09a]) o bien en el dominio de frecuencia (para enfoques de dominio de frecuencia como repeticion de tramas o sustitucion de ruido, vease [LS01]). Una desventaja del enfoque de la tecnica anterior para aplicar el factor de atenuacion en el dominio de frecuencia es que se causara solapamiento sucesivo en la region de superposition y adicion en el dominio temporal. Este sera el caso para tramas adyacentes a las que se aplican factores de atenuacion diferentes, dado que el proceso de desvanecimiento hace
10 que la TDAC (cancelation del solapamiento sucesivo en el dominio temporal) falle. Esto es particularmente relevante cuando se ocultan componentes de senal tonal. Los ejemplos mencionados anteriormente son, por lo tanto, ventajosos respecto a la tecnica anterior.
[0199] Los ejemplos compensan la influencia del filtro de paso alto sobre la ganancia de la slntesis de LPC.
15 De acuerdo con ejemplos, para compensar el cambio de ganancia no deseado del analisis y enfasis de LPC
causados por la excitacion sin voz filtrada por paso alto, se deriva un factor de correction. Este factor de correction tiene en cuenta este cambio de ganancia no deseado y modifica el nivel de ruido de confort diana en el dominio de excitacion de modo que se alcance el nivel diana correcto en el dominio temporal.
20 [0200] En contraste, la tecnica anterior, por ejemplo, G.718 [ITU08a], presenta un filtro de paso alto en la
trayectoria de senal de la excitacion sin voz, tal como se representa en la figura 2, si la senal de la ultima trama buena no se clasifico como SIN VOZ. Mediante esto, las tecnicas de la tecnica anterior causan efectos secundarios no deseados, dado que la ganancia de la slntesis de LPC posterior depende de las caracterlsticas de senal, que son alteradas por este filtro de paso alto. Dado que el nivel de fondo es rastreado y aplicado en el dominio de excitacion,
25 el algoritmo depende de la ganancia de la slntesis de LPC, que, a su vez, depende e nuevo de las caracterlsticas de la senal de excitacion. En otras palabras: la modification de las caracterlsticas de senal de la excitacion debido a la filtration de paso alto, tal como se lleva a cabo por la tecnica anterior, podrla conducir a una ganancia modificada (habitualmente reducida) de la slntesis de LPC. Esto causa un nivel de salida erroneo incluso aunque el nivel de excitacion sea correcto.
30
[0201] Los ejemplos superan estas desventajas de la tecnica anterior.
[0202] En particular, ejemplos realizan una forma espectral adaptativa de ruido de confort. En contraste con G.718, rastrando la forma espectral del ruido de fondo, y aplicando (desvaneciendo a) esta forma durante las
35 perdidas de paquetes en rafagas, la caracterlstica de ruido del ruido de fondo precedente coincidira, causando una caracterlstica de ruido agradable del ruido de confort. Esto evita no coincidencias demasiado evidentes de la forma espectral que pueden introducirse usando una envoltura espectral que se derivo mediante capacitacion fuera de llnea y/o la forma espectral de las ultimas tramas recibidas.
40 [0203] Ademas, se proporciona un aparato para decodificar una senal de audio. El aparato comprende una
interfaz receptora, en la que la interfaz receptora esta configurada para recibir una primera trama que comprende una primera portion de senal de audio de la senal de audio, y en la que la interfaz receptora esta configurada para recibir una segunda trama que comprende una segunda porcion de senal de audio de la senal de audio.
45 [0204] Ademas, el aparato comprende una unidad de rastreo del nivel de ruido, en la que la unidad de rastreo
del nivel de ruido esta configurada para determinar information sobre el nivel de ruido dependiendo de al menos una de la primera porcion de senal de audio y la segunda porcion de senal de audio (esto significa: dependiendo de la primera porcion de senal de audio y/o la segunda porcion de senal de audio), en la que la informacion sobre el nivel de ruido esta representada en un dominio de rastreo.
50
[0205] Ademas, el aparato comprende una primera unidad de reconstruction para reconstruir, en un primer dominio de reconstruccion, una tercera porcion de senal de audio de la senal de audio dependiendo de la informacion sobre el nivel de ruido, si una tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora pero esta alterada, en la que el primer dominio
55 de reconstruccion es diferente de o igual al dominio de rastreo.
[0206] Ademas, el aparato comprende una unidad de transformada para transformar la informacion sobre el nivel de ruido desde el dominio de rastreo hasta un segundo dominio de reconstruccion, si una cuarta trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha cuarta trama es recibida por la interfaz
receptora pero esta alterada, en la que el segundo dominio de reconstruction es diferente del dominio de rastreo, y en la que el segundo dominio de reconstruccion es diferente del primer dominio de reconstruccion, y
[0207] Ademas, el aparato comprende una segunda unidad de reconstruccion para reconstruir, en el segundo
5 dominio de reconstruccion, una cuarta portion de senal de audio de la senal de audio dependiendo de la information sobre el nivel de ruido que esta representada en el segundo dominio de reconstruccion, si dicha cuarta trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha cuarta trama es recibida por la interfaz receptora, pero esta alterada.
10 [0208] De acuerdo con algunos ejemplos, el dominio de rastreo puede ser, por ejemplo, aquel en el que el
dominio de rastreo es un dominio temporal, un dominio espectral, un dominio de FFT, un dominio de MDCT o un dominio de excitation. El primer dominio de reconstruccion puede ser, por ejemplo, el dominio temporal, el dominio espectral, el dominio de FFT, el dominio de MDCT o el dominio de excitacion. El segundo dominio de reconstruccion puede ser, por ejemplo, el dominio temporal, el dominio espectral, el dominio de FFT, el dominio de MDCT o el
15 dominio de excitacion.
[0209] En un ejemplo, el dominio de rastreo puede ser, por ejemplo, el dominio de FFT, el primer dominio de reconstruccion puede ser, por ejemplo, el dominio temporal, y el segundo dominio de reconstruccion puede ser, por ejemplo, el dominio de excitacion.
20
[0210] En otro ejemplo, el dominio de rastreo puede ser, por ejemplo, el dominio temporal, el primer dominio de reconstruccion puede ser, por ejemplo, el dominio temporal, y el segundo dominio de reconstruccion puede ser, por ejemplo, el dominio de excitacion.
25 [0211] De acuerdo con un ejemplo, dicha primera porcion de senal de audio puede estar, por ejemplo,
representada en un primer dominio de entrada, y dicha segunda porcion de senal de audio puede estar, por ejemplo, representada en un segundo dominio de entrada. La unidad de transformada puede ser, por ejemplo, una segunda unidad de transformada. El aparato puede comprender, por ejemplo, ademas una primera unidad de transformada para transformar la segunda porcion de senal de audio o un valor o senal derivada de la segunda porcion de senal
30 de audio desde el segundo dominio de entrada hasta el dominio de rastreo para obtener una informacion de segunda porcion de senal. La unidad de rastreo del nivel de ruido puede estar, por ejemplo, configurada para recibir una informacion de primera porcion de senal que esta representada en el dominio de rastreo, en la que la informacion de primera porcion de senal depende de la primera porcion de senal de audio, en la que la unidad de rastreo del nivel de ruido esta configurada para recibir la segunda porcion de senal que esta representada en el
35 dominio de rastreo, y en la que la unidad de rastreo del nivel de ruido esta configurada para determinar la informacion sobre el nivel de ruido dependiendo de la informacion de primera porcion de senal que esta representada en el dominio de rastreo y dependiendo de la informacion de segunda porcion de senal que esta representada en el dominio de rastreo.
40 [0212] De acuerdo con un ejemplo, el primer dominio de entrada puede ser, por ejemplo, el dominio de
excitacion, y el segundo dominio de entrada puede ser, por ejemplo, el dominio de MDCT.
[0213] En otro ejemplo, el primer dominio de entrada puede ser, por ejemplo, el dominio de MDCT, y en el que el segundo dominio de entrada puede ser, por ejemplo, el dominio de MDCT.
45
[0214] De acuerdo con un ejemplo, la primera unidad de reconstruccion puede estar, por ejemplo, configurada para reconstruir la tercera porcion de senal de audio llevando a cabo un primer desvanecimiento a un espectro de tipo ruido. La segunda unidad de reconstruccion puede estar, por ejemplo, configurada para reconstruir la cuarta porcion de senal de audio llevando a cabo un segundo desvanecimiento a un espectro de tipo ruido y/o un
50 segundo desvanecimiento de una ganancia de LTP. Ademas, la primera unidad de reconstruccion y la segunda unidad de reconstruccion puede estar, por ejemplo, configurada para llevar a cabo el primer desvanecimiento y el segundo desvanecimiento a un espectro de tipo ruido y/o un segundo desvanecimiento de una ganancia de LTP con la misma velocidad de desvanecimiento.
55 [0215] En un ejemplo, el aparato puede comprender, por ejemplo, ademas una primera unidad de agregacion
para determinar un primer valor agregado dependiendo de la primera porcion de senal de audio. Ademas, el aparato puede comprender, por ejemplo, ademas una segunda unidad de agregacion para determinar, dependiendo de la segunda porcion de senal de audio, un segundo valor agregado como el valor derivado de la segunda porcion de senal de audio. La unidad de rastreo del nivel de ruido puede estar, por ejemplo, configurada para recibir el primer
valor agregado como la informacion de primera porcion de senal que esta representada en el dominio de rastreo, en la que la unidad de rastreo del nivel de ruido puede estar, por ejemplo, configurada para recibir el segundo valor agregado como la informacion de segunda porcion de senal que esta representada en el dominio de rastreo, y en la que la unidad de rastreo del nivel de ruido esta configurada para determinar la informacion sobre el nivel de ruido 5 dependiendo del primer valor agregado que esta representado en el dominio de rastreo y dependiendo del segundo valor agregado que esta representado en el dominio de rastreo.
[0216] De acuerdo con un ejemplo, la primera unidad de agregacion puede estar, por ejemplo, configurada
para determinar el primer valor agregado de modo que el primer valor agregado indica una media cuadratica de la 10 primera porcion de senal de audio o de una senal derivada de la primera porcion de senal de audio. La segunda unidad de agregacion esta configurada para determinar el segundo valor agregado de modo que el segundo valor agregado indica una media cuadratica de la segunda porcion de senal de audio o de una senal derivada de la segunda porcion de senal de audio.
15 [0217] En un ejemplo, la primera unidad de transformada puede estar, por ejemplo, configurada para
transformar el valor derivado de la segunda porcion de senal de audio desde el segundo dominio de entrada hasta el dominio de rastreo aplicando un valor de ganancia sobre el valor derivado de la segunda porcion de senal de audio.
[0218] De acuerdo con un ejemplo, el valor de ganancia puede indicar, por ejemplo, una ganancia introducida 20 por slntesis de codificacion predictiva lineal, o en el que el valor de ganancia indica una ganancia introducida por
slntesis y desenfasis de codificacion predictiva lineal.
[0219] En un ejemplo, la unidad de rastreo del nivel de ruido puede estar, por ejemplo, configurada para determinar la informacion sobre el nivel de ruido aplicando un enfoque de estadlstica minima.
25
[0220] De acuerdo con un ejemplo, la unidad de rastreo del nivel de ruido puede estar, por ejemplo, configurada para determinar un nivel de ruido de confort como la informacion sobre el nivel de ruido. La unidad de reconstruction puede estar, por ejemplo, configurada para reconstruir la tercera porcion de senal de audio dependiendo de la informacion sobre el nivel de ruido, si dicha tercera trama de la pluralidad de tramas no es
30 recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora, pero esta alterada.
[0221] En un ejemplo, la unidad de rastreo del nivel de ruido puede estar, por ejemplo, configurada para determinar un nivel de ruido de confort como la informacion sobre el nivel de ruido derivada de un espectro del nivel de ruido, en la que dicho espectro del nivel de ruido se obtiene aplicando el enfoque de estadlstica minima. La
35 unidad de reconstruccion puede estar, por ejemplo, configurada para reconstruir la tercera porcion de senal de audio dependiendo de una pluralidad de coeficientes predictivos lineales, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora, pero esta alterada.
40 [0222] De acuerdo con un ejemplo, la primera unidad de reconstruccion puede estar, por ejemplo,
configurada para reconstruir la tercera porcion de senal de audio dependiendo de la informacion sobre el nivel de ruido y dependiendo de la primera porcion de senal de audio, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora, pero esta alterada.
45 [0223] En un ejemplo, la primera unidad de reconstruccion puede estar, por ejemplo, configurada para
reconstruir la tercera porcion de senal de audio atenuando o amplificando la primera porcion de senal de audio.
[0224] De acuerdo con un ejemplo, la segunda unidad de reconstruccion puede estar, por ejemplo,
configurada para reconstruir la cuarta porcion de senal de audio dependiendo de la informacion sobre el nivel de
50 ruido y dependiendo de la segunda porcion de senal de audio.
[0225] En un ejemplo, la segunda unidad de reconstruccion puede estar, por ejemplo, configurada para reconstruir la cuarta porcion de senal de audio atenuando o amplificando la segunda porcion de senal de audio.
55 [0226] De acuerdo con un ejemplo, el aparato puede comprender, por ejemplo, ademas una unidad de
prediction a largo plazo que comprende un bufer de retardo, en la que la unidad de prediction a largo plazo puede estar, por ejemplo, configurada para generar una senal procesada dependiendo de la primera o la segunda porcion de senal de audio, dependiendo de una entrada del bufer de retardo que se almacena en el bufer de retardo y dependiendo de una ganancia de prediccion a largo plazo, y en la que la unidad de prediccion a largo plazo esta
configurada para desvanecer la ganancia de prediccion a largo plazo hacia cero, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora pero esta alterada.
5 [0227] En un ejemplo, la unidad de prediccion a largo plazo puede estar, por ejemplo, configurada para
desvanecer la ganancia de prediccion a largo plazo hacia cero, en la que una velocidad con la que la ganancia de prediccion a largo plazo se desvanece a cero depende de un factor de desvanecimiento.
[0228] En un ejemplo, la unidad de prediccion a largo plazo puede estar, por ejemplo, configurada para 10 actualizar la entrada del bufer de retardo almacenando la senal procesada generada en el bufer de retardo, si dicha
tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora, pero esta alterada.
[0229] Ademas, se proporciona un procedimiento para decodificar una senal de audio. El procedimiento 15 comprende:
- Recibir una primera trama que comprende una primera porcion de senal de audio de la senal de audio, y recibir una segunda trama que comprende una segunda porcion de senal de audio de la senal de audio.
20 - Determinar informacion sobre el nivel de ruido dependiendo de al menos una de la primera porcion de senal de
audio y la segunda porcion de senal de audio, en la que la informacion sobre el nivel de ruido esta representada en un dominio de rastreo.
- Reconstruir, en un primer dominio de reconstruccion, una tercera porcion de senal de audio de la senal de 25 audio dependiendo de la informacion sobre el nivel de ruido, si una tercera trama de la pluralidad de tramas no
es recibida o si dicha tercera trama es recibida, pero esta alterada, en la que el primer dominio de reconstruccion es diferente de o igual al dominio de rastreo.
- Transformar la informacion sobre el nivel de ruido desde el dominio de rastreo hasta un segundo dominio de 30 reconstruccion, si una cuarta trama de la pluralidad de tramas no es recibida o si dicha cuarta trama es recibida,
pero esta alterada, en la que el segundo dominio de reconstruccion es diferente del dominio de rastreo, y en el que el segundo dominio de reconstruccion es diferente del primer dominio de reconstruccion. Y:
- Reconstruir, en el segundo dominio de reconstruccion, una cuarta porcion de senal de audio de la senal de 35 audio dependiendo de la informacion sobre el nivel de ruido que esta representada en el segundo dominio de
reconstruccion, si dicha cuarta trama de la pluralidad de tramas no es recibida o si dicha cuarta trama es recibida, pero esta alterada.
[0230] Ademas, se proporciona un programa informatico para implementar el procedimiento descrito 40 anteriormente cuando es ejecutado en un ordenador o un procesador de senales.
[0231] Ademas, se proporciona un aparato para decodificar una senal de audio codificada para obtener una senal de audio reconstruida. El aparato comprende una interfaz receptora para recibir una o mas tramas, un generador de coeficientes, y un reconstructor de senales. El generador de coeficientes esta configurado para
45 determinar, si una trama actual de las una o mas tramas es recibida por la interfaz receptora y si la trama actual que es recibida por la interfaz receptora no esta alterada, uno o mas primeros coeficientes de senal de audio, que estan compuestos por la trama actual, en el que dichos uno o mas primeros coeficientes de senal de audio indican una caracterlstica de la senal de audio codificada, y uno o mas coeficientes de ruido que indican un ruido de fondo de la senal de audio codificada. Ademas, el generador de coeficientes esta configurado para generar uno o mas segundos 50 coeficientes de senal de audio, dependiendo de los uno o mas primeros coeficientes de senal de audio y dependiendo de los uno o mas coeficientes de ruido, si la trama actual no es recibida por la interfaz receptora o si la trama actual que es recibida por la interfaz receptora esta alterada. El reconstructor de senales de audio esta configurado para reconstruir una primera porcion de la senal de audio reconstruida dependiendo de los uno o mas primeros coeficientes de senal de audio, si la trama actual es recibida por la interfaz receptora y si la trama actual 55 que es recibida por la interfaz receptora no esta alterada. Ademas, el reconstructor de senales de audio esta configurado para reconstruir una segunda porcion de la senal de audio reconstruida dependiendo de los uno o mas segundos coeficientes de senal de audio, si la trama actual no es recibida por la interfaz receptora o si la trama actual que es recibida por la interfaz receptora esta alterada.
[0232] En algunos ejemplos, los uno o mas primeros coeficientes de senal de audio pueden ser, por ejemplo, uno o mas coeficientes de filtro predictivo lineal de la senal de audio codificada. En algunos ejemplos, los uno o mas primeros coeficientes de senal de audio pueden ser, por ejemplo, uno o mas coeficientes de filtro predictivo lineal de la senal de audio codificada.
5
[0233] De acuerdo con un ejemplo, los uno o mas coeficientes de ruido pueden ser, por ejemplo, uno o mas coeficientes de filtro predictivo lineal que indican el ruido de fondo de la senal de audio codificada. En un ejemplo, los uno o mas coeficientes de filtro predictivo lineal pueden representar, por ejemplo, una forma espectral del ruido de fondo.
10
[0234] En un ejemplo, el generador de coeficientes puede estar, por ejemplo, configurado para determinar las una o mas segundas porciones de senal de audio de modo que las una o mas segundas porciones de senal de audio sean uno o mas coeficientes de filtro predictivo lineal de la senal de audio reconstruida, o de modo que los uno o mas primeros coeficientes de senal de audio sean uno o mas pares espectrales de inmitancia de la senal de audio
15 reconstruida.
[0235] De acuerdo con un ejemplo, el generador de coeficientes puede estar configurado, por ejemplo, para generar los uno o mas segundos coeficientes de senal de audio aplicando la formula:
20 fcurrent = G ' flast-ij "7“ (1 g) • ptmean [*]
en la que fcurrent[i] indica uno de los uno o mas segundos coeficientes de senal de audio, en la que fias/[i] indica uno de los uno o mas primeros coeficientes de senal de audio, en la que ptmean[i] es uno de los uno o mas coeficientes de ruido, en la que a es un numero real con 0 < a < 1, y en la que i es un Indice. En un ejemplo, 0 < a < 1.
25
[0236] De acuerdo con un ejemplo, fiast[i] indica un coeficiente de filtro predictivo lineal de la senal de audio codificada, y en la que fcurrent[i] indica un coeficiente de filtro predictivo lineal de la senal de audio reconstruida.
[0237] En un ejemplo, ptmean[i] puede indicar, por ejemplo, el ruido de fondo de la senal de audio codificada.
30
[0238] En un ejemplo, el generador de coeficientes puede estar, por ejemplo, configurado para determinar, si la trama actual de las una o mas tramas es recibida por la interfaz receptora y si la trama actual que es recibida por la interfaz receptora no esta alterada, los uno o mas coeficientes de ruido determinando un espectro de ruido de la senal de audio codificada.
35
[0239] De acuerdo con un ejemplo, el generador de coeficientes puede estar, por ejemplo, configurado para determinar coeficientes de LPC que representan ruido de fondo usando un enfoque de estadlstica minima sobre el espectro de senal para determinar un espectro de ruido de fondo y calculando los coeficientes de LPC que representan la forma del ruido de fondo a partir del espectro de ruido de fondo.
40
[0240] Ademas, se proporciona un procedimiento para decodificar una senal de audio codificada para obtener una senal de audio reconstruida. El procedimiento comprende:
- Recibir una o mas tramas.
45
- Determinar, si una trama actual de las una o mas tramas es recibida y si la trama actual que es recibida no esta alterada, uno o mas primeros coeficientes de senal de audio, que estan compuestos por la trama actual, en los que uno o mas primeros coeficientes de senal de audio indican una caracterlstica de la senal de audio codificada, y uno o mas coeficientes de ruido que indican un ruido de fondo de la senal de audio codificada.
50
- Generar uno o mas segundos coeficientes de senal de audio, dependiendo de los uno o mas primeros coeficientes de senal de audio y dependiendo de los uno o mas coeficientes de ruido, si la trama actual no es recibida o si la trama actual que es recibida esta alterada.
55 - Reconstruir una primera porcion de la senal de audio reconstruida dependiendo de los uno o mas primeros
coeficientes de senal de audio, si la trama actual es recibida y si la trama actual que es recibida no esta alterada. Y:
- Reconstruir una segunda porcion de la senal de audio reconstruida dependiendo de los uno o mas segundos coeficientes de senal de audio, si la trama actual no es recibida o si la trama actual que es recibida esta alterada.
[0241] Ademas, se proporciona un programa informatico para implementar el procedimiento descrito 5 anteriormente cuando es ejecutado en un ordenador o un procesador de senales.
[0242] El tener medios comunes para rastrear y aplicar la forma espectral de ruido de confort durante el desvanecimiento presenta varias desventajas. Rastrear y aplicar la forma espectral de modo que pueda hacerse de forma similar para ambos codecs permite un enfoque comun sencillo. CELT ensena solamente el rastreo por bandas
10 de energlas en el dominio espectral y la formacion por bandas de la forma espectral en el dominio espectral, lo cual no es posible para el nucleo de CELP.
[0243] En contraste, en la tecnica anterior, la forma espectral del ruido de confort introducida durante perdidas de rafagas es bien completamente estatica, o bien parcialmente estatica y parcialmente adaptativa a la
15 media a corto plazo de la forma espectral (tal como se constata en G.718 [ITU08a]), y habitualmente no coincidira con el ruido de fondo en la senal antes de la perdida de paquetes. Esta no coincidencia de las caracterlsticas del ruido de confort podrla ser molesta. De acuerdo con la tecnica anterior, puede emplearse una forma de ruido de fondo capacitada (estatica) fuera de llnea que puede ser de sonido agradable para senales particulares, pero menos agradable para otras, por ejemplo, el ruido de un coche suena totalmente diferente del ruido de oficina.
20
[0244] Ademas, en la tecnica anterior, puede emplearse una adaptacion a la media a corto plazo de la forma espectral de las tramas recibidas previamente que podrla acercar las caracterlsticas de senal a la senal recibida antes, pero no necesariamente a las caracterlsticas del ruido de fondo. En la tecnica anterior, el rastreo de la forma espectral por bandas en el dominio espectral (tal como se constata en CELT [IET12]) no es aplicable para un codec
25 conmutado usando no solamente un nucleo basado en dominio de MDCT (TCX) sino tambien un nucleo basado en ACELP. Los ejemplos mencionados anteriormente son, por lo tanto, ventajoso respecto a la tecnica anterior.
[0245] Ademas, se proporciona un aparato para decodificar una senal de audio codificada para obtener una senal de audio reconstruida. El aparato comprende una interfaz receptora para recibir una pluralidad de tramas, un
30 bufer de retardo para almacenar muestras de senal de audio de la senal de audio decodificada, un selector de muestras para seleccionar una pluralidad de muestras de senal de audio seleccionadas a partir de las muestras de senal de audio que se almacenan en el bufer de retardo, y un procesador de muestras para procesar las muestras de senal de audio seleccionadas para obtener muestras de senal de audio reconstruida de la senal de audio reconstruida. El selector de muestras esta configurado para seleccionar, si una trama actual es recibida por la 35 interfaz receptora y si la trama actual que es recibida por la interfaz receptora no esta alterada, la pluralidad de muestras de senal de audio seleccionadas a partir de las muestras de senal de audio que se almacenan en el bufer de retardo dependiendo de una informacion de retraso de altura tonal que esta compuesta por la trama actual. Ademas, el selector de muestras esta configurado para seleccionar, si la trama actual no es recibida por la interfaz receptora o si la trama actual que es recibida por la interfaz receptora esta alterada, la pluralidad de muestras de 40 senal de audio seleccionadas a partir de las muestras de senal de audio que se almacenan en el bufer de retardo dependiendo de una informacion de retraso de altura tonal que esta compuesta por otra trama que es recibida previamente por la interfaz receptora.
[0246] De acuerdo con un ejemplo, el procesador de muestras puede estar, por ejemplo, configurada para 45 obtener las muestras de senal de audio reconstruida, si la trama actual es recibida por la interfaz receptora y si la
trama actual que es recibida por la interfaz receptora no esta alterada, sustituyendo la escala de las muestras de senal de audio seleccionadas dependiendo de la informacion de ganancia que esta compuesta por la trama actual. Ademas, el selector de muestras puede estar, por ejemplo, configurado para obtener las muestras de senal de audio reconstruida, si la trama actual no es recibida por la interfaz receptora o si la trama actual que es recibida por la 50 interfaz receptora esta alterada, sustituyendo la escala de las muestras de senal de audio seleccionadas dependiendo de la informacion de ganancia que estan compuestas por dicha otra trama que es recibida previamente por la interfaz receptora.
[0247] En un ejemplo, el procesador de muestras puede estar, por ejemplo, configurada para obtener las 55 muestras de senal de audio reconstruida, si la trama actual es recibida por la interfaz receptora y si la trama actual
que es recibida por la interfaz receptora no esta alterada, multiplicando las muestras de senal de audio seleccionadas y un valor que depende de la informacion de ganancia que esta compuesto por la trama actual. Ademas, el selector de muestras esta configurado para obtener las muestras de senal de audio reconstruida, si la trama actual no es recibida por la interfaz receptora o si la trama actual que es recibida por la interfaz receptora esta
alterada, multiplicando las muestras de senal de audio seleccionadas y un valor que depende de la informacion de ganancia que esta compuesta por dicha otra trama que es recibida previamente por la interfaz receptora.
[0248] De acuerdo con un ejemplo, el procesador de muestras puede estar, por ejemplo, configurado para 5 almacenar las muestras de senal de audio reconstruida en el bufer de retardo.
[0249] En un ejemplo, el procesador de muestras puede estar, por ejemplo, configurado para almacenar las muestras de senal de audio reconstruida en el bufer de retardo antes de que una trama adicional sea recibida por la interfaz receptora.
10
[0250] De acuerdo con un ejemplo, el procesador de muestras puede estar, por ejemplo, configurado para almacenar las muestras de senal de audio reconstruida en el bufer de retardo despues de que una trama adicional sea recibida por la interfaz receptora.
15 [0251] En un ejemplo, el procesador de muestras puede estar, por ejemplo, configurado para sustituir la
escala de las muestras de senal de audio seleccionadas dependiendo de la informacion de ganancia para obtener muestras de senal de audio con la escala sustituida y combinando las muestras de senal de audio con la escala sustituida con muestras de senal de audio de entrada para obtener las muestras de senal de audio procesadas.
20 [0252] De acuerdo con un ejemplo, el procesador de muestras puede estar, por ejemplo, configurado para
almacenar las muestras de senal de audio procesadas, que indican la combinacion de las muestras de senal de audio con la escala sustituida y las muestras de senal de audio de entrada, en el bufer de retardo, y para no almacenar las muestras de senal de audio con la escala sustituida en el bufer de retardo, si la trama actual es recibida por la interfaz receptora y si la trama actual que es recibida por la interfaz receptora no esta alterada. 25 Ademas, el procesador de muestras esta configurado para almacenar las muestras de senal de audio con la escala sustituida en el bufer de retardo y para no almacenar las muestras de senal de audio procesadas en el bufer de retardo, si la trama actual no es recibida por la interfaz receptora o si la trama actual que es recibida por la interfaz receptora esta alterada.
30 [0253] De acuerdo con otro ejemplo, el procesador de muestras puede estar, por ejemplo, configurado para
almacenar las muestras de senal de audio procesadas en el bufer de retardo, si la trama actual no es recibida por la interfaz receptora o si la trama actual que es recibida por la interfaz receptora esta alterada.
[0254] En un ejemplo, el selector de muestras puede estar, por ejemplo, configurado para obtener las 35 muestras de senal de audio reconstruida sustituyendo la escala de las muestras de senal de audio seleccionadas
dependiendo de una ganancia modificada, en el que la ganancia modificada se define de acuerdo con la formula:
gain = gain_past * damping;
40 en la que gain es la ganancia modificada, en la que el selector de muestras puede estar, por ejemplo, configurado para ajustar gain_past a la ganancia despues de gain y ha sido calculado, y en la que damping es un valor real.
[0255] De acuerdo con un ejemplo, el selector de muestras puede estar, por ejemplo, configurado para calcular la ganancia modificada.
45
[0256] En un ejemplo, el amortiguamiento puede definirse, por ejemplo, de acuerdo con: 0 < damping < 1.
[0257] De acuerdo con un ejemplo, la ganancia modificada puede ajustarse, por ejemplo, a cero, si al menos un numero predeterminado de tramas no ha sido recibido por la interfaz receptora desde que una trama ha sido
50 recibida la ultima por la interfaz receptora.
[0258] Ademas, se proporciona un procedimiento para decodificar una senal de audio codificada para obtener una senal de audio reconstruida. El procedimiento comprende:
55 - Recibir una pluralidad de tramas.
- Almacenar muestras de senal de audio de la senal de audio decodificada.
- Seleccionar una pluralidad de muestras de senal de audio seleccionadas a partir de las muestras de senal de
audio que se almacenan en el bufer de retardo. Y:
- Procesar las muestras de senal de audio seleccionadas para obtener muestras de senal de audio reconstruida de la senal de audio reconstruida.
5
[0259] Si una trama actual es recibida y si la trama actual que es recibida no esta alterada, se lleva a cabo la etapa de seleccionar la pluralidad de muestras de senal de audio seleccionadas a partir de las muestras de senal de audio que se almacenan en el bufer de retardo dependiendo de una informacion de retraso de altura tonal que esta compuesta por la trama actual. Ademas, si la trama actual no es recibida o si la trama actual que es recibida esta
10 alterada, se lleva a cabo la etapa de seleccionar la pluralidad de muestras de senal de audio seleccionadas a partir de las muestras de senal de audio que se almacenan en el bufer de retardo dependiendo de una informacion de retraso de altura tonal que esta compuesta por otra trama que es recibida previamente por la interfaz receptora.
[0260] Ademas, se proporciona un programa informatico para implementar el procedimiento descrito 15 anteriormente cuando es ejecutado en un ordenador o un procesador de senales.
[0261] Los ejemplos emplean LTP de TCX (LTP de TCX = prediccion a largo plazo de excitacion codificada por transformada). Durante el funcionamiento normal, la memoria de LTP de TCX se actualiza con la senal sintetizada, que contiene ruido y componentes tonales reconstruidos.
20
[0262] En lugar de inhabilitar la LTP de TCX durante el ocultamiento, su funcionamiento normal puede continuar durante el ocultamiento con los parametros recibidos en la ultima trama buena. Esto preserva la forma espectral de la senal, particularmente aquellos componentes tonales que son modelados por el filtro de LTP.
25 [0263] Ademas, los ejemplos desacoplan el bucle de retroalimentacion de LTP de TCX. Una simple
continuacion del funcionamiento de LTP de TCX normal introduce ruido adicional, dado que, con cada etapa de actualizacion, se introduce ruido generado aleatoriamente adicional a partir de la excitacion de LTP. Los componentes tonales se distorsionan, por lo tanto, cada vez mas a lo largo del tiempo por el ruido anadido.
30 [0264] Para superar esto, solamente se puede retroalimentar el bufer de LTP de TCX (sin anadir ruido), con
el fin de no contaminar la informacion tonal con ruido aleatorio no deseado.
[0265] Ademas, de acuerdo con ejemplos, la ganancia de LTP de TCX se desvanece a cero.
35 [0266] Estos ejemplos se basan en el descubrimiento de que continuar la LTP de TCX ayuda a preservar las
caracterlsticas de senal a corto plazo, pero presenta desventajas a largo plazo: la senal transmitida durante el ocultamiento incluira la informacion de voz/tonal que estaba presente precediendo a la perdida. Especialmente para voz limpia o voz sobre ruido de fondo, es extremadamente improbable que un tono o armonico decaiga muy lentamente durante un periodo muy prolongado. Continuando el funcionamiento de LTP de TCX durante el 40 ocultamiento, particularmente si la actualizacion de la memoria de LTP esta desacoplada (solo se retroalimentan componentes tonales y no la parte con mezcla de signos), la informacion de voz/tonal permanecera presente en la senal oculta para toda la perdida, que es atenuada solamente por el desvanecimiento global al nivel de ruido de confort. Ademas, es imposible alcanzar la envoltura de ruido de confort durante perdidas de paquetes en rafagas, si la LTP de TCX se aplica durante la perdida de rafagas sin ser atenuada a lo largo del tiempo, dado que la senal 45 incorporara siempre a continuacion la informacion de voz de la LTP.
[0267] Por lo tanto, la ganancia de LTP de TCX se desvanece hacia cero, de modo que los componentes tonales representados por la LTP se desvaneceran a cero, al mismo tiempo la senal se desvanece al nivel y la forma de la senal de fondo, y de modo que el desvanecimiento alcance la envoltura de fondo espectral (ruido de confort)
50 deseada sin incorporar componentes tonales no deseados.
[0268] En los ejemplos, se usa la misma velocidad de desvanecimiento para el desvanecimiento de la ganancia de LTP que para el desvanecimiento de ruido blanco.
55 [0269] En contraste, en la tecnica anterior, no hay ningun codec de transformada conocido que usa LTP
durante el ocultamiento. Para la LTP de MPEG-4 [ISO09] no existen enfoques de ocultamiento en la tecnica anterior. Otro codec basado en MDCT de la tecnica anterior que utiliza una LTP es CELT, pero este codec usa un ocultamiento de tipo ACELP para las cinco primeras tramas, y para todas las tramas posteriores se genera ruido de fondo, que no utiliza la LTP. Una desventaja de la tecnica anterior de no usar la LTP de TCX es que todos los
componentes tonales que estan siendo modelados con la LTP desaparecen abruptamente. Ademas, en codecs basados en ACELP de la tecnica anterior, el funcionamiento de LTP se prolonga durante el ocultamiento, y la ganancia del libro de codigos adaptativo se desvanece hacia cero. Con respecto al funcionamiento del bucle de retroalimentacion, la tecnica anterior emplea dos enfoques, bien la excitacion completa, por ejemplo, la suma de la 5 excitacion innovadora y la adaptativa, se retroalimenta (AMR-WB); o solamente la excitacion adaptativa actualizada, por ejemplo, las partes de senal tonal, se retroalimenta (G.718). Los ejemplos mencionados anteriormente superan las desventajas de la tecnica anterior.
[0270] En lo sucesivo, se describen ejemplos de la presente invencion con mas detalle con referencia a las 10 figuras, en las que:
La figura 1a ilustra un aparato para decodificar una senal de audio de acuerdo con una realizacion,
La figura 1b ilustra un aparato para decodificar una senal de audio de acuerdo con otra realizacion,
15
La figura 1c ilustra un aparato para decodificar una senal de audio de acuerdo con otra realizacion, en el que el aparato comprende ademas una primera y una segunda unidad de agregacion,
La figura 1d ilustra un aparato para decodificar una senal de audio de acuerdo con una realizacion adicional, en la 20 que el aparato comprende ademas una unidad de prediccion a largo plazo que comprende un bufer de retardo,
La figura 2 ilustra la estructura del decodificador de G.718,
La figura 3 representa un escenario, donde el factor de desvanecimiento de G.722 depende de informacion de clase, 25
La figura 4 muestra un enfoque para prediccion de amplitud usando regresion lineal,
La figura 5 ilustra el comportamiento de perdida de rafaga de la transformada superpuesta de energla restringida (CELT),
30
La figura 6 muestra un rastreo del nivel del ruido de fondo de acuerdo con una realizacion en el decodificador durante un modo de funcionamiento libre de errores,
La figura 7 ilustra la derivacion de ganancia de la slntesis y el desenfasis de LPC de acuerdo con una realizacion,
35
La figura 8 representa la aplicacion de nivel de ruido de confort durante la perdida de paquetes de acuerdo con una realizacion,
La figura 9 ilustra la compensacion de ganancia de paso alto avanzada durante ocultamiento de ACELP de acuerdo 40 con una realizacion,
La figura 10 representa el desacoplamiento del bucle de retroalimentacion de LTP durante el ocultamiento de acuerdo con una realizacion,
45 La figura 11 ilustra un aparato para decodificar una senal de audio codificada para obtener una senal reconstruida de acuerdo con una realizacion,
La figura 12 muestra un aparato para decodificar una senal de audio codificada para obtener una senal reconstruida de acuerdo con otra realizacion, y 50
La figura 13 ilustra un aparato para decodificar una senal de audio codificada para obtener una senal reconstruida una realizacion adicional, y
La figura 14 ilustra un aparato para decodificar una senal de audio codificada para obtener una senal 55 reconstruida de acuerdo con otra realizacion.
[0271] La figura 1a ilustra un aparato para decodificar una senal de audio de acuerdo con una realizacion.
[0272] El aparato comprende una interfaz receptora 110. La interfaz receptora esta configurada para recibir
de audio de audio de audio de audio
una pluralidad de tramas, en la que la interfaz receptora 110 esta configurada para recibir una primera trama de la pluralidad de tramas, comprendiendo dicha primera trama una primera porcion de senal de audio de la senal de audio, estando dicha primera porcion de senal de audio representada en un primer dominio. Ademas, la interfaz receptora 110 esta configurada para recibir una segunda trama de la pluralidad de tramas, comprendiendo dicha 5 segunda trama una segunda porcion de senal de audio de la senal de audio.
[0273] Ademas, el aparato comprende una unidad de transformada 120 para transformar la segunda porcion de senal de audio o un valor o senal derivada de la segunda porcion de senal de audio desde un segundo dominio hasta un dominio de rastreo para obtener una information de segunda porcion de senal, en la que el segundo
10 dominio es diferente del primer dominio, en la que el dominio de rastreo es diferente del segundo dominio, y en la que el dominio de rastreo es igual a o diferente del primer dominio.
[0274] Ademas, el aparato comprende una unidad de rastreo del nivel de ruido 130, en la que la unidad de rastreo del nivel de ruido esta configurada para recibir una informacion de primera porcion de senal que esta
15 representada en el dominio de rastreo, en la que la informacion de primera porcion de senal depende de la primera porcion de senal de audio, en la que la unidad de rastreo del nivel de ruido esta configurada para recibir la segunda porcion de senal que esta representada en el dominio de rastreo, y en la que la unidad de rastreo del nivel de ruido esta configurada para determinar informacion sobre el nivel de ruido dependiendo de la informacion de primera porcion de senal que esta representada en el dominio de rastreo y dependiendo de la informacion de segunda 20 porcion de senal que esta representada en el dominio de rastreo.
[0275] Ademas, el aparato comprende una unidad de reconstruction para reconstruir una tercera porcion de senal de audio de la senal de audio dependiendo de la informacion sobre el nivel de ruido, si una tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora, pero esta alterada.
25
[0276] Respecto a la primera y/o la segunda porcion de senal de audio, por ejemplo, la primera y/o la segunda porcion de senal de audio puede, por ejemplo, alimentarse a una o mas unidades de procesamiento (no mostradas) para generar una o mas senales de altavoz para uno o mas altavoces, de modo que la informacion de sonido recibida compuesta por la primera y/o la segunda porcion de senal de audio pueda ser reproducida.
30
[0277] Ademas, sin embargo, la primera y segunda porcion de senal de audio tambien se usan para ocultamiento, por ejemplo, en caso de que tramas posteriores no lleguen al receptor o en caso de que tramas posteriores sean erroneas.
35 [0278] Entre otras cosas, la presente invention se basa en el descubrimiento de que el rastreo del nivel de
ruido debe llevarse a cabo en un dominio comun, denominado en el presente documento "dominio de rastreo". El dominio de rastreo, puede ser, por ejemplo, un dominio de excitation, por ejemplo, el dominio en el que la senal esta representada por los LPC (LPC = coeficiente predictivo lineal) o por los ISP (ISP = par espectral de inmitancia) tal como se describe en AMR-WB y AMR-WB+ (vease [3GP12a], [3GP12b], [3GP09a], [3GP09b], [3GP09c]). El rastreo
40 del nivel de ruido en un unico dominio presenta, entre otras, la ventaja de que se evitan efectos de solapamiento
sucesivo cuando la senal conmuta entre una primera representation en un primer dominio y una segunda representation en un segundo dominio (por ejemplo, cuando la representacion de senal conmuta desde ACELP a TCX o viceversa).
45 [0279] Respecto a la unidad de transformada 120, que se transforma en bien la propia segunda porcion de
senal de audio o bien una senal derivada de la segunda porcion de senal de audio (por ejemplo, la segunda porcion de senal de audio ha sido procesada para obtener la senal derivada), o un valor derivado de la segunda porcion de
senal de audio (por ejemplo, la segunda porcion de senal de audio ha sido procesada para obtener el valor
derivado).
50
[0280] Respecto a la primera porcion de senal de audio, en algunas realizaciones, la primera porcion de senal de audio puede procesarse y/o transformarse en el dominio de rastreo.
[0281] En otras realizaciones, sin embargo, la primera porcion de senal de audio puede estar ya 55 representada en el dominio de rastreo.
[0282] En algunas realizaciones, la informacion de primera porcion de senal es identica a la primera porcion de senal de audio. En otras realizaciones, la informacion de primera porcion de senal es, por ejemplo, un valor agregado que depende de la primera porcion de senal de audio.
[0283] Ahora, en primer lugar, se considera un desvanecimiento a un nivel de ruido de confort con mas
detalle.
5 [0284] El enfoque de desvanecimiento descrito puede implementarse, por ejemplo, en una version de bajo
retardo de xHE-AAC [NMR+12] (xHE-AAC = AAC de alta eficiencia extendida), que es capaz de conmutar de forma ininterrumpida entre codificacion de ACELP (voz) y MDCT (musica/ruido) trata a trama.
[0285] Respecto al rastreo de nivel comun en un dominio de rastreo, por ejemplo, un dominio de excitacion,
10 para aplicar un desvanecimiento suave a un nivel de ruido de confort apropiado durante la perdida de paquetes, es necesario identificar dicho nivel de ruido de confort durante el proceso de decodificacion normal. Puede suponerse, por ejemplo, que un nivel de ruido similar al ruido de fondo es el mas confortable. Por lo tanto, el nivel de ruido de fondo puede derivarse y actualizarse constantemente durante la decodificacion normal.
15 [0286] La presente invencion se basa en el descubrimiento de que cuando se tiene un codec de nucleo
conmutado (por ejemplo, ACELP y TCX), considerar un nivel del ruido de fondo comun independiente del codificador de nucleo seleccionado es particularmente adecuado.
[0287] La figura 6 representa un rastreo del nivel del ruido de fondo de acuerdo con una realizacion preferida 20 en el decodificador durante el modo de funcionamiento libre de errores, por ejemplo, durante la decodificacion
normal.
[0288] El propio rastreo puede realizarse, por ejemplo, usando el enfoque de estadlstica minima (vease [Mar01]).
25
[0289] Este nivel del ruido de fondo rastreado puede considerarse, por ejemplo, como la information sobre el nivel de ruido mencionada anteriormente.
[0290] Por ejemplo, la estimation de ruido por estadlstica minima presentada en el documento: "Rainer 30 Martin, Noise power spectral density estimation based on optimal smoothing and minimum statistics, IEEE
Transactions on Speech and Audio Processing 9 (2001), no. 5, 504-512" [Mar01] puede emplearse para rastreo del nivel del ruido de fondo.
[0291] De manera correspondiente, en algunas realizaciones, la unidad de rastreo del nivel de ruido 130 esta 35 configurada para determinar informacion sobre el nivel de ruido aplicando un enfoque de estadlstica minima, por
ejemplo, empleando la estimacion de ruido por estadlstica minima de [Mar01].
[0292] Posteriormente, se describen algunas consideraciones y detalles de este enfoque de rastreo.
40 [0293] Respecto al rastreo de nivel, se supone que el fondo es de tipo ruido. Por lo tanto, es preferible
realizar el rastreo de nivel en el dominio de excitacion para evitar rastrear componentes tonales de primer plano que
son extraldos por LPC. Por ejemplo, el relleno de ruido de ACELP tambien puede emplear el nivel de ruido de fondo en el dominio de excitacion. Con rastreo en el dominio de excitacion, solamente un unico rastreo del nivel de ruido de fondo puede servir para dos fines, lo que ahorra complejidad computacional. En una realizacion preferida, el 45 rastreo se realiza en el dominio de excitacion de ACELP.
[0294] La figura 7 ilustra derivation de ganancia de slntesis y desenfasis de LPC de acuerdo con una
realizacion.
50 [0295] Respecto a la derivacion de nivel, la derivacion de nivel puede llevarse a cabo, por ejemplo, en el
dominio temporal o en el dominio de excitacion, o en cualquier otro dominio adecuado. Si los dominios para la
derivacion de nivel y el rastreo de nivel difieren, puede ser necesaria, por ejemplo, una compensation de ganancia.
[0296] En la realizacion preferida, la derivacion de nivel para ACELP se realiza en el dominio de excitacion. 55 Por lo tanto, no se requiere compensacion de ganancia.
[0297] Para TCX, puede ser necesaria, por ejemplo, una compensacion de ganancia para ajustar el nivel derivado al dominio de excitacion de ACELP.
[0298] En la realization preferida, la derivation de nivel para TCX tiene lugar en el dominio temporal. Para
este enfoque se descubrio una compensation de ganancia manejable: la ganancia introducida por sintesis y desenfasis de LPC se deriva tal como se muestra en la figura 7 y el nivel derivado se divide por esta ganancia.
5 [0299] Como alternativa, la derivacion de nivel para TCX podria realizarse en el dominio de excitation de
TCX. Sin embargo, la compensacion de ganancia entre el dominio de excitacion de TCX y el dominio de excitacion de ACELP se considero demasiado complicada.
[0300] Por lo tanto, volviendo a la figura 1a, en algunas realizaciones, la primera portion de senal de audio se 10 representa en un dominio temporal como el primer dominio. La unidad de transformada 120 esta configurada para
transformar la segunda porcion de senal de audio o el valor derivado de la segunda porcion de senal de audio desde un dominio de excitacion que es el segundo dominio hasta el dominio temporal que es el dominio de rastreo. En dichas realizaciones, la unidad de rastreo del nivel de ruido 130 esta configurada para recibir la information de primera porcion de senal que esta representada en el dominio temporal como el dominio de rastreo. Ademas, la 15 unidad de rastreo del nivel de ruido 130 esta configurada para recibir la segunda porcion de senal que esta representada en el dominio temporal como el dominio de rastreo.
[0301] En otras realizaciones, la primera porcion de senal de audio se representa en un dominio de excitacion como el primer dominio. La unidad de transformada 120 esta configurada para transformar la segunda porcion de
20 senal de audio o el valor derivado de la segunda porcion de senal de audio desde un dominio temporal que es el segundo dominio hasta el dominio de excitacion que es el dominio de rastreo. En dichas realizaciones, la unidad de rastreo del nivel de ruido 130 esta configurada para recibir la informacion de primera porcion de senal que esta representada en el dominio de excitacion como el dominio de rastreo. Ademas, la unidad de rastreo del nivel de ruido 130 esta configurada para recibir la segunda porcion de senal que esta representada en el dominio de 25 excitacion como el dominio de rastreo.
[0302] En una realizacion, la primera porcion de senal de audio puede estar, por ejemplo, representada en un dominio de excitacion como el primer dominio, en la que la unidad de rastreo del nivel de ruido 130 puede estar, por ejemplo, configurada para recibir la informacion de primera porcion de senal, en la que dicha informacion de primera
30 porcion de senal se representa en el dominio de FFT, que es el dominio de rastreo, y en la que dicha informacion de primera porcion de senal depende de dicha primera porcion de senal de audio que esta representada en el dominio de excitacion, en la que la unidad de transformada 120 puede estar, por ejemplo, configurada para transformar la segunda porcion de senal de audio o el valor derivado de la segunda porcion de senal de audio desde un dominio temporal que es el segundo dominio hasta un dominio de FFT que es el dominio de rastreo, y en la que la unidad de 35 rastreo del nivel de ruido 130 puede estar, por ejemplo, configurada para recibir la segunda porcion de senal de audio que esta representada en el dominio de FFT.
[0303] La figura 1b ilustra un aparato de acuerdo con otra realizacion. En la figura 1b, la unidad de transformada 120 de la figura 1a es una primera unidad de transformada 120, y la unidad de reconstruction 140 de
40 la figura 1a es una primera unidad de reconstruccion 140. El aparato comprende ademas una segunda unidad de transformada 121 y una segunda unidad de reconstruccion 141.
[0304] La segunda unidad de transformada 121 esta configurada para transformar la informacion sobre el nivel de ruido desde el dominio de rastreo hasta el segundo dominio, si una cuarta trama de la pluralidad de tramas
45 no es recibida por la interfaz receptora o si dicha cuarta trama es recibida por la interfaz receptora, pero esta alterada.
[0305] Ademas, la segunda unidad de reconstruccion 141 esta configurada para reconstruir una cuarta porcion de senal de audio de la senal de audio dependiendo de la informacion sobre el nivel de ruido que esta
50 representada en el segundo dominio si dicha cuarta trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha cuarta trama es recibida por la interfaz receptora, pero esta alterada.
[0306] La figura 1c ilustra un aparato para decodificar una senal de audio de acuerdo con otra realizacion. El aparato comprende ademas una primera unidad de agregacion 150 para determinar un primer valor agregado
55 dependiendo de la primera porcion de senal de audio. Ademas, el aparato de la figura 1c comprende ademas una segunda unidad de agregacion 160 para determinar un segundo valor agregado como el valor derivado de la segunda porcion de senal de audio dependiendo de la segunda porcion de senal de audio. En la realizacion de la figura 1c, la unidad de rastreo del nivel de ruido 130 esta configurada para recibir un primer valor agregado como la informacion de primera porcion de senal que esta representada en el dominio de rastreo, en la que la unidad de
rastreo del nivel de ruido 130 esta configurada para recibir el segundo valor agregado como la informacion de segunda porcion de senal que esta representada en el dominio de rastreo. La unidad de rastreo del nivel de ruido 130 esta configurada para determinar informacion sobre el nivel de ruido dependiendo del primer valor agregado que esta representado en el dominio de rastreo y dependiendo del segundo valor agregado que esta representado en el 5 dominio de rastreo.
[0307] En una realizacion, la primera unidad de agregacion 150 esta configurada para determinar el primer valor agregado de modo que el primer valor agregado indica una media cuadratica de la primera porcion de senal de audio o de una senal derivada de la primera porcion de senal de audio. Ademas, la segunda unidad de agregacion
10 160 esta configurada para determinar el segundo valor agregado de modo que el segundo valor agregado indica una media cuadratica de la segunda porcion de senal de audio o de una senal derivada de la segunda porcion de senal de audio.
[0308] La figura 6 ilustra un aparato para decodificar una senal de audio de acuerdo con una realizacion 15 adicional.
[0309] En la figura 6, la unidad de rastreo del nivel de fondo 630 implementa una unidad de rastreo del nivel de ruido 130 de acuerdo con la figura 1a.
20 [0310] Ademas, en la figura 6, la unidad de RMS 650 (RMS = media cuadratica) es una primera unidad de
agregacion y la unidad de RMS 660 es una segunda unidad de agregacion.
[0311] De acuerdo con algunas realizaciones, la (primera) unidad transformada 120 de la figura 1a, la figura 1b y la figura 1c esta configurada para transformar el valor derivado de la segunda porcion de senal de audio desde
25 el segundo dominio hasta el dominio de rastreo aplicando un valor de ganancia (x) sobre el valor derivado de la segunda porcion de senal de audio, por ejemplo, dividiendo el valor derivado de la segunda porcion de senal de audio por un valor de ganancia (x). En otras realizaciones, un valor de ganancia puede, por ejemplo, multiplicarse.
[0312] En algunas realizaciones, el valor de ganancia (x) puede indicar, por ejemplo, una ganancia 30 introducida por slntesis de codificacion predictiva lineal, o el valor de ganancia (x) puede indicar, por ejemplo, una
ganancia introducida por slntesis y desenfasis de codificacion predictiva lineal.
[0313] En la figura 6, la unidad 622 proporciona el valor (x) que indica la ganancia introducida mediante slntesis y desenfasis de codificacion predictiva lineal. La unidad 622 divide a continuacion el valor, proporcionado
35 por la segunda unidad de agregacion 660, que es un valor derivado de la segunda porcion de senal de audio, por el valor de ganancia proporcionado (x) (por ejemplo, bien dividiendo por x, o bien multiplicando el valor 1/x). De este modo, la unidad 620 de la figura 6 que comprende las unidades 621 y 622 implementa la primera unidad de transformada de la figura 1 a, la figura 1b o la figura 1 c.
40 [0314] El aparato de la figura 6 recibe una primera trama con una primera porcion de senal de audio que es
una excitacion con voz y/o una excitacion sin voz y que esta representada en el dominio de rastreo, en la figura 6 un dominio de LPC (ACELP). La primera porcion de senal de audio es alimentada en una unidad de slntesis y desenfasis de LPC 671 para procesamiento para obtener una salida de primera porcion de senal de audio en el dominio temporal. Ademas, la primera porcion de senal de audio es alimentada en el modulo de RMS 650 para 45 obtener un primer valor que indica una media cuadratica de la primera porcion de senal de audio. Este primer valor (primer valor de RMS) esta representado en el dominio de rastreo. El primer valor de RMS, que esta representado en el dominio de rastreo, es alimentado a continuacion a la unidad de rastreo del nivel de ruido 630.
[0315] Ademas, el aparato de la figura 6 recibe una segunda trama con una segunda porcion de senal de 50 audio que comprende un espectro de MDCT y que esta representado en un dominio de MDCT. El relleno de ruido es
llevado a cabo por un modulo de relleno de ruido 681, la conformacion de ruido en el dominio de frecuencia es llevada a cabo por un modulo de conformacion de ruido en el dominio de frecuencia 682, la transformation al dominio temporal es llevada a cabo por un modulo de iMDCT/OLA 683 (OLA = superposition y adicion) y la prediction a largo plazo es llevada a cabo por una unidad de prediction a largo plazo 684. La unidad de prediction a 55 largo plazo puede comprender, por ejemplo, un bufer de retardo (no mostrado en la figura 6).
[0316] La senal derivada de la segunda porcion de senal de audio es alimentada a continuacion al modulo de RMS 660 para obtener un segundo valor que indica que se obtiene una media cuadratica de esa senal derivada de la segunda porcion de senal de audio. Este segundo valor (segundo valor de RMS) aun esta representado en el
dominio temporal. La unidad 620 transforma a continuacion el segundo valor de RMS desde el dominio temporal hasta el dominio de rastreo, en este contexto, el dominio de LPC (ACELP). El segundo valor de RMS, que esta representado en el dominio de rastreo, es alimentado a continuacion a la unidad de rastreo del nivel de ruido 630.
5 [0317] En realizaciones, el rastreo de nivel se lleva a cabo en el dominio de excitacion, pero el
desvanecimiento de TCX se lleva a cabo en el dominio temporal.
[0318] Aunque durante la decodificacion normal el nivel de ruido de fondo es rastreado, este puede usarse, por ejemplo, durante la perdida de paquetes como un indicador de un nivel de ruido de confort apropiado, al que la
10 ultima senal recibida se desvanece suavemente por niveles.
[0319] Derivar el nivel para rastreo y aplicar el desvanecimiento de nivel son, en general, independientes entre si y podrlan realizarse en diferentes dominios. En la realizacion preferida, la aplicacion de nivel se realiza en los mismos dominios que la derivation de nivel, conduciendo a los mismos beneficios que para ACELP, no se
15 necesita compensation de ganancia, y que para TCX, la compensation de ganancia inversa que para la derivacion de nivel (vease la figura 6) es necesaria y, por lo tanto, puede usarse la misma derivacion de ganancia, tal como se ilustra mediante la figura 7.
[0320] En lo sucesivo, se describe la compensacion de una influencia del filtro de paso alto sobre la ganancia 20 de la slntesis de LPC de acuerdo con realizaciones.
[0321] La figura 8 perfila este enfoque. En particular, la figura 8 ilustra la aplicacion del nivel de ruido de confort durante la perdida de paquetes.
25 [0322] En la figura 8, la unidad de filtro de ganancia de paso alto 643, la unidad de multiplication 644, la
unidad de desvanecimiento 645, la unidad de filtro de paso alto 646, la unidad de desvanecimiento 647 y la unidad de combination 648 juntas forman una primera unidad de reconstruction.
[0323] Ademas, en la figura 8, la unidad de provision de nivel de fondo 631 proporciona la information sobre 30 el nivel de ruido. Por ejemplo, la unidad de provision de nivel de fondo 631 puede implementarse igualmente como
unidad de rastreo del nivel de fondo 630 de la figura 6.
[0324] Ademas, en la figura 8, la unidad de ganancia de slntesis y desenfasis de LPC 649 y la unidad de multiplicacion 641 juntas forman una segunda unidad de transformada 640.
35
[0325] Ademas, en la figura 8, la unidad de desvanecimiento 642 representa una segunda unidad de reconstruccion.
[0326] En la realizacion de la figura 8, la excitacion con voz y sin voz se desvanecen por separado: la 40 excitacion con voz se desvanece a cero, pero la excitacion sin voz se desvanece hacia el nivel de ruido de confort.
La figura 8 representa ademas un filtro de paso alto, que se introduce en la cadena de senales de la excitacion sin voz para suprimir componentes de baja frecuencia para todos los casos excepto cuando la senal se clasifico como sin voz.
45 [0327] En relation con modelar la influencia del filtro de paso alto, el nivel despues de slntesis y desenfasis
de LPC se calcula una vez con y una vez sin el filtro de paso alto. Posteriormente, la relacion de esos dos niveles se deriva y se usa para alterar el nivel de fondo aplicado.
[0328] Esto se ilustra mediante la figura 9. En particular, la figura 9 representa compensacion de ganancia de 50 paso alto avanzada durante ocultamiento de ACELP de acuerdo con una realizacion.
[0329] En lugar de la senal de excitacion actual solamente se usa un simple impulso como entrada para este
calculo. Esto permite una complejidad reducida, dado que la respuesta al impulso decae rapidamente y, de este
modo, la derivacion de RMS puede realizarse en un marco temporal mas corto. En la practica, solamente se usa una
55 subtrama en lugar de toda la trama.
[0330] De acuerdo con una realizacion, la unidad de rastreo del nivel de ruido 130 esta configurada para
determinar un nivel de ruido de confort como la informacion sobre el nivel de ruido. La unidad de reconstruccion 140
esta configurada para reconstruir la tercera portion de senal de audio dependiendo de la informacion sobre el nivel
de ruido, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha tercera trama es recibida por la interfaz receptora 110 pero esta alterada.
[0331] De acuerdo con una realizacion, la unidad de rastreo del nivel de ruido 130 esta configurada para
5 determinar un nivel de ruido de confort como la informacion sobre el nivel de ruido. La unidad de reconstruccion 140
esta configurada para reconstruir la tercera porcion de senal de audio dependiendo de la informacion sobre el nivel de ruido, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha tercera trama es recibida por la interfaz receptora 110 pero esta alterada.
10 [0332] En una realizacion, la unidad de rastreo del nivel de ruido 130 esta configurada para determinar un
nivel de ruido de confort como la informacion sobre el nivel de ruido derivada de un espectro del nivel de ruido, en la
que dicho espectro del nivel de ruido se obtiene aplicando el enfoque de estadlstica minima. La unidad de reconstruccion 140 esta configurada para reconstruir la tercera porcion de senal de audio dependiendo de una pluralidad de coeficientes predictivos lineales, si dicha tercera trama de la pluralidad de tramas no es recibida por la 15 interfaz receptora 110 o si dicha tercera trama es recibida por la interfaz receptora 110 pero esta alterada.
[0333] En una realizacion, la (primera y/o segunda) unidad de reconstruccion 140, 141 puede estar, por ejemplo, configurada para reconstruir la tercera porcion de senal de audio dependiendo de la informacion sobre el nivel de ruido y dependiendo de la primera porcion de senal de audio, si dicha tercera (cuarta) trama de la pluralidad
20 de tramas no es recibida por la interfaz receptora 110 o si dicha tercera (cuarta) trama es recibida por la interfaz receptora 110 pero esta alterada.
[0334] De acuerdo con una realizacion, la (primera y/o segunda) unidad de reconstruccion 140, 141 puede estar, por ejemplo, configurada para reconstruir la tercera (o cuarta) porcion de senal de audio atenuando o
25 amplificando la primera porcion de senal de audio.
[0335] La figura 14 ilustra un aparato para decodificar una senal de audio. El aparato comprende una interfaz receptora 110, en la que la interfaz receptora 110 esta configurada para recibir una primera trama que comprende una primera porcion de senal de audio de la senal de audio, y en la que la interfaz receptora 110 esta configurada
30 para recibir una segunda trama que comprende una segunda porcion de senal de audio de la senal de audio.
[0336] Ademas, el aparato comprende una unidad de rastreo del nivel de ruido 130, en la que la unidad de rastreo del nivel de ruido 130 esta configurada para determinar informacion sobre el nivel de ruido dependiendo de al menos una de la primera porcion de senal de audio y la segunda porcion de senal de audio (esto significa:
35 dependiendo de la primera porcion de senal de audio y/o la segunda porcion de senal de audio), en la que la informacion sobre el nivel de ruido esta representada en un dominio de rastreo.
[0337] Ademas, el aparato comprende una primera unidad de reconstruccion 140 para reconstruir, en un primer dominio de reconstruccion, una tercera porcion de senal de audio de la senal de audio dependiendo de la
40 informacion sobre el nivel de ruido, si una tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha tercera trama es recibida por la interfaz receptora 110 pero esta alterada, en la que el primer dominio de reconstruccion es diferente de o igual al dominio de rastreo.
[0338] Ademas, el aparato comprende una unidad de transformada 121 para transformar la informacion sobre 45 el nivel de ruido desde el dominio de rastreo hasta un segundo dominio de reconstruccion, si una cuarta trama de la
pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha cuarta trama es recibida por la interfaz receptora 110 pero esta alterada, en la que el segundo dominio de reconstruccion es diferente del dominio de rastreo, y en la que el segundo dominio de reconstruccion es diferente del primer dominio de reconstruccion, y
50 [0339] Ademas, el aparato comprende una segunda unidad de reconstruccion 141 para reconstruir, en el
segundo dominio de reconstruccion, una cuarta porcion de senal de audio de la senal de audio dependiendo de la informacion sobre el nivel de ruido que esta representada en el segundo dominio de reconstruccion, si dicha cuarta trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha cuarta trama es recibida por la interfaz receptora 110 pero esta alterada.
55
[0340] De acuerdo con algunas realizaciones, el dominio de rastreo puede ser, por ejemplo, aquel en el que
el dominio de rastreo es un dominio temporal, un dominio espectral, un dominio de FFT, un dominio de MDCT o un dominio de excitacion. El primer dominio de reconstruccion puede ser, por ejemplo, el dominio temporal, el dominio espectral, el dominio de FFT, el dominio de MDCT o el dominio de excitacion. El segundo dominio de reconstruccion
puede ser, por ejemplo, el dominio temporal, el dominio espectral, el dominio de FFT, el dominio de MDCT o el dominio de excitacion.
[0341] En una realizacion, el dominio de rastreo puede ser, por ejemplo, el dominio de FFT, el primer dominio 5 de reconstruccion puede ser, por ejemplo, el dominio temporal, y el segundo dominio de reconstruccion puede ser,
por ejemplo, el dominio de excitacion.
[0342] En otra realizacion, el dominio de rastreo puede ser, por ejemplo, el dominio temporal, el primer dominio de reconstruccion puede ser, por ejemplo, el dominio temporal, y el segundo dominio de reconstruccion
10 puede ser, por ejemplo, el dominio de excitacion.
[0343] De acuerdo con una realizacion, dicha primera porcion de senal de audio puede estar, por ejemplo, representada en un primer dominio de entrada, y dicha segunda porcion de senal de audio puede estar, por ejemplo, representada en un segundo dominio de entrada. La unidad de transformada puede ser, por ejemplo, una segunda
15 unidad de transformada. El aparato puede comprender, por ejemplo, ademas una primera unidad de transformada para transformar la segunda porcion de senal de audio o un valor o senal derivada de la segunda porcion de senal de audio desde el segundo dominio de entrada hasta el dominio de rastreo para obtener una informacion de segunda porcion de senal. La unidad de rastreo del nivel de ruido puede estar, por ejemplo, configurada para recibir una informacion de primera porcion de senal que esta representada en el dominio de rastreo, en la que la 20 informacion de primera porcion de senal depende de la primera porcion de senal de audio, en la que la unidad de rastreo del nivel de ruido esta configurada para recibir la segunda porcion de senal que esta representada en el dominio de rastreo, y en la que la unidad de rastreo del nivel de ruido esta configurada para determinar la informacion sobre el nivel de ruido dependiendo de la informacion de primera porcion de senal que esta representada en el dominio de rastreo y dependiendo de la informacion de segunda porcion de senal que esta 25 representada en el dominio de rastreo.
[0344] De acuerdo con una realizacion, el primer dominio de entrada puede ser, por ejemplo, el dominio de excitacion, y el segundo dominio de entrada puede ser, por ejemplo, el dominio de MDCT.
30 [0345] En otra realizacion, el primer dominio de entrada puede ser, por ejemplo, el dominio de MDCT, y en la
que el segundo dominio de entrada puede ser, por ejemplo, el dominio de MDCT.
[0346] Si, por ejemplo, una senal esta representada en un dominio temporal, puede estar, por ejemplo, representada mediante muestras en el dominio temporal de la senal. O, por ejemplo, si una senal esta representada
35 en un dominio espectral, puede estar, por ejemplo, representada mediante muestras espectrales de un espectro de la senal.
[0347] En una realizacion, el dominio de rastreo puede ser, por ejemplo, el dominio de FFT, el primer dominio de reconstruccion puede ser, por ejemplo, el dominio temporal, y el segundo dominio de reconstruccion puede ser,
40 por ejemplo, el dominio de excitacion.
[0348] En otra realizacion, el dominio de rastreo puede ser, por ejemplo, el dominio temporal, el primer dominio de reconstruccion puede ser, por ejemplo, el dominio temporal, y el segundo dominio de reconstruccion puede ser, por ejemplo, el dominio de excitacion.
45
[0349] En algunas realizaciones, las unidades ilustradas en la figura 14, pueden estar, por ejemplo, configuradas tal como se describe para las figuras 1a, 1b, 1c y 1d.
[0350] Respecto a realizaciones particulares, en, por ejemplo, un modo de tasa baja, un aparato de acuerdo 50 con una realizacion puede recibir, por ejemplo, tramas de ACELP como entrada, que estan representadas en un
dominio de excitacion, y que son transformadas a continuacion a un dominio temporal mediante slntesis de LPC. Ademas, en el modo de tasa baja, el aparato de acuerdo con una realizacion puede recibir, por ejemplo, tramas de TCX como entrada, que estan representadas en un dominio de MDCT, y que son transformadas a continuacion a un dominio temporal mediante una MDCT inversa.
55
[0351] A continuacion se lleva a cabo el rastreo en un dominio de FFT, en el que la senal de FFT se deriva a partir de la senal de dominio temporal llevando a cabo una FFT (transformada rapida de Fourier). El rastreo puede, por ejemplo, llevarse a cabo llevando a cabo un enfoque de estadlstica minima, independiente para todas las llneas espectrales para obtener un espectro de ruido de confort.
5
10
15
20
25
30
35
40
45
50
55
[0352] A continuation se lleva a cabo ocultamiento llevando a cabo derivation de nivel basandose en el espectro de ruido de contort. La derivacion de nivel se lleva a cabo basandose en el espectro de ruido de contort. La conversion de nivel en el dominio temporal se lleva a cabo para PLC de TCX de FD. Se lleva a cabo un desvanecimiento en el dominio temporal. Una derivacion de nivel en el dominio de excitation se lleva a cabo para PLC de ACELP y para PLC de TCX de TD (de tipo ACELP). A continuacion, se lleva a cabo un desvanecimiento en el dominio de excitacion.
[0353] La siguiente lista resume esto: tasa baja:
• entrada:
o acelp (dominio de excitacion -> dominio temporal, mediante slntesis de lpc) o tcx (dominio de mdct -> dominio temporal, mediante MDCT inversa)
• rastreo:
o dominio de FFT, derivado del dominio temporal mediante FFT
o estadlstica minima, independiente para todas las llneas espectrales -> espectro de ruido de contort
• ocultamiento:
o derivacion de nivel basada en el espectro de ruido de contort o conversion de nivel en el dominio temporal para
■ PLC de TCX de FD
-> desvanecimiento en el dominio temporal o conversion de nivel en el dominio de excitacion para
■ PLC de ACELP
■ PLC de TCX de TD (de tipo ACELP)
-> desvanecimiento en el dominio de excitacion
[0354] En, por ejemplo, un modo de tasa alta, puede recibir, por ejemplo, tramas de TCX como entrada, que estan representadas en el dominio de MDCT, y que son transtormadas a continuacion al dominio temporal mediante una MDCT inversa.
[0355] A continuacion se lleva a cabo rastreo en el dominio temporal. El rastreo puede, por ejemplo, llevarse a cabo llevando a cabo un entoque de estadlstica minima basado en el nivel de energia para obtener un nivel de ruido de contort.
[0356] Para ocultamiento, para PLC de TCX de FD, el nivel puede usarse como tal y solamente puede llevarse a cabo un desvanecimiento en el dominio temporal. Para PLC de TCX de TD (de tipo ACELP), se lleva a cabo conversion en el dominio de excitacion y desvanecimiento en el dominio de excitacion.
[0357] La siguiente lista resume esto: tasa alta:
• entrada:
° tcx (dominio de mdct -> dominio temporal, mediante MDCT inversa)
• rastreo:
5
° dominio temporal
° estadfstica minima sobre el nivel de energfa -> nivel de ruido de contort
• ocultamiento:
10 ° uso del nivel "como tal"
■ PLC de TCX de FD
-> desvanecimiento en el dominio temporal 15 ° conversion de nivel en el dominio de excitacion para
■ PLC de TCX de TD (de tipo ACELP)
-> desvanecimiento en el dominio de excitacion
20 [0358] El dominio de FFT y el dominio de MDCT son ambos dominios espectrales, mientras que el dominio
de excitacion es alguna clase de dominio temporal.
[0359] De acuerdo con una realizacion, la primera unidad de reconstruccion 140 puede estar, por ejemplo, configurada para reconstruir la tercera porcion de serial de audio llevando a cabo un primer desvanecimiento a un
25 espectro de tipo ruido. La segunda unidad de reconstruccion 141 puede estar, por ejemplo, configurada para reconstruir la cuarta porcion de senal de audio llevando a cabo un segundo desvanecimiento a un espectro de tipo ruido y/o un segundo desvanecimiento de una ganancia de LTP. Ademas, la primera unidad de reconstruccion 140 y la segunda unidad de reconstruccion 141 pueden estar, por ejemplo, configuradas para llevar a cabo el primer desvanecimiento y el segundo desvanecimiento a un espectro de tipo ruido y/o un segundo desvanecimiento de una 30 ganancia de LTP con la misma velocidad de desvanecimiento.
[0360] Ahora se considera conformacion espectral adaptativa de ruido de contort.
[0361] Para conseguir conformacion adaptativa para ruido de confort durante la perdida de paquetes en 35 rafagas, como primera etapa, puede llevarse a cabo el descubrimiento de coeficientes de LPC apropiados que
representan el ruido de fondo. Estos coeficientes de LPC pueden derivarse durante la voz activa usando un enfoque de estadfstica minima para descubrir el espectro de ruido de fondo y a continuacion calcular coeficientes de LPC a partir de este usando un algoritmo arbitrario para derivacion de LPC conocida a partir de la bibliograffa. Algunas realizaciones, por ejemplo, pueden convertir directamente el espectro de ruido de fondo en una representacion que 40 puede usarse directamente para FDNS en el dominio de MDCT.
[0362] El desvanecimiento a ruido de confort puede realizarse en el dominio de ISF (tambien aplicable en el dominio de LSF; LSF frecuencia espectral lineal):
^ fcurrent [*] =: <2 ' flastl}] + (1 ~ O') * pi-mean[?*] i ~ 0...18
ajustando ptmean a coeficientes de LP apropiados que describen el ruido de confort.
[0363] Respecto a la conformacion espectral adaptativa descrita anteriormente del ruido de confort, una 50 realizacion mas general se ilustra mediante la figura 11.
[0364] La figura 11 ilustra un aparato para decodificar una senal de audio codificada para obtener una senal de audio reconstruida de acuerdo con una realizacion.
55 [0365] El aparato comprende una interfaz receptora 1110 para recibir una o mas tramas, un generador de
coeficientes 1120, y un reconstructor de senales 1130.
[0366] El generador de coeficientes 1120 esta configurado para determinar, si una trama actual de las una o
mas tramas es recibida por la interfaz receptora 1110 y si la trama actual que es recibida por la interfaz receptora 1110 no esta alterada/es erronea, uno o mas primeros coeficientes de senal de audio, que estan compuestos por la trama actual, en la que dichos uno o mas primeros coeficientes de senal de audio indican una caracterlstica de la senal de audio codificada, y uno o mas coeficientes de ruido que indican un ruido de fondo de la senal de audio 5 codificada. Ademas, el generador de coeficientes 1120 esta configurado para generar uno o mas segundos coeficientes de senal de audio, dependiendo de los uno o mas primeros coeficientes de senal de audio y dependiendo de los uno o mas coeficientes de ruido, si la trama actual no es recibida por la interfaz receptora 1110 o si la trama actual que es recibida por la interfaz receptora 1110 esta alterada/es erronea.
10 [0367] El reconstructor de senales de audio 1130 esta configurado para reconstruir una primera porcion de la
senal de audio reconstruida dependiendo de los uno o mas primeros coeficientes de senal de audio, si la trama actual es recibida por la interfaz receptora 1110 y si la trama actual que es recibida por la interfaz receptora 1110 no esta alterada. Ademas, el reconstructor de senales de audio 1130 esta configurada para reconstruir una segunda porcion de la senal de audio reconstruida dependiendo de los uno o mas segundos coeficientes de senal de audio, si 15 la trama actual no es recibida por la interfaz receptora 1110 o si la trama actual que es recibida por la interfaz receptora 1110 esta alterada.
[0368] La determination de un ruido de fondo es bien conocida en la tecnica (vease, por ejemplo, [Mar01]: Rainer Martin, Noise power spectral density estimation based on optimal smoothing and minimum statistics, IEEE
20 Transactions on Speech and Audio Processing 9 (2001), no. 5, 504 -512), y en una realization, el aparato procede en consecuencia.
[0369] En algunas realizaciones, los uno o mas primeros coeficientes de senal de audio pueden ser, por ejemplo, uno o mas coeficientes de filtro predictivo lineal de la senal de audio codificada. En algunas realizaciones,
25 los uno o mas primeros coeficientes de senal de audio puede ser, por ejemplo, uno o mas coeficientes de filtro predictivo lineal de la senal de audio codificada.
[0370] Es bien conocido en la tecnica como reconstruir una senal de audio, por ejemplo, una senal de voz, a partir de coeficientes de filtro predictivo lineal o a partir de pares espectrales de inmitancia (vease, por ejemplo,
30 [3GP09c]: Speech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; transcoding functions, 3GPP TS 26.190, 3rd Generation Partnership Project, 2009), y en una realizacion, el reconstructor de senales procede en consecuencia.
[0371] De acuerdo con una realizacion, los uno o mas coeficientes de ruido pueden ser, por ejemplo, uno o 35 mas coeficientes de filtro predictivo lineal que indican el ruido de fondo de la senal de audio codificada. En una
realizacion, los uno o mas coeficientes de filtro predictivo lineal puede representar, por ejemplo, una forma espectral del ruido de fondo.
[0372] En una realizacion, el generador de coeficientes 1120 puede estar, por ejemplo, configurado para 40 determinar las una o mas segundas porciones de senal de audio de modo que las una o mas segundas porciones de
senal de audio sean uno o mas coeficientes de filtro predictivo lineal de la senal de audio reconstruida, o de modo que los uno o mas primeros coeficientes de senal de audio sean uno o mas pares espectrales de inmitancia de la senal de audio reconstruida.
45 [0373] De acuerdo con una realizacion, el generador de coeficientes 1120 puede estar configurado, por
ejemplo, para generar los uno o mas segundos coeficientes de senal de audio aplicando la formula:
fcurrent[i\ — & ' flast[i] (1 O') • ptmean[i]
50 en la que fcurrent[i] indica uno de los uno o mas segundos coeficientes de senal de audio, en la que fias/[i] indica uno de los uno o mas primeros coeficientes de senal de audio, en la que ptmean[i] es uno de los uno o mas coeficientes de ruido, en la que aes un numero real con 0 < a< 1, y en la que i es un Indice.
[0374] De acuerdo con una realizacion, fias/[i] indica un coeficiente de filtro predictivo lineal de la senal de 55 audio codificada, y en la que fcurren{i] indica un coeficiente de filtro predictivo lineal de la senal de audio reconstruida.
[0375] En una realizacion, ptmean[i] puede ser, por ejemplo, un coeficiente de filtro predictivo lineal que indica el ruido de fondo de la senal de audio codificada.
[0376] De acuerdo con una realizacion, el generador de coeficientes 1120 puede estar configurado, por ejemplo, para generar al menos 10 segundos coeficientes de senal de audio como los uno o mas segundos coeficientes de senal de audio.
5
[0377] En una realizacion, el generador de coeficientes 1120 puede estar, por ejemplo, configurado para determinar, si la trama actual de las una o mas tramas es recibida por la interfaz receptora 1110 y si la trama actual que es recibida por la interfaz receptora 1110 no esta alterada, los uno o mas coeficientes de ruido determinando un espectro de ruido de la senal de audio codificada.
10
[0378] En lo sucesivo, se considera el desvanecimiento del espectro MDCT a ruido blanco antes de la aplicacion de FDNS.
[0379] En lugar de modificar aleatoriamente el signo de un “bin” de MDCT (mezcla de signos), el espectro 15 completo se llena con ruido blanco, que es conformado usando la FDNS. Para evitar un cambio instantaneo en las
caracterlsticas del espectro, se aplica un desvanecimiento gradual entre mezcla de signos y relleno de ruido. El desvanecimiento gradual puede realizarse de la siguiente manera:
for(i=0; i<L_frame; i++) {
if (old_x[i] != 0) {
x[i] = (1 - cum_damping) *noise [i] + cum_damping *
random_sign() * x_old[i];
}
}
20 donde:
cum_damping es el factor de atenuacion (absoluto) - disminuye de trama a trama, comenzando a partir de 1 y disminuyendo hacia 0
x_old es el espectro de la ultima trama recibida 25
random_sign retorna 1 o -1
noise contiene un vector aleatorio (ruido blanco) que es convertido de escala de modo que su media cuadratica (RMS) es similar al ultimo espectro bueno.
30 [0380] El termino random_sign()*old_x[i] caracteriza el proceso de mezcla de signos para aleatorizar las
fases y, de este modo, evitar repeticiones de armonicos.
[0381] Posteriormente, podrla realizarse otra normalizacion del nivel de energla despues del desvanecimiento gradual para asegurarse de que la energla de suma no se desvla debido a la correlacion de los
35 dos vectores.
[0382] De acuerdo con realizaciones, la primera unidad de reconstruction 140 puede estar, por ejemplo, configurada para reconstruir la tercera portion de senal de audio dependiendo de la information sobre el nivel de ruido y dependiendo de la primera porcion de senal de audio. En una realizacion particular, la primera unidad de
40 reconstruccion 140 puede estar, por ejemplo, configurada para reconstruir la tercera porcion de senal de audio atenuando o amplificando la primera porcion de senal de audio.
[0383] En algunas realizaciones, la segunda unidad de reconstruccion 141 puede estar, por ejemplo, configurada para reconstruir la cuarta porcion de senal de audio dependiendo de la informacion sobre el nivel de
45 ruido y dependiendo de la segunda porcion de senal de audio. En una realizacion particular, la segunda unidad de reconstruccion 141 puede estar, por ejemplo, configurada para reconstruir la cuarta porcion de senal de audio atenuando o amplificando la segunda porcion de senal de audio.
[0384] Respecto al desvanecimiento descrito anteriormente del espectro MDCT a ruido blanco antes de la 50 aplicacion de FDNS, una realizacion mas general se ilustra mediante la figura 12.
[0385] La figura 12 ilustra un aparato para decodificar una senal de audio codificada para obtener una senal
de audio reconstruida de acuerdo con una realizacion.
5 [0386] El aparato comprende una interfaz receptora 1210 para recibir una o mas tramas que comprenden
information sobre una pluralidad de muestras de senal de audio de un espectro de senal de audio de la senal de audio codificada, y un procesador 1220 para generar la senal de audio reconstruida.
[0387] El procesador 1220 esta configurado para generar la senal de audio reconstruida desvaneciendo un 10 espectro modificado a un espectro diana, si una trama actual no es recibida por la interfaz receptora 1210 o si la
trama actual es recibida por la interfaz receptora 1210 pero esta alterada, en la que el espectro modificado comprende una pluralidad de muestras de senal modificadas, en la que, para cada una de las muestras de senal modificadas del espectro modificado, un valor absoluto de dicha muestra de senal modificada es igual a un valor absoluto de una de las muestras de senal de audio del espectro de senal de audio.
15
[0388] Ademas, el procesador 1220 esta configurado para no desvanecer el espectro modificado al espectro diana, si la trama actual de las una o mas tramas es recibida por la interfaz receptora 1210 y si la trama actual que es recibida por la interfaz receptora 1210 no esta alterada.
20 [0389] De acuerdo con una realizacion, el espectro diana es un espectro de tipo ruido.
[0390] En una realizacion, el espectro de tipo ruido representa ruido blanco.
[0391] De acuerdo con una realizacion, el espectro de tipo ruido esta conformado.
25
[0392] En una realizacion, la forma del espectro de tipo ruido depende de un espectro de senal de audio de una senal recibida previamente.
[0393] De acuerdo con una realizacion, el espectro de tipo ruido esta conformado dependiendo de la forma 30 del espectro de senal de audio.
[0394] En una realizacion, el procesador 1220 emplea un factor de inclination para conformar el espectro de tipo ruido.
35 [0395] De acuerdo con una realizacion, el procesador 1220 emplea la formula
shaped_noise[i] = noise * power(tilt_factor,i/N)
40 en la que N indica el numero de muestras,
en la que i es un Indice,
en la que 0<= i < N, con tilt_factor > 0,
45
en la que power es una funcion de potencia.
[0396] Si el tilt_factor es menor que 1 esto significa atenuacion con i creciente. Si el tilt_factor es mayor que 1 significa amplification con i creciente.
50
[0397] De acuerdo con otra realizacion, el procesador 1220 puede emplear la formula shaped_noise[i] = noise * (1 + i / (N-l) * (tilt_factor-l))
55 en la que N indica el numero de muestras, en la que i es un Indice, en la que 0<= i < N,
con tilt_factor > 0.
[0398] De acuerdo con una realizacion, el procesador 1220 esta configurado para generar el espectro modificado, cambiando un signo de una o mas de las muestras de senal de audio del espectro de senal de audio, si
5 la trama actual no es recibida por la interfaz receptora 1210 o si la trama actual que es recibida por la interfaz receptora 1210 esta alterada.
[0399] En una realizacion, cada una de las muestras de senal de audio del espectro de senal de audio esta representada por un numero real pero no por un numero imaginario.
10
[0400] De acuerdo con una realizacion, las muestras de senal de audio del espectro de senal de audio estan representadas en un dominio de transformada de coseno discreta modificada.
[0401] En otra realizacion, las muestras de senal de audio del espectro de senal de audio estan 15 representadas en un dominio de transformada de seno discreta modificada.
[0402] De acuerdo con una realizacion, el procesador 1220 esta configurado para generar el espectro modificado empleando una funcion de signo aleatorio que emite de forma aleatoria o pseudoaleatoria bien un primer o un segundo valor.
20
[0403] En una realizacion, el procesador 1220 esta configurado para desvanecer el espectro modificado al espectro diana disminuyendo posteriormente un factor de atenuacion.
[0404] De acuerdo con una realizacion, el procesador 1220 esta configurado para desvanecer el espectro 25 modificado al espectro diana aumentando posteriormente un factor de atenuacion.
[0405] En una realizacion, si la trama actual no es recibida por la interfaz receptora 1210 o si la trama actual que es recibida por la interfaz receptora 1210 esta alterada, el procesador 1220 esta configurado para generar la senal de audio reconstruida empleando la formula:
30
x [i] = (l-cum_damping) * noise[i] + cum_damping *
random_sign() * x_old[i]
en la que i es un fndice, en la que x[i] indica una muestra de la senal de audio reconstruida, en la que cum_damping es un factor de atenuacion, en la que x_old[i] indica una de las muestras de senal de audio del espectro de senal de 35 audio de la senal de audio codificada, en la que random_sign() retorna 1 o -1, y en la que noise es un vector aleatorio que indica el espectro diana.
[0406] Algunas realizaciones continuan una operation de LTP de TCX. En esas realizaciones, la operation de LTP de TCX es continuada durante el ocultamiento con los parametros de LTP (retraso de LTP y ganancia de
40 LTP) derivados de la ultima trama buena.
[0407] Las operaciones de LTP pueden resumirse como:
- Alimentar el bufer de retardo de LTP basandose en la salida derivada previamente.
45 - Basandose en el retraso de LTP: seleccionar la portion de senal apropiada del bufer de retardo de LTP que se
usa como una contribution de LTP para conformar la senal actual.
- Sustituir la escala de esta contribucion de LTP usando la ganancia de LTP.
- Anadir esta contribucion de LTP con sustitucion de escala a la senal de entrada de LTP para generar la senal de salida de LTP.
50
[0408] Podrfan considerarse diferentes enfoques con respecto al tiempo, donde se realiza la actualization del bufer de retardo de LTP:
Como la primera operacion de LTP en trama n usando la salida de la ultima trama n-1. Esto actualiza el bufer de 55 retardo de LTP en trama n que se usara durante el procesamiento de LTP en trama n.
[0409] Como la ultima operacion de LTP en trama n usando la salida de la trama actual n. esto actualiza el
bufer de retardo de LTP en trama n to que se usara durante el procesamiento de LTP en trama n+ 1.
[0410] En lo sucesivo, se considera el desacoplamiento del bucle de retroalimentacion de LTP de TCX.
5 [0411] Desacoplar el bucle de retroalimentacion de LTP de TCX evita la introduccion de ruido adicional (que
resulta de la sustitucion de ruido aplicada a la senal de entrada de LPT) durante cada bucle de retroalimentacion del decodificador de LTP cuando esta en modo de ocultamiento.
[0412] La figura 10 ilustra este desacoplamiento. En particular, la figura 10 representa el desacoplamiento del 10 bucle de retroalimentacion de LTP durante el ocultamiento (bfi=1).
[0413] La figura 10 ilustra un bufer de retardo 1020, un selector de muestras 1030 y un procesador de muestras 1040 (el procesador de muestras 1040 se indica mediante la llnea discontinua).
15 [0414] Hacia el tiempo, cuando se realiza la actualizacion del bufer de retardo de LTP 1020, algunas
realizaciones proceden de la siguiente manera:
- Para el funcionamiento normal: podrla preferirse actualizar el bufer de retardo de LTP 1020 como la primera operacion de LTP, dado que la senal de salida sumada habitualmente se almacena de forma persistente. Con
20 este enfoque, puede omitirse un bufer dedicado.
- Para el funcionamiento desacoplado: podrla ser preferible actualizar el bufer de retardo de LTP 1020 como la ultima operacion de LTP, dado que la contribucion de LTP a la senal habitualmente solo se almacena temporalmente. Con este enfoque, la senal de contribucion de LTP transitoriamente se preserva. Como
25 implementacion, este bufer de contribucion de LTP podrla simplemente hacerse persistente.
[0415] Suponiendo que este ultimo enfoque se usa en cualquier caso (funcionamiento normal y ocultamiento), realizaciones, pueden implementar, por ejemplo, lo siguiente:
30 - Durante funcionamiento normal: la salida de senal de dominio temporal del decodificador de LTP despues de su
adicion a la senal de entrada de LTP se usa para alimentar el bufer de retardo de LTP.
- Durante el ocultamiento: la salida de senal de dominio temporal del decodificador de LTP antes de su adicion a la senal de entrada de LTP se usa para alimentar el bufer de retardo de LTP.
35
[0416] Algunas realizaciones desvanecen la ganancia de LTP de TCX hacia cero. En dicha realization, la ganancia de LTP de TCX puede, por ejemplo, desvanecerse hacia cero con cierto factor de desvanecimiento adaptativo de senal. Esto puede realizarse, por ejemplo, de forma iterativa, por ejemplo, de acuerdo con el siguiente pseudocodigo:
40
gain = gainjpast * damping;
[. . . ]
gainjpast = gain;
donde:
45 gain es la ganancia del decodificado de LTP de TCX aplicada en la trama actual;
gain__past es la ganancia del decodificador de LTP de TCX aplicada en la trama anterior;
damping es el factor de desvanecimiento (relativo).
50
[0417] La figura 1d ilustra un aparato de acuerdo con una realizacion adicional, en el que el aparato comprende ademas una unidad de prediction a largo plazo 170 que comprende un bufer de retardo 180. La unidad de prediccion a largo plazo 170 esta configurada para generar una senal procesada dependiendo de la segunda porcion de senal de audio, dependiendo de una entrada del bufer de retardo que se almacena en el bufer de retardo
55 180 y dependiendo de una ganancia de prediccion a largo plazo. Ademas, la unidad de prediccion a largo plazo esta
configurada para desvanecer la ganancia de prediccion a largo plazo hacia cero, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha tercera trama es recibida por la interfaz receptora 110 pero esta alterada.
5 [0418] En otras realizaciones (no mostradas), la unidad de prediccion a largo plazo puede estar configurada,
por ejemplo, para generar una senal procesada dependiendo de la primera porcion de senal de audio, dependiendo de una entrada del bufer de retardo que se almacena en el bufer de retardo y dependiendo de una ganancia de prediccion a largo plazo.
10 [0419] En la figura 1d, la primera unidad de reconstruccion 140 puede generar, por ejemplo, la tercera
porcion de senal de audio dependiendo ademas de la senal procesada.
[0420] En una realizacion, la unidad de prediccion a largo plazo 170 puede estar, por ejemplo, configurada para desvanecer la ganancia de prediccion a largo plazo hacia cero, en la que una velocidad con la que la ganancia
15 de prediccion a largo plazo se desvanece a cero depende de un factor de desvanecimiento.
[0421] Como alternativa o adicionalmente, la unidad de prediccion a largo plazo 170 puede estar, por ejemplo, configurada para actualizar la entrada del bufer de retardo 180 almacenando la senal procesada generada en el bufer de retardo 180 si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora
20 110 o si dicha tercera trama es recibida por la interfaz receptora 110 pero esta alterada.
[0422] Respecto al uso descrito anteriormente de LTP de TCX, una realizacion mas general se ilustra mediante la figura 13.
25 [0423] La figura 13 ilustra un aparato para decodificar una senal de audio codificada para obtener una senal
de audio reconstruida.
[0424] El aparato comprende una interfaz receptora 1310 para recibir una pluralidad de tramas, un bufer de
retardo 1320 para almacenar muestras de senal de audio de la senal de audio decodificada, un selector de muestras
30 1330 para seleccionar una pluralidad de muestras de senal de audio seleccionadas a partir de las muestras de senal de audio que se almacenan en el bufer de retardo 1320, y un procesador de muestras 1340 para procesar las muestras de senal de audio seleccionadas para obtener muestras de senal de audio reconstruida de la senal de audio reconstruida.
35 [0425] El selector de muestras 1330 esta configurado para seleccionar, si una trama actual es recibida por la
interfaz receptora 1310 y si la trama actual que es recibida por la interfaz receptora 1310 no esta alterada, la pluralidad de muestras de senal de audio seleccionadas a partir de las muestras de senal de audio que se almacenan en el bufer de retardo 1320 dependiendo de una informacion de retraso de altura tonal que esta compuesta por la trama actual. Ademas, el selector de muestras 1330 esta configurado para seleccionar, si la trama
40 actual no es recibida por la interfaz receptora 1310 o si la trama actual que es recibida por la interfaz receptora 1310 esta alterada, la pluralidad de muestras de senal de audio seleccionadas a partir de las muestras de senal de audio que se almacenan en el bufer de retardo 1320 dependiendo de una informacion de retraso de altura tonal que esta compuesta por otra trama que es recibida previamente por la interfaz receptora 1310.
45 [0426] De acuerdo con una realizacion, el procesador de muestras 1340 puede estar, por ejemplo,
configurado para obtener las muestras de senal de audio reconstruida, si la trama actual es recibida por la interfaz receptora 1310 y si la trama actual que es recibida por la interfaz receptora 1310 no esta alterada, sustituyendo la escala de las muestras de senal de audio seleccionadas dependiendo de la informacion de ganancia que esta compuesta por la trama actual. Ademas, el selector de muestras 1330 puede estar, por ejemplo, configurado para
50 obtener las muestras de senal de audio reconstruida, si la trama actual no es recibida por la interfaz receptora 1310 o si la trama actual que es recibida por la interfaz receptora 1310 esta alterada, sustituyendo la escala de las muestras de senal de audio seleccionadas dependiendo de la informacion de ganancia que esta compuesta por dicha otra trama que es recibida previamente por la interfaz receptora 1310.
55 [0427] En una realizacion, el procesador de muestras 1340 puede estar, por ejemplo, configurado para
obtener las muestras de senal de audio reconstruida, si la trama actual es recibida por la interfaz receptora 1310 y si la trama actual que es recibida por la interfaz receptora 1310 no esta alterada, multiplicando las muestras de senal de audio seleccionadas y un valor que depende de la informacion de ganancia que esta compuesta por la trama actual. Ademas, el selector de muestras 1330 esta configurado para obtener las muestras de senal de audio
reconstruida, si la trama actual no es recibida por la interfaz receptora 1310 o si la trama actual que es recibida por la interfaz receptora 1310 esta alterada, multiplicando las muestras de senal de audio seleccionadas y un valor que depende de la informacion de ganancia que esta compuesta por dicha otra trama que es recibida previamente por la interfaz receptora 1310.
5
[0428] De acuerdo con una realizacion, el procesador de muestras 1340 puede estar, por ejemplo,
configurado para almacenar las muestras de senal de audio reconstruida en el bufer de retardo 1320.
[0429] En una realizacion, el procesador de muestras 1340 puede estar, por ejemplo, configurado para
10 almacenar las muestras de senal de audio reconstruida en el bufer de retardo 1320 antes de que una trama
adicional sea recibida por la interfaz receptora 1310.
[0430] De acuerdo con una realizacion, el procesador de muestras 1340 puede estar, por ejemplo,
configurado para almacenar las muestras de senal de audio reconstruida en el bufer de retardo 1320 despues de
15 que una trama adicional sea recibida por la interfaz receptora 1310.
[0431] En una realizacion, el procesador de muestras 1340 puede estar, por ejemplo, configurado para
sustituir la escala de las muestras de senal de audio seleccionadas dependiendo de la informacion de ganancia para obtener muestras de senal de audio con la escala sustituida y, combinando las muestras de senal de audio con la
20 escala sustituida con muestras de senal de audio de entrada, para obtener las muestras de senal de audio procesadas.
[0432] De acuerdo con una realizacion, el procesador de muestras 1340 puede estar, por ejemplo,
configurado para almacenar las muestras de senal de audio procesadas, que indican la combinacion de las
25 muestras de senal de audio con la escala sustituida y las muestras de senal de audio de entrada, en el bufer de retardo 1320, y para no almacenar las muestras de senal de audio con la escala sustituida en el bufer de retardo 1320, si la trama actual es recibida por la interfaz receptora 1310 y si la trama actual que es recibida por la interfaz receptora 1310 no esta alterada. Ademas, el procesador de muestras 1340 esta configurado para almacenar las muestras de senal de audio con la escala sustituida en el bufer de retardo 1320 y para no almacenar las muestras 30 de senal de audio procesadas en el bufer de retardo 1320, si la trama actual no es recibida por la interfaz receptora 1310 o si la trama actual que es recibida por la interfaz receptora 1310 esta alterada.
[0433] De acuerdo con otra realizacion, el procesador de muestras 1340 puede estar, por ejemplo,
configurado para almacenar las muestras de senal de audio procesadas en el bufer de retardo 1320, si la trama
35 actual no es recibida por la interfaz receptora 1310 o si la trama actual que es recibida por la interfaz receptora 1310 esta alterada.
[0434] En una realizacion, el selector de muestras 1330 puede estar, por ejemplo, configurado para obtener las muestras de senal de audio reconstruida sustituyendo la escala de las muestras de senal de audio seleccionadas
40 dependiendo de una ganancia modificada, en la que la ganancia modificada se define de acuerdo con la formula:
gain = gain_past * damping;
en la que gain es la ganancia modificada, en la que el selector de muestras 1330 puede estar, por ejemplo, 45 configurado para ajustar gain_past a la ganancia despues de gain y ha sido calculado, y en la que damping es un numero real.
[0435] De acuerdo con una realizacion, el selector de muestras 1330 puede estar, por ejemplo, configurado para calcular la ganancia modificada.
50
[0436] En una realizacion, damping puede definirse, por ejemplo, de acuerdo con: 0 < damping < 1.
[0437] De acuerdo con una realizacion, la ganancia modificada gain puede ajustarse, por ejemplo, a cero, si al menos un numero predeterminado de tramas no ha sido recibido por la interfaz receptora 1310 desde que una
55 trama ha sido recibida la ultima por la interfaz receptora 1310.
[0438] En lo sucesivo, se considera la velocidad de desvanecimiento. Hay varios modulos de ocultamiento que aplican cierta clase de desvanecimiento. Aunque la velocidad de este desvanecimiento podrla seleccionarse de forma diferente a traves de estos modulos, es beneficioso usar la misma velocidad de desvanecimiento para todos
los modulos de ocultamiento para un nucleo (ACELP o TCX). Por ejemplo:
Para ACELP, debe usarse la misma velocidad de desvanecimiento, en particular, para el libro de codigos adaptativo (alterando la ganancia), y/o para la senal del libro de codigos innovador (alterando la ganancia).
5
[0439] Ademas, para TCX, debe usarse la misma velocidad de desvanecimiento, en particular, para senal de dominio temporal, y/o para la ganancia de LTP (desvanecimiento a cero), y/o para la ponderacion de LPC (desvanecimiento a cero), y/o para los coeficientes de LP (desvanecimiento a forma espectral de fondo), y/o para el desvanecimiento gradual a ruido blanco.
10
[0440] Podrla ser preferible ademas usar tambien la misma velocidad de desvanecimiento para ACELP y TCX pero, debido a la diferente naturaleza de los nucleos, tambien podrla elegirse usar diferentes velocidades de desvanecimiento.
15 [0441] Esta velocidad de desvanecimiento podrla ser estatica, pero es preferentemente adaptativa a las
caracterlsticas de senal. Por ejemplo, la velocidad de desvanecimiento puede depender, por ejemplo, del factor de estabilidad de LPC (TCX) y/o de una clasificacion, y/o de un numero de tramas perdidas consecutivamente.
[0442] La velocidad de desvanecimiento puede determinarse, por ejemplo, dependiendo del factor de 20 atenuacion, que podrla proporcionarse absoluta o relativamente, y que tambien podrla cambiar a lo largo del tiempo
durante cierto desvanecimiento.
[0443] En realizaciones, se usa la misma velocidad de desvanecimiento para desvanecimiento de la ganancia de LTP que para el desvanecimiento de ruido blanco.
25
[0444] Se ha proporcionado un aparato, procedimiento y programa informatico para generar una senal de ruido de confort tal como se ha descrito anteriormente.
[0445] Aunque algunos aspectos se han descrito en el contexto de un aparato, es evidente que estos 30 aspectos tambien representan una description del procedimiento correspondiente, donde un bloque o dispositivo
corresponde a una etapa del procedimiento o una caracterlstica de una etapa del procedimiento. Analogamente, los aspectos descritos en el contexto de una etapa del procedimiento tambien representan una descripcion de un bloque o elemento o caracterlstica correspondiente de un aparato correspondiente.
35 [0446] La senal descompuesta de la invention puede ser almacenada en un medio de almacenamiento digital
o puede ser transmitida sobre un medio de transmision tal como un medio de transmision inalambrico o un medio de transmision por cable, tal como Internet.
[0447] Dependiendo de ciertos requisitos de implementation, las realizaciones de la invencion pueden 40 implementarse en hardware o en software. La implementacion puede realizarse usando un medio de
almacenamiento digital, por ejemplo, un disquete, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tienen senales de control legibles electronicamente almacenadas en el mismo, que cooperan (o son capaces de cooperar) con un sistema informatico programable de modo que se lleve a cabo el procedimiento respectivo.
45
[0448] Algunas realizaciones de acuerdo con la invencion comprenden un soporte de datos no transitorio con senales de control legibles electronicamente, que son capaces de cooperar con un sistema informatico programable, de modo que se lleve a cabo uno de los procedimientos descritos en el presente documento.
50 [0449] Generalmente, las realizaciones de la presente invencion pueden implementarse como un producto de
programa informatico con un codigo de programa, siendo el codigo de programa operativo para realizar uno de los procedimientos, cuando el producto de programa informatico se ejecuta en un ordenador. El codigo de programa puede ser almacenado en un soporte legible por maquina, por ejemplo.
55 [0450] Otras realizaciones comprenden el programa informatico para realizar uno de los procedimientos
descritos en el presente documento, almacenado en un soporte legible por maquina.
[0451] En otras palabras, una realization del procedimiento de la invencion es, por lo tanto, un programa
informatico que tiene un codigo de programa para realizar uno de los procedimientos descritos en el presente
documento, cuando el programa informatico es ejecutado en un ordenador.
[0452] Una realization adicional de los procedimientos de la invention es, por lo tanto, un soporte de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, registrado en el mismo, el
5 programa informatico para realizar uno de los procedimientos descritos en el presente documento.
[0453] Una realizacion adicional del procedimiento de la invencion es, por lo tanto, un flujo de datos o una secuencia de senales que representan el programa informatico para realizar uno de los procedimientos descritos en el presente documento. El flujo de datos o la secuencia de senales pueden, por ejemplo, estar configurados para ser
10 transferidos a traves de una conexion de comunicacion de datos, por ejemplo, a traves de Internet.
[0454] Una realizacion adicional comprende un medio de procesamiento, por ejemplo, un ordenador, o un dispositivo logico programable, configurado para o adaptado para realizar uno de los procedimientos descritos en el presente documento.
15
[0455] Una realizacion comprende ademas un ordenador que tiene instalado en el mismo el programa informatico para realizar uno de los procedimientos descritos en el presente documento.
[0456] En algunas realizaciones, puede usarse un dispositivo logico programable (por ejemplo, una matriz de 20 puertas programables in situ) para realizar algunas o todas las funcionalidades de los procedimientos descritos en el
presente documento. En algunas realizaciones, una matriz de puertas programables in situ podra cooperar con un microprocesador con el fin de realizar uno de los procedimientos descritos en el presente documento. Generalmente, los procedimientos son realizados preferentemente por cualquier aparato de hardware.
25 [0457] Las realizaciones descritas anteriormente son meramente ilustrativas de los principios de la presente
invencion. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento seran evidentes para otros expertos en la materia. La intention es, por lo tanto, estar limitada solo por el alcance de las reivindicaciones de patente inminentes y no por los detalles especlficos presentados a modo de description y explication de las realizaciones en el presente documento.
30
Referencias
[0458]
35 [3GP09a] 3GPP; Technical Specification Group Services and System Aspects, Extended adaptive multi-rate - wideband (AMR-WB+) codec, 3GPP TS 26.290, 3rd Generation Partnership Project, 2009.
[3GP09b] Extended adaptive multi-rate - wideband (AMR-WB+) codec; floating-point ANSI-C code, 3GPP TS 26.304, 3rd Generation Partnership Project, 2009.
40
[3GP09c] vSpeech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; transcoding functions, 3GPP TS 26.190, 3rd Generation Partnership Project, 2009.
[3GP12a] Adaptive multi-rate (AMR) speech codec; error concealment of lost frames (release 11), 3GPP TS 26.091, 45 3rd Generation Partnership Project, septiembre de 2012.
[3GP12b] Adaptive multi-rate (AMR) speech codec; transcoding functions (release 11), 3GPP TS 26.090, 3rd Generation Partnership Project, septiembre de 2012.
50 [3GP12c], ANSI-C code for the adaptive multi-rate - wideband (AMR-WB) speech codec, 3GPP TS 26.173, 3rd Generation Partnership Project, septiembre de 2012.
[3GP12d] ANSI-C code for the floating-point adaptive multi-rate (AMR) speech codec (release11), 3GPP TS 26.104, 3rd Generation Partnership Project, septiembre de 2012.
55
[3GP12e] General audio codec audio processing functions; Enhanced aacPlus general audio codec; additional decoder tools (release 11), 3GPP TS 26.402, 3rd Generation Partnership Project, septiembre de 2012.
[3GP12f] Speech codec speech processing functions; adaptive multi-rate - wideband (amr-wb) speech codec; ansi-c
code, 3GPP TS 26.204, 3rd Generation Partnership Project, 2012.
[3GP12g] Speech codec speech processing functions; adaptive multi-rate - wideband (AMR-WB) speech codec; error concealment of erroneous or lost frames, 3GPP TS 26.191, 3rd Generation Partnership Project, septiembre de 2012. 5
[BJH06] I. Batina, J. Jensen, y R. Heusdens, Noise power spectrum estimation for speech enhancement using an autoregressive model for speech power spectrum dynamics, in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. 3 (2006), 1064-1067.
10 [BP06] A. Borowicz y A. Petrovsky, Minima controlled noise estimation for klt-based speech enhancement, CD-ROM, 2006, Italia, Florencia.
[Coh03] I. Cohen, Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging, IEEE Trans. Speech Audio Process. 11 (2003), no. 5, 466-475.
15
[CPK08] Choong Sang Cho, Nam In Park y Hong Kook Kim, A packet loss concealment algorithm robust to burst packet loss for celp- type speech coders, Tech. report, Korea Enectronics Technology Institute, Gwang Institute of Science and Technology, 2008, The 23rd International Technical Conference on Circuits/Systems, Computers and Communications (ITC-CSCC 2008).
20
[Dob95] G. Doblinger, Computationally efficient speech enhancement by spectral minima tracking in subbands, in Proc. Eurospeech (1995), 1513-1516.
[EBU10] EBU/ETSI JTC Broadcast, Digital audio broadcasting (DAB); transport of advanced audio coding (AAC) 25 audio, ETSI TS 102 563, European Broadcasting Union, mayo de 2010.
[EBU12] Digital radio mondiale (DRM); system specification, ETSI ES 201 980, ETSI, junio de 2012.
[EH08] Jan S. Erkelens y Richards Heusdens, Tracking of Nonstationary Noise Based on Data-Driven Recursive 30 Noise Power Estimation, Audio, Speech, and Language Processing, IEEE Transactions on 16 (2008), no. 6, 11121123.
[EM84] Y. Ephraim y D. Malah, Speech enhancement using a minimum meansquare error short-time spectral amplitude estimator, IEEE Trans. Acoustics, Speech and Signal Processing 32 (1984), no. 6, 1109-1121.
35
[EM85] Speech enhancement using a minimum mean-square error log-spectral amplitude estimator, IEEE Trans. Acoustics, Speech and Signal Processing 33 (1985), 443-445.
[Gan05] S. Gannot, Speech enhancement: Application of the kalman filter in the estimate-maximize (em framework), 40 Springer, 2005.
[HE95] H. G. Hirsch y C. Ehrlicher, Noise estimation techniques for robust speech recognition, Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, no. pags. 153-156, IEEE, 1995.
45 [HHJ10] Richard C. Hendriks, Richard Heusdens y Jesper Jensen, MMSE based noise PSD tracking with low complexity, Acoustics Speech and Signal Processing (ICASSP), 2010 IEEE International Conference on, marzo de 2010, pags. 4266 -4269.
[HJH08] Richard C. Hendriks, Jesper Jensen y Richard Heusdens, Noise tracking using dft domain subspace 50 decompositions, IEEE Trans. Audio, Speech, Lang. Process. 16 (2008), no. 3, 541-553.
[IET12] IETF, Definition of the Opus Audio Codec, Tech. Report RFC 6716, Internet Engineering Task Force, septiembre de 2012.
55 [ISO09] ISO/IEC JTC1/SC29/WG11, Information technology - coding of audiovisual objects - part 3: Audio, ISO/IEC IS 14496-3, International Organization for Standardization, 2009.
[ITU03] ITU-T, Wideband coding of speech at around 16 kbit/s using adaptive multirate wideband (amr-wb), Recommendation ITU-T G.722.2, Telecommunication Standardization Sector of ITU, julio de 2003.
[ITU05] Low-complexity coding at 24 and 32 kbit/s for hands-free operation in systems with low frame loss, Recommendation ITU-T G.722.1, Telecommunication Standardization Sector of ITU, mayo de 2005.
5 [ITU06a] G.722 Appendix III: A high-complexity algorithm for packet loss concealment for G. 722, ITU-T Recommendation, ITU-T, noviembre de 2006.
[ITU06b] G.729.1: G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with g.729, Recommendation ITU-T G.729.1, Telecommunication Standardization Sector of ITU, mayo 10 de 2006.
[ITU07] G.722 Appendix IV: A low-complexity algorithm for packet loss concealment with G.722, ITU-T Recommendation, ITU-T, agosto de 2007.
15 [ITU08a] G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s, Recommendation ITU-T G.718, Telecommunication Standardization Sector of ITU, junio de 2008.
[ITU08b] G.719: Low-complexity, full-band audio coding for high-quality, conversational applications, 20 Recommendation ITU-T G.719, Telecommunication Standardization Sector of ITU, junio de 2008.
[ITU12] G. 729: Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (cs- acelp), Recommendation ITU-T G.729, Telecommunication Standardization Sector of ITU, junio de 2012.
25 [LS01] Pierre Lauber y Ralph Sperschneider, Error concealment for compressed digital audio, Audio Engineering Society Convention 111, no. 5460, septiembre de 2001.
[Mar01] Rainer Martin, Noise power spectral density estimation based on optimal smoothing and minimum statistics, IEEE Transactions on Speech and Audio Processing 9 (2001), no. 5, 504 -512.
30
[Mar03] Statistical methods for the enhancement of noisy speech, International Workshop on Acoustic Echo and Noise Control (IWAENC2003), Technical University of Braunschweig, septiembre de 2003.
[MC99] R. Martin y R. Cox, New speech enhancement techniques for low bit rate speech coding, in Proc. IEEE 35 Workshop on Speech Coding (1999), 165-167.
[MCA99] D. Malah, R. V. Cox, y A. J. Accardi, Tracking speech-presence uncertainty to improve speech enhancement in nonstationary noise environments, Proc. IEEE Int. Conf. on Acoustics Speech and Signal Processing (1999), 789-792.
40
[MEP01] Nikolaus Meine, Bernd Edler y Heiko Purnhagen, Error protection and concealment for HILN MPEG-4 parametric audio coding, Audio Engineering Society Convention 110, no. 5300, mayo de 2001.
[MPC89] Y. Mahieux, J.-P. Petit y A. Charbonnier, Transform coding of audio signals using correlation between 45 successive transform blocks, Acoustics, Speech, and Signal Processing, 1989. ICASSP-89., 1989 International Conference on, 1989, pags. 2021-2024 vol.3.
[NMR+12] Max Neuendorf, Markus Multrus, Nikolaus Rettelbach, Guillaume Fuchs, Julien Robilliard, Jeremie Lecomte, Stephan Wilde, Stefan Bayer, Sascha Disch, Christian Helmrich, Roch Lefebvre, Philippe Gournay, Bruno 50 Bessette, Jimmy Lapierre, Kristopfer Kjorling, Heiko Purnhagen, Lars Villemoes, Werner Oomen, Erik Schuijers, Kei Kikuiri, Toru Chinen, Takeshi Norimatsu, Chong Kok Seng, Eunmi Oh, Miyoung Kim, Schuyler Quackenbush y Berndhard Grill, MPEG Unified Speech and Audio Coding - The ISO / MPEG Standard for High-Efficiency Audio Coding of all Content Types, Convention Paper 8654, AES, abril de 2012, Presentado en la 132a Convencion Budapest, Hungrla.
[PKJ+11] Nam In Park, Hong Kook Kim, Min A Jung, Seong Ro Lee, and Seung Ho Choi, Burst packet loss concealment using multiple codebooks and comfort noise for celp-type speech coders in wireless sensor networks, Sensors 11 (2011), 5323-5336.
[QD03] Schuyler Quackenbush y Peter F. Driessen, Error mitigation in MPEG-4 audio packet communication systems, Audio Engineering Society Convention 115, no. 5981, octubre de 2003.
[RL06] S. Rangachari y P. C. Loizou, A noise-estimation algorithm for highly non-stationary environments, Speech 5 Commun. 48 (2006), 220-231.
[SFB00] V. Stahl, A. Fischer y R. Bippus, Quantile based noise estimation for spectral subtraction and wiener filtering, in Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. (2000), 1875-1878.
10 [SS98] J. Sohn y W. Sung, A voice activity detector employing soft decision based noise spectrum adaptation, Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, no. pags. 365-368, IEEE, 1998.
[Yu09] Rongshan Yu, A low-complexity noise estimation algorithm based on smoothing of noise power estimation and estimation bias correction, Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International 15 Conference on, abril de 2009, pags. 4421-4424.

Claims (15)

  1. REIVINDICACIONES
    1. Un aparato para decodificar una senal de audio codificada para obtener una senal de audio reconstruida, en el que el aparato comprende:
    5
    una interfaz receptora (1210) para recibir una o mas tramas que comprenden information sobre una pluralidad de muestras de senal de audio de un espectro de senal de audio de la senal de audio codificada, y un procesador (1220) para generar la senal de audio reconstruida,
    en el que el procesador (1220) esta configurado para generar la senal de audio reconstruida desvaneciendo un 10 espectro modificado a un espectro diana, si una trama actual no es recibida por la interfaz receptora (1210) o si la trama actual es recibida por la interfaz receptora (1210) pero esta alterada, en el que el espectro modificado comprende una pluralidad de muestras de senal modificadas, en el que, para cada una de las muestras de senal modificadas del espectro modificado, un valor absoluto de dicha muestra de senal modificada es igual a un valor absoluto de una de las muestras de senal de audio del espectro de senal de audio, y 15 en el que el procesador (1220) esta configurado para no desvanecer el espectro modificado al espectro diana, si la trama actual de las una o mas tramas es recibida por la interfaz receptora (1210) y si la trama actual que es recibida por la interfaz receptora (1210) no esta alterada.
  2. 2. Un aparato de acuerdo con la reivindicacion 1, en el que el espectro diana es un espectro de tipo 20 ruido.
  3. 3. Un aparato de acuerdo con la reivindicacion 2, en el que el espectro de tipo ruido representa ruido blanco.
    25 4. Un aparato de acuerdo con la reivindicacion 2 o 3, en el que el espectro de tipo ruido esta conformado.
  4. 5. Un aparato de acuerdo con la reivindicacion 4, en el que la forma del espectro de tipo ruido depende
    de un espectro de senal de audio de una senal recibida previamente.
    30
  5. 6. Un aparato de acuerdo con la reivindicacion 4 o 5, en el que el espectro de tipo ruido esta conformado
    dependiendo de la forma del espectro de senal de audio.
  6. 7. Un aparato de acuerdo con una de las reivindicaciones 4 a 6, en el que el procesador (1220) emplea un factor de inclination para conformar el espectro de tipo ruido.
    35
  7. 8. Un aparato de acuerdo con la reivindicacion 7, en el que el procesador (1220) emplea la formula
    shaped_noise[i] = noise * power(tilt_factor,i/N)
    40 en la que N indica el numero de muestras, en la que i es un indice, en la que 0<= i < N, con tilt_factor > 0, y en la que power es una funcion de potencia.
    45 9. Un aparato de acuerdo con una de las reivindicaciones anteriores, en el que el procesador (1220) esta
    configurado para generar el espectro modificado, cambiando un signo de una o mas de las muestras de senal de audio del espectro de senal de audio, si la trama actual no es recibida por la interfaz receptora (1210) o si la trama actual que es recibida por la interfaz receptora (1210) esta alterada.
    50 10. Un aparato de acuerdo con una de las reivindicaciones anteriores, en el que cada una de las muestras
    de senal de audio del espectro de senal de audio esta representada por un numero real pero no por un numero imaginario.
  8. 11. Un aparato de acuerdo con una de las reivindicaciones anteriores, en el que las muestras de senal de
    55 audio del espectro de senal de audio estan representadas en un dominio de transformada de coseno discreta modificada.
  9. 12. Un aparato de acuerdo con una de las reivindicaciones 1 a 10, en el que las muestras de senal de
    audio del espectro de senal de audio estan representadas en un dominio de transformada de seno discreta
    modificada.
  10. 13. Un aparato de acuerdo con la reivindicacion 9, en el que el procesador (1220) esta configurado para generar el espectro modificado empleando una funcion de signo aleatorio que emite de forma aleatoria o
    5 pseudoaleatoria bien un primer o bien un segundo valor.
  11. 14. Un aparato de acuerdo con una de las reivindicaciones anteriores, en el que el procesador (1220) esta configurado para desvanecer el espectro modificado al espectro diana disminuyendo posteriormente un factor de atenuacion.
    10
  12. 15. Un aparato de acuerdo con una de las reivindicaciones 1 a 3, en el que el procesador (1220) esta configurado para desvanecer el espectro modificado al espectro diana aumentando posteriormente un factor de atenuacion.
    15 16. Un aparato de acuerdo con una de las reivindicaciones 1 a 12, en el que, si la trama actual no es
    recibida por la interfaz receptora (1210) o si la trama actual que es recibida por la interfaz receptora (1210) esta alterada, el procesador (1220) esta configurado para generar la senal de audio reconstruida empleando la formula:
    x[i] = (l-cum_damping) * noise[i] + cum_damping *
    random_sign() * x_old[i]
    20
    en la que i es un Indice,
    en la que x[i] indica una muestra de la senal de audio reconstruida, en la que cum_damping es un factor de atenuacion,
    en la que x_old[i] indica una de las muestras de senal de audio del espectro de senal de audio de la senal de 25 audio codificada,
    en la que random_sign() retorna 1 o -1, y
    en la que noise es un vector aleatorio que indica el espectro diana.
    17 Un aparato de acuerdo con la reivindicacion 16, en el que dicho vector aleatorio noise es convertido a
    30 escala de modo que su media cuadratica sea similar a la media cuadratica del espectro de la senal de audio codificada que esta compuesta por una de las tramas que han sido recibidas por la interfaz receptora (1210).
  13. 18. Un aparato de acuerdo con una de las reivindicaciones 1 a 15, en el que el procesador (1220) esta
    configurado para generar la senal de audio reconstruida, empleando un vector aleatorio que es convertido a escala
    35 de modo que su media cuadratica sea similar a la media cuadratica del espectro de la senal de audio codificada que esta compuesta por una de las tramas que han sido recibidas por la interfaz receptora (1210).
  14. 19. Un procedimiento para decodificar una senal de audio codificada para obtener una senal de audio reconstruida, en el que el procedimiento comprende:
    40 recibir una o mas tramas que comprenden information sobre una pluralidad de muestras de senal de audio de un espectro de senal de audio de la senal de audio codificada, y generar la senal de audio reconstruida,
    en el que generar la senal de audio reconstruida se lleva a cabo desvaneciendo un espectro modificado a un espectro diana, si una trama actual no es recibida o si la trama actual es recibida pero esta alterada, en el que el 45 espectro modificado comprende una pluralidad de muestras de senal modificadas, en la que, para cada una de las muestras de senal modificadas del espectro modificado, un valor absoluto de dicha muestra de senal modificada es igual a un valor absoluto de una de las muestras de senal de audio del espectro de senal de audio, y
    en el que generar la senal de audio reconstruida se lleva a cabo no desvaneciendo el espectro modificado al 50 espectro diana, si la trama actual de las una o mas tramas es recibida y si la trama actual que es recibida no esta alterada.
  15. 20. Un programa informatico adaptado para implementar el procedimiento de la reivindicacion 19, cuando es ejecutado en un ordenador o un procesador de senales.
ES14732195.4T 2013-06-21 2014-06-23 Aparato y procedimiento que realiza un desvanecimiento de un espectro MDCT a ruido blanco antes de la aplicación de FDNS Active ES2639127T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13173154 2013-06-21
EP13173154 2013-06-21
EP14166998 2014-05-05
EP14166998 2014-05-05
PCT/EP2014/063175 WO2014202788A1 (en) 2013-06-21 2014-06-23 Apparatus and method realizing a fading of an mdct spectrum to white noise prior to fdns application

Publications (1)

Publication Number Publication Date
ES2639127T3 true ES2639127T3 (es) 2017-10-25

Family

ID=50981527

Family Applications (5)

Application Number Title Priority Date Filing Date
ES14732196T Active ES2780696T3 (es) 2013-06-21 2014-06-23 Decodificación de audio con reconstrucción de tramas no recibidas o alteradas mediante el uso de TCX LTP
ES14732195.4T Active ES2639127T3 (es) 2013-06-21 2014-06-23 Aparato y procedimiento que realiza un desvanecimiento de un espectro MDCT a ruido blanco antes de la aplicación de FDNS
ES14732194.7T Active ES2644693T3 (es) 2013-06-21 2014-06-23 Aparato y método para generar una forma espectral adaptativa de ruido de confort
ES14732193.9T Active ES2635027T3 (es) 2013-06-21 2014-06-23 Aparato y método para el desvanecimiento de señales mejorado para sistemas de codificación de audio cambiados durante el ocultamiento de errores
ES14739070.2T Active ES2635555T3 (es) 2013-06-21 2014-06-23 Aparato y método para el desvanecimiento de señales mejorado en diferentes dominios durante el ocultamiento de errores

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES14732196T Active ES2780696T3 (es) 2013-06-21 2014-06-23 Decodificación de audio con reconstrucción de tramas no recibidas o alteradas mediante el uso de TCX LTP

Family Applications After (3)

Application Number Title Priority Date Filing Date
ES14732194.7T Active ES2644693T3 (es) 2013-06-21 2014-06-23 Aparato y método para generar una forma espectral adaptativa de ruido de confort
ES14732193.9T Active ES2635027T3 (es) 2013-06-21 2014-06-23 Aparato y método para el desvanecimiento de señales mejorado para sistemas de codificación de audio cambiados durante el ocultamiento de errores
ES14739070.2T Active ES2635555T3 (es) 2013-06-21 2014-06-23 Aparato y método para el desvanecimiento de señales mejorado en diferentes dominios durante el ocultamiento de errores

Country Status (19)

Country Link
US (15) US9916833B2 (es)
EP (5) EP3011558B1 (es)
JP (5) JP6360165B2 (es)
KR (5) KR101790901B1 (es)
CN (9) CN105431903B (es)
AU (5) AU2014283194B2 (es)
BR (5) BR112015031180B1 (es)
CA (5) CA2916150C (es)
ES (5) ES2780696T3 (es)
HK (5) HK1224076A1 (es)
MX (5) MX351576B (es)
MY (5) MY170023A (es)
PL (5) PL3011559T3 (es)
PT (5) PT3011559T (es)
RU (5) RU2675777C2 (es)
SG (5) SG11201510510PA (es)
TW (5) TWI553631B (es)
WO (5) WO2014202784A1 (es)
ZA (1) ZA201600310B (es)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3011558B1 (en) 2013-06-21 2017-07-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an adaptive spectral shape of comfort noise
FR3024582A1 (fr) 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
US10008214B2 (en) * 2015-09-11 2018-06-26 Electronics And Telecommunications Research Institute USAC audio signal encoding/decoding apparatus and method for digital radio services
ES2769061T3 (es) * 2015-09-25 2020-06-24 Fraunhofer Ges Forschung Codificador y método para codificar una señal de audio con ruido de fondo reducido que utiliza codificación predictiva lineal
CA3016949C (en) * 2016-03-07 2021-08-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Error concealment unit, audio decoder, and related method and computer program fading out a concealed audio frame out according to different damping factors for different frequency bands
MX2018010756A (es) 2016-03-07 2019-01-14 Fraunhofer Ges Forschung Unidad de ocultamiento de error, decodificador de audio, y método relacionado y programa de computadora que usa características de una representación decodificada de una trama de audio decodificada apropiadamente.
KR102158743B1 (ko) * 2016-03-15 2020-09-22 한국전자통신연구원 자연어 음성인식의 성능향상을 위한 데이터 증강장치 및 방법
TWI602173B (zh) * 2016-10-21 2017-10-11 盛微先進科技股份有限公司 音訊處理方法與非暫時性電腦可讀媒體
CN108074586B (zh) * 2016-11-15 2021-02-12 电信科学技术研究院 一种语音问题的定位方法和装置
US10354668B2 (en) * 2017-03-22 2019-07-16 Immersion Networks, Inc. System and method for processing audio data
CN107123419A (zh) * 2017-05-18 2017-09-01 北京大生在线科技有限公司 Sphinx语速识别中背景降噪的优化方法
CN109427337B (zh) 2017-08-23 2021-03-30 华为技术有限公司 立体声信号编码时重建信号的方法和装置
EP3483884A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483886A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
US10650834B2 (en) 2018-01-10 2020-05-12 Savitech Corp. Audio processing method and non-transitory computer readable medium
EP3553777B1 (en) * 2018-04-09 2022-07-20 Dolby Laboratories Licensing Corporation Low-complexity packet loss concealment for transcoded audio signals
TWI657437B (zh) * 2018-05-25 2019-04-21 英屬開曼群島商睿能創意公司 電動載具以及播放、產生與其相關音頻訊號之方法
EP3821430A1 (en) * 2018-07-12 2021-05-19 Dolby International AB Dynamic eq
CN109117807B (zh) * 2018-08-24 2020-07-21 广东石油化工学院 一种plc通信信号自适应时频峰值滤波方法及系统
US10763885B2 (en) 2018-11-06 2020-09-01 Stmicroelectronics S.R.L. Method of error concealment, and associated device
CN111402905B (zh) * 2018-12-28 2023-05-26 南京中感微电子有限公司 音频数据恢复方法、装置及蓝牙设备
KR102603621B1 (ko) * 2019-01-08 2023-11-16 엘지전자 주식회사 신호 처리 장치 및 이를 구비하는 영상표시장치
WO2020165265A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment
WO2020164751A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment
CN110265046B (zh) * 2019-07-25 2024-05-17 腾讯科技(深圳)有限公司 一种编码参数调控方法、装置、设备及存储介质
JP7314414B2 (ja) * 2019-12-02 2023-07-25 グーグル エルエルシー シームレスなオーディオ混合のための方法、システム、および媒体
TWI789577B (zh) * 2020-04-01 2023-01-11 同響科技股份有限公司 音訊資料重建方法及系統
CN113747304B (zh) * 2021-08-25 2024-04-26 深圳市爱特康科技有限公司 一种新型的低音回放方法和装置
CN114582361B (zh) * 2022-04-29 2022-07-08 北京百瑞互联技术有限公司 基于生成对抗网络的高解析度音频编解码方法及系统

Family Cites Families (173)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4933973A (en) * 1988-02-29 1990-06-12 Itt Corporation Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
US5097507A (en) 1989-12-22 1992-03-17 General Electric Company Fading bit error protection for digital cellular multi-pulse speech coder
CA2010830C (en) 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
US5148487A (en) * 1990-02-26 1992-09-15 Matsushita Electric Industrial Co., Ltd. Audio subband encoded signal decoder
TW224191B (es) 1992-01-28 1994-05-21 Qualcomm Inc
US5271011A (en) 1992-03-16 1993-12-14 Scientific-Atlanta, Inc. Digital audio data muting system and method
SE501340C2 (sv) 1993-06-11 1995-01-23 Ericsson Telefon Ab L M Döljande av transmissionsfel i en talavkodare
US5615298A (en) 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
JP3328080B2 (ja) 1994-11-22 2002-09-24 沖電気工業株式会社 コード励振線形予測復号器
KR970011728B1 (ko) * 1994-12-21 1997-07-14 김광호 음향신호의 에러은닉방법 및 그 장치
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
SE9500858L (sv) * 1995-03-10 1996-09-11 Ericsson Telefon Ab L M Anordning och förfarande vid talöverföring och ett telekommunikationssystem omfattande dylik anordning
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
JP3522012B2 (ja) 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
JP3157116B2 (ja) * 1996-03-29 2001-04-16 三菱電機株式会社 音声符号化伝送システム
US6075974A (en) * 1996-11-20 2000-06-13 Qualcomm Inc. Method and apparatus for adjusting thresholds and measurements of received signals by anticipating power control commands yet to be executed
JP3649854B2 (ja) * 1997-05-09 2005-05-18 松下電器産業株式会社 音声符号化装置
JP2001508268A (ja) * 1997-09-12 2001-06-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 欠損部分の改善された再構成を伴う伝送システム
KR100335611B1 (ko) 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
DE69926821T2 (de) 1998-01-22 2007-12-06 Deutsche Telekom Ag Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
US6351730B2 (en) * 1998-03-30 2002-02-26 Lucent Technologies Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US20010014857A1 (en) * 1998-08-14 2001-08-16 Zifei Peter Wang A voice activity detector for packet voice network
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
FR2784218B1 (fr) * 1998-10-06 2000-12-08 Thomson Csf Procede de codage de la parole a bas debit
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6289309B1 (en) 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6661793B1 (en) * 1999-01-19 2003-12-09 Vocaltec Communications Ltd. Method and apparatus for reconstructing media
US6640209B1 (en) * 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
US6377915B1 (en) 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
JP4470322B2 (ja) 1999-03-19 2010-06-02 ソニー株式会社 付加情報埋め込み方法及びその装置並びに付加情報の復調方法及びその復調装置
CA2335005C (en) * 1999-04-19 2005-10-11 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US7117156B1 (en) * 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
DE19921122C1 (de) 1999-05-07 2001-01-25 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verschleiern eines Fehlers in einem codierten Audiosignal und Verfahren und Vorrichtung zum Decodieren eines codierten Audiosignals
US6284551B1 (en) * 1999-06-14 2001-09-04 Hyundai Electronics Industries Co., Ltd. Capacitor and method for fabricating the same
US6604070B1 (en) 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6636829B1 (en) 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
FI116643B (fi) 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US6826527B1 (en) 1999-11-23 2004-11-30 Texas Instruments Incorporated Concealment of frame erasures and method
ATE388542T1 (de) * 1999-12-13 2008-03-15 Broadcom Corp Sprach-durchgangsvorrichtung mit sprachsynchronisierung in abwärtsrichtung
GB2358558B (en) * 2000-01-18 2003-10-15 Mitel Corp Packet loss compensation method using injection of spectrally shaped noise
US6584438B1 (en) * 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
FI115329B (fi) * 2000-05-08 2005-04-15 Nokia Corp Menetelmä ja järjestely lähdesignaalin kaistanleveyden vaihtamiseksi tietoliikenneyhteydessä, jossa on valmiudet useisiin kaistanleveyksiin
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
EP1199709A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
US7031926B2 (en) 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
US7171355B1 (en) 2000-10-25 2007-01-30 Broadcom Corporation Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
US7113522B2 (en) 2001-01-24 2006-09-26 Qualcomm, Incorporated Enhanced conversion of wideband signals to narrowband signals
US7069208B2 (en) * 2001-01-24 2006-06-27 Nokia, Corp. System and method for concealment of data loss in digital audio transmission
FR2820227B1 (fr) * 2001-01-30 2003-04-18 France Telecom Procede et dispositif de reduction de bruit
US20040204935A1 (en) 2001-02-21 2004-10-14 Krishnasamy Anandakumar Adaptive voice playout in VOP
US6520762B2 (en) 2001-02-23 2003-02-18 Husky Injection Molding Systems, Ltd Injection unit
DE60233283D1 (de) 2001-02-27 2009-09-24 Texas Instruments Inc Verschleierungsverfahren bei Verlust von Sprachrahmen und Dekoder dafer
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7379865B2 (en) 2001-10-26 2008-05-27 At&T Corp. System and methods for concealing errors in data transmission
WO2003042979A2 (en) * 2001-11-14 2003-05-22 Matsushita Electric Industrial Co., Ltd. Encoding device and decoding device
CA2365203A1 (en) 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
EP1464047A4 (en) * 2002-01-08 2005-12-07 Dilithium Networks Pty Ltd TRANSCODE SCHEME BETWEEN CELP-BASED LANGUAGE CODES
US20030162518A1 (en) 2002-02-22 2003-08-28 Baldwin Keith R. Rapid acquisition and tracking system for a wireless packet-based communication device
US7492703B2 (en) 2002-02-28 2009-02-17 Texas Instruments Incorporated Noise analysis in a communication system
CN1653521B (zh) * 2002-03-12 2010-05-26 迪里辛姆网络控股有限公司 用于音频代码转换中的自适应码本音调滞后计算的方法
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7174292B2 (en) 2002-05-20 2007-02-06 Microsoft Corporation Method of determining uncertainty associated with acoustic distortion-based noise reduction
CA2388439A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP2004120619A (ja) * 2002-09-27 2004-04-15 Kddi Corp オーディオ情報復号装置
KR100486732B1 (ko) * 2003-02-19 2005-05-03 삼성전자주식회사 블럭제한된 트렐리스 부호화 양자화방법과 음성부호화시스템에있어서 이를 채용한 라인스펙트럼주파수 계수양자화방법 및 장치
US20040202935A1 (en) * 2003-04-08 2004-10-14 Jeremy Barker Cathode active material with increased alkali/metal content and method of making same
CN100546233C (zh) * 2003-04-30 2009-09-30 诺基亚公司 用于支持多声道音频扩展的方法和设备
US7433815B2 (en) 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
US7224810B2 (en) * 2003-09-12 2007-05-29 Spatializer Audio Laboratories, Inc. Noise reduction system
JP4497911B2 (ja) 2003-12-16 2010-07-07 キヤノン株式会社 信号検出装置および方法、ならびにプログラム
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
JP4744438B2 (ja) 2004-03-05 2011-08-10 パナソニック株式会社 エラー隠蔽装置およびエラー隠蔽方法
US7620546B2 (en) 2004-03-23 2009-11-17 Qnx Software Systems (Wavemakers), Inc. Isolating speech signals utilizing neural networks
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
JP4698593B2 (ja) * 2004-07-20 2011-06-08 パナソニック株式会社 音声復号化装置および音声復号化方法
ES2349718T3 (es) 2004-09-16 2011-01-10 France Telecom Procedimiento de tratamiento de señales acústicas ruidosas y dispositivo para la realización del procedimiento.
SG124307A1 (en) * 2005-01-20 2006-08-30 St Microelectronics Asia Method and system for lost packet concealment in high quality audio streaming applications
KR100612889B1 (ko) 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
US8315857B2 (en) 2005-05-27 2012-11-20 Audience, Inc. Systems and methods for audio signal analysis and modification
KR100686174B1 (ko) * 2005-05-31 2007-02-26 엘지전자 주식회사 오디오 에러 은닉 방법
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
JP4536621B2 (ja) * 2005-08-10 2010-09-01 株式会社エヌ・ティ・ティ・ドコモ 復号装置、および復号方法
US7610197B2 (en) 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
DE602005018274D1 (de) 2005-09-01 2010-01-21 Ericsson Telefon Ab L M Verarbeitung von codierten echtzeitdaten
US8620644B2 (en) 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
KR100717058B1 (ko) * 2005-11-28 2007-05-14 삼성전자주식회사 고주파 성분 복원 방법 및 그 장치
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US7457746B2 (en) 2006-03-20 2008-11-25 Mindspeed Technologies, Inc. Pitch prediction for packet loss concealment
US8798172B2 (en) * 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
US7610195B2 (en) 2006-06-01 2009-10-27 Nokia Corporation Decoding of predictively coded data using buffer adaptation
CN1983909B (zh) * 2006-06-08 2010-07-28 华为技术有限公司 一种丢帧隐藏装置和方法
US8255213B2 (en) * 2006-07-12 2012-08-28 Panasonic Corporation Speech decoding apparatus, speech encoding apparatus, and lost frame concealment method
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
KR101041895B1 (ko) * 2006-08-15 2011-06-16 브로드콤 코포레이션 패킷 손실 후 디코딩된 오디오 신호의 시간 워핑
CN101375330B (zh) * 2006-08-15 2012-02-08 美国博通公司 丢包后解码音频信号的时间扭曲的方法
CN101155140A (zh) 2006-10-01 2008-04-02 华为技术有限公司 音频流错误隐藏的方法、装置和系统
US7877253B2 (en) * 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
KR101409305B1 (ko) 2006-10-20 2014-06-18 오렌지 정보의 부재 시에 디코더측에서의 여기를 생성하기 위한 과유성음화의 감쇄
KR101292771B1 (ko) 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
CN100578618C (zh) * 2006-12-04 2010-01-06 华为技术有限公司 一种解码方法及装置
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
US8688437B2 (en) * 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
US8275611B2 (en) * 2007-01-18 2012-09-25 Stmicroelectronics Asia Pacific Pte., Ltd. Adaptive noise suppression for digital speech signals
KR20080075050A (ko) * 2007-02-10 2008-08-14 삼성전자주식회사 오류 프레임의 파라미터 갱신 방법 및 장치
GB0703275D0 (en) 2007-02-20 2007-03-28 Skype Ltd Method of estimating noise levels in a communication system
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
WO2008108721A1 (en) * 2007-03-05 2008-09-12 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for controlling smoothing of stationary background noise
DE102007018484B4 (de) 2007-03-20 2009-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Senden einer Folge von Datenpaketen und Decodierer und Vorrichtung zum Decodieren einer Folge von Datenpaketen
DE602007001576D1 (de) * 2007-03-22 2009-08-27 Research In Motion Ltd Vorrichtung und Verfahren zur verbesserten Maskierung von Rahmenverlusten
US8014519B2 (en) 2007-04-02 2011-09-06 Microsoft Corporation Cross-correlation based echo canceller controllers
JP5023780B2 (ja) * 2007-04-13 2012-09-12 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
EP1981170A1 (en) 2007-04-13 2008-10-15 Global IP Solutions (GIPS) AB Adaptive, scalable packet loss recovery
US8005023B2 (en) 2007-06-14 2011-08-23 Microsoft Corporation Client-side echo cancellation for multi-party audio conferencing
CN101325537B (zh) * 2007-06-15 2012-04-04 华为技术有限公司 一种丢帧隐藏的方法和设备
US8489396B2 (en) * 2007-07-25 2013-07-16 Qnx Software Systems Limited Noise reduction with integrated tonal noise reduction
US20090055171A1 (en) * 2007-08-20 2009-02-26 Broadcom Corporation Buzz reduction for low-complexity frame erasure concealment
US20090154726A1 (en) 2007-08-22 2009-06-18 Step Labs Inc. System and Method for Noise Activity Detection
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
CN101141644B (zh) * 2007-10-17 2010-12-08 清华大学 编码集成系统和方法与解码集成系统和方法
EP2629293A3 (en) 2007-11-02 2014-01-08 Huawei Technologies Co., Ltd. Method and apparatus for audio decoding
CN100585699C (zh) * 2007-11-02 2010-01-27 华为技术有限公司 一种音频解码的方法和装置
CN101430880A (zh) * 2007-11-07 2009-05-13 华为技术有限公司 一种背景噪声的编解码方法和装置
DE102008009719A1 (de) 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
AU2009220321B2 (en) * 2008-03-03 2011-09-22 Intellectual Discovery Co., Ltd. Method and apparatus for processing audio signal
FR2929466A1 (fr) 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
EP2120412A1 (en) * 2008-05-14 2009-11-18 SIDSA (Semiconductores Investigación) Y Diseño SA System and transceiver for DSL communications based on single carrier modulation, with efficient vectoring, capacity approaching channel coding structure and preamble insertion for agile channel adaption
US8737501B2 (en) 2008-06-13 2014-05-27 Silvus Technologies, Inc. Interference mitigation for devices with multiple receivers
BR122021009252B1 (pt) * 2008-07-11 2022-03-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Codificador e decodificador de áudio para estruturas de codificação de sinais de áudio amostrados
PL2410520T3 (pl) * 2008-07-11 2019-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodery sygnałów audio, sposoby kodowania sygnału audio i programy komputerowe
EP2144171B1 (en) * 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
ES2564400T3 (es) * 2008-07-11 2016-03-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y descodificador de audio para codificar y descodificar muestras de audio
EP2146344B1 (en) 2008-07-17 2016-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding/decoding scheme having a switchable bypass
US9773505B2 (en) 2008-09-18 2017-09-26 Electronics And Telecommunications Research Institute Encoding apparatus and decoding apparatus for transforming between modified discrete cosine transform-based coder and different coder
KR101622950B1 (ko) 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
US8676573B2 (en) 2009-03-30 2014-03-18 Cambridge Silicon Radio Limited Error concealment
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
US8908882B2 (en) * 2009-06-29 2014-12-09 Audience, Inc. Reparation of corrupted audio signals
EP3474279A1 (en) * 2009-07-27 2019-04-24 Unified Sound Systems, Inc. Methods and apparatus for processing an audio signal
CA2777073C (en) 2009-10-08 2015-11-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
CN102044241B (zh) 2009-10-15 2012-04-04 华为技术有限公司 一种实现通信系统中背景噪声的跟踪的方法和装置
WO2011044700A1 (en) 2009-10-15 2011-04-21 Voiceage Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
US9076439B2 (en) * 2009-10-23 2015-07-07 Broadcom Corporation Bit error management and mitigation for sub-band coding
WO2011065741A2 (ko) 2009-11-24 2011-06-03 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CN102081926B (zh) * 2009-11-27 2013-06-05 中兴通讯股份有限公司 格型矢量量化音频编解码方法和系统
CN101763859A (zh) 2009-12-16 2010-06-30 深圳华为通信技术有限公司 音频数据处理方法、装置和多点控制单元
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8428959B2 (en) * 2010-01-29 2013-04-23 Polycom, Inc. Audio packet loss concealment by transform interpolation
US8000968B1 (en) * 2011-04-26 2011-08-16 Huawei Technologies Co., Ltd. Method and apparatus for switching speech or audio signals
CN101937679B (zh) * 2010-07-05 2012-01-11 展讯通信(上海)有限公司 音频数据帧的错误掩盖方法及音频解码装置
CN101894558A (zh) * 2010-08-04 2010-11-24 华为技术有限公司 丢帧恢复方法、设备以及语音增强方法、设备和系统
EP2458585B1 (en) * 2010-11-29 2013-07-17 Nxp B.V. Error concealment for sub-band coded audio signals
KR20120080409A (ko) 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
US8983833B2 (en) * 2011-01-24 2015-03-17 Continental Automotive Systems, Inc. Method and apparatus for masking wind noise
KR101551046B1 (ko) * 2011-02-14 2015-09-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법
DK3067888T3 (en) * 2011-04-15 2017-07-10 ERICSSON TELEFON AB L M (publ) DECODES FOR DIMAGE OF SIGNAL AREAS RECONSTRUCTED WITH LOW ACCURACY
TWI435138B (zh) 2011-06-20 2014-04-21 Largan Precision Co 影像拾取光學系統
JP5817366B2 (ja) * 2011-09-12 2015-11-18 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
TWI585747B (zh) * 2011-10-21 2017-06-01 三星電子股份有限公司 訊框錯誤修補方法與裝置、音訊解碼方法與裝置
CN102750955B (zh) * 2012-07-20 2014-06-18 中国科学院自动化研究所 基于残差信号频谱重构的声码器
US9532139B1 (en) 2012-09-14 2016-12-27 Cirrus Logic, Inc. Dual-microphone frequency amplitude response self-calibration
CN107731237B (zh) 2012-09-24 2021-07-20 三星电子株式会社 时域帧错误隐藏设备
CN103714821A (zh) * 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
EP2757559A1 (en) 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
PL3121813T3 (pl) * 2013-01-29 2020-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Wypełnianie szumem bez informacji pomocniczych dla koderów typu celp
FR3004876A1 (fr) 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
EP3011558B1 (en) 2013-06-21 2017-07-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an adaptive spectral shape of comfort noise
WO2015009903A2 (en) 2013-07-18 2015-01-22 Quitbit, Inc. Lighter and method for monitoring smoking behavior
US10210871B2 (en) * 2016-03-18 2019-02-19 Qualcomm Incorporated Audio processing for temporally mismatched signals
CN110556116B (zh) * 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置

Also Published As

Publication number Publication date
JP6190052B2 (ja) 2017-08-30
MX351363B (es) 2017-10-11
EP3011558A1 (en) 2016-04-27
RU2666250C2 (ru) 2018-09-06
RU2675777C2 (ru) 2018-12-24
MY170023A (en) 2019-06-25
TWI553631B (zh) 2016-10-11
BR112015031177B1 (pt) 2021-12-14
CN105359209A (zh) 2016-02-24
CA2914869C (en) 2018-06-05
BR112015031343B1 (pt) 2021-12-14
TW201508736A (zh) 2015-03-01
EP3011561B1 (en) 2017-05-03
BR112015031343A2 (pt) 2017-07-25
US20180151184A1 (en) 2018-05-31
JP6214071B2 (ja) 2017-10-18
RU2016101605A (ru) 2017-07-26
KR20160021295A (ko) 2016-02-24
CN110265044A (zh) 2019-09-20
CN110164459B (zh) 2024-03-26
BR112015031180B1 (pt) 2022-04-05
US20180268825A1 (en) 2018-09-20
WO2014202784A1 (en) 2014-12-24
MX351576B (es) 2017-10-18
CN110299147B (zh) 2023-09-19
US20160104487A1 (en) 2016-04-14
BR112015031178A2 (pt) 2017-07-25
JP6360165B2 (ja) 2018-07-18
US20210142809A1 (en) 2021-05-13
US10867613B2 (en) 2020-12-15
CN105378831B (zh) 2019-05-31
CA2916150A1 (en) 2014-12-24
CA2915014C (en) 2020-03-31
SG11201510353RA (en) 2016-01-28
KR20160022364A (ko) 2016-02-29
EP3011557B1 (en) 2017-05-03
CN110289005A (zh) 2019-09-27
CN105359209B (zh) 2019-06-14
CN105431903A (zh) 2016-03-23
BR112015031178B1 (pt) 2022-03-22
US20160104488A1 (en) 2016-04-14
PT3011563T (pt) 2020-03-31
MY190900A (en) 2022-05-18
MY187034A (en) 2021-08-27
SG11201510510PA (en) 2016-01-28
JP6196375B2 (ja) 2017-09-13
MX351577B (es) 2017-10-18
CA2914895C (en) 2018-06-12
CN105431903B (zh) 2019-08-23
CN110164459A (zh) 2019-08-23
JP2016526704A (ja) 2016-09-05
HK1224009A1 (zh) 2017-08-11
EP3011563B1 (en) 2019-12-25
TWI575513B (zh) 2017-03-21
US9997163B2 (en) 2018-06-12
KR20160022886A (ko) 2016-03-02
EP3011559B1 (en) 2017-07-26
CA2914895A1 (en) 2014-12-24
CN105359210A (zh) 2016-02-24
CA2913578A1 (en) 2014-12-24
WO2014202789A1 (en) 2014-12-24
PT3011559T (pt) 2017-10-30
PL3011557T3 (pl) 2017-10-31
ES2644693T3 (es) 2017-11-30
US20180261230A1 (en) 2018-09-13
MX2015016892A (es) 2016-04-07
KR101790901B1 (ko) 2017-10-26
EP3011561A1 (en) 2016-04-27
MY181026A (en) 2020-12-16
JP2016522453A (ja) 2016-07-28
TW201508738A (zh) 2015-03-01
SG11201510519RA (en) 2016-01-28
US11501783B2 (en) 2022-11-15
ES2780696T3 (es) 2020-08-26
AU2014283124B2 (en) 2016-10-20
BR112015031180A2 (pt) 2017-07-25
HK1224423A1 (zh) 2017-08-18
PL3011559T3 (pl) 2017-12-29
AU2014283198B2 (en) 2016-10-20
US10679632B2 (en) 2020-06-09
US10672404B2 (en) 2020-06-02
TWI569262B (zh) 2017-02-01
AU2014283123A1 (en) 2016-02-04
EP3011563A1 (en) 2016-04-27
CN110289005B (zh) 2024-02-09
AU2014283194A1 (en) 2016-02-04
ES2635555T3 (es) 2017-10-04
PL3011563T3 (pl) 2020-06-29
BR112015031177A2 (pt) 2017-07-25
AU2014283124A1 (en) 2016-02-11
US20180233153A1 (en) 2018-08-16
TWI564884B (zh) 2017-01-01
US20160104497A1 (en) 2016-04-14
CN105340007B (zh) 2019-05-31
HK1224076A1 (zh) 2017-08-11
US20210098003A1 (en) 2021-04-01
AU2014283198A1 (en) 2016-02-11
CN105359210B (zh) 2019-06-14
PL3011558T3 (pl) 2017-12-29
TW201508737A (zh) 2015-03-01
MY182209A (en) 2021-01-18
MX2015018024A (es) 2016-06-24
CN110299147A (zh) 2019-10-01
CA2916150C (en) 2019-06-18
RU2676453C2 (ru) 2018-12-28
ZA201600310B (en) 2018-05-30
PT3011558T (pt) 2017-10-05
RU2016101604A (ru) 2017-07-26
KR20160022365A (ko) 2016-02-29
PT3011557T (pt) 2017-07-25
US10607614B2 (en) 2020-03-31
MX347233B (es) 2017-04-19
KR101790902B1 (ko) 2017-10-26
CA2914869A1 (en) 2014-12-24
US20180308495A1 (en) 2018-10-25
JP2016523381A (ja) 2016-08-08
WO2014202786A1 (en) 2014-12-24
ES2635027T3 (es) 2017-10-02
EP3011558B1 (en) 2017-07-26
US9978378B2 (en) 2018-05-22
SG11201510508QA (en) 2016-01-28
EP3011559A1 (en) 2016-04-27
RU2016101600A (ru) 2017-07-26
RU2016101469A (ru) 2017-07-24
PL3011561T3 (pl) 2017-10-31
MX2015017261A (es) 2016-09-22
RU2658128C2 (ru) 2018-06-19
TW201508739A (zh) 2015-03-01
CN105378831A (zh) 2016-03-02
US20200312338A1 (en) 2020-10-01
US20160104489A1 (en) 2016-04-14
KR20160022363A (ko) 2016-02-29
WO2014202790A1 (en) 2014-12-24
SG11201510352YA (en) 2016-01-28
CN105340007A (zh) 2016-02-17
US9916833B2 (en) 2018-03-13
CN110265044B (zh) 2023-09-12
HK1224425A1 (zh) 2017-08-18
US11462221B2 (en) 2022-10-04
US20160111095A1 (en) 2016-04-21
US20200258529A1 (en) 2020-08-13
US9978376B2 (en) 2018-05-22
KR101788484B1 (ko) 2017-10-19
PT3011561T (pt) 2017-07-25
RU2665279C2 (ru) 2018-08-28
AU2014283123B2 (en) 2016-10-20
KR101785227B1 (ko) 2017-10-12
EP3011557A1 (en) 2016-04-27
US9978377B2 (en) 2018-05-22
US20200258530A1 (en) 2020-08-13
US10854208B2 (en) 2020-12-01
US11776551B2 (en) 2023-10-03
AU2014283196B2 (en) 2016-10-20
WO2014202788A1 (en) 2014-12-24
KR101787296B1 (ko) 2017-10-18
HK1224424A1 (zh) 2017-08-18
BR112015031606B1 (pt) 2021-12-14
MX355257B (es) 2018-04-11
RU2016101521A (ru) 2017-07-26
TW201508740A (zh) 2015-03-01
JP6201043B2 (ja) 2017-09-20
CA2915014A1 (en) 2014-12-24
AU2014283194B2 (en) 2016-10-20
US11869514B2 (en) 2024-01-09
JP2016527541A (ja) 2016-09-08
TWI587290B (zh) 2017-06-11
JP2016532143A (ja) 2016-10-13
MX2015017126A (es) 2016-04-11
BR112015031606A2 (pt) 2017-07-25
AU2014283196A1 (en) 2016-02-11
CA2913578C (en) 2018-05-22

Similar Documents

Publication Publication Date Title
ES2639127T3 (es) Aparato y procedimiento que realiza un desvanecimiento de un espectro MDCT a ruido blanco antes de la aplicación de FDNS