ES2635027T3 - Aparato y método para el desvanecimiento de señales mejorado para sistemas de codificación de audio cambiados durante el ocultamiento de errores - Google Patents

Aparato y método para el desvanecimiento de señales mejorado para sistemas de codificación de audio cambiados durante el ocultamiento de errores Download PDF

Info

Publication number
ES2635027T3
ES2635027T3 ES14732193.9T ES14732193T ES2635027T3 ES 2635027 T3 ES2635027 T3 ES 2635027T3 ES 14732193 T ES14732193 T ES 14732193T ES 2635027 T3 ES2635027 T3 ES 2635027T3
Authority
ES
Spain
Prior art keywords
domain
audio signal
signal
frame
tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14732193.9T
Other languages
English (en)
Inventor
Michael Schnabel
Goran MARKOVIC
Ralph Sperschneider
Jérémie Lecomte
Christian Helmrich
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2635027T3 publication Critical patent/ES2635027T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Noise Elimination (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Circuits Of Receivers In General (AREA)
  • Mathematical Physics (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

Un aparato para la decodificación de una señal de audio, que comprende: una interfaz receptora (110) para recibir una pluralidad de tramas, en el que la interfaz receptora (110) está configurada para recibir una primera trama de la pluralidad de tramas, comprendiendo dicha primera trama una primera porción de señal de audio de la señal de audio, estando dicha primera porción de señal de audio representada en un primer dominio, y en el que la interfaz receptora (110) está configurada para recibir una segunda trama de la pluralidad de tramas, comprendiendo dicha segunda trama una segunda porción de señal de audio de la señal de audio, una unidad de transformada (120) para transformar la segunda porción de señal de audio o un valor o señal derivada de la segunda porción de señal de audio de un segundo dominio a un dominio de rastreo para obtener una información de segunda porción de señal, en el que el segundo dominio es diferente del primer dominio, en el que el dominio de rastreo es diferente del segundo dominio, y en el que el dominio de rastreo es igual o diferente del primer dominio, una unidad de rastreo de nivel de ruido (130), en el que la unidad de rastreo de nivel de ruido (130) está configurada para recibir una información de primera porción de señal que es representada en el dominio de rastreo, en la que la información de primera porción de señal depende de la primera porción de señal de audio, en el que la unidad de rastreo de nivel de ruido (130) está configurada para recibir la segunda porción de señal que es representada en el dominio de rastreo, y en el que la unidad de rastreo de nivel de ruido (130) está configurada para determinar la información de nivel de ruido dependiendo de la información de primera porción de señal que es representada en el dominio de rastreo y dependiendo de la información de segunda porción de señal que es representada en el dominio de rastreo, en el que la información de nivel de ruido se representa en el dominio de rastreo, y una unidad de reconstrucción (140) para la reconstrucción de una tercera porción de señal de audio de la señal de audio dependiendo de la información de nivel de ruido, si una tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora (110) o si dicha tercera trama es recibida por la interfaz receptora (110) pero está alterada.

Description

DESCRIPCION
Aparato y metodo para el desvanecimiento de senales mejorado para sistemas de codificacion de audio cambiados durante el ocultamiento de errores 5
[0001] La presente invencion se refiere a la codificacion, el procesamiento y la decodificacion de senales de
audio, y, en particular, a un aparato y metodo para el desvanecimiento de la senal mejorado para sistemas de codificacion de audio cambiados durante el ocultamiento de errores.
10 [0002] A continuacion, se describe el estado de la tecnica con respecto al desvanecimiento de la voz y audio
de codecs durante el ocultamiento de perdida de paquetes (PLC). Las explicaciones con respecto al estado de la tecnica con los codecs ITU-T de la serie G (G.718, G.719, G.722, G.722.1, G.729. G.729.1) son seguidas de los codecs 3GPP (AMR, AMR-WB, AMR-WB+) y un codec IETF (OPUS), y concluyen con dos codecs MPEG (HE-AAC, HILN) (ITU = Union Internacional de Telecomunicaciones; 3GPP = Proyecto Asociacion de Tercera Generacion; 15 AMR = Multitasa Adaptativa; WB = banda ancha; IETF = Grupo de Trabajo de Ingenierla de Internet). Posteriormente, se analiza el estado de la tecnica con respecto al rastreo del nivel de ruido de fondo, seguido de un sumario que proporciona una vision general.
[0003] En primer lugar, se considera G.718. G.718 es un codec de la voz de banda estrecha y de banda 20 ancha, que soporta DTX/CNG (DTX = Sistemas de Teatro Digital; CNG = Generacion de Ruido de Confort). Como
las realizaciones se refieren particularmente al codigo de retardo bajo, se describira aqul en mas detalle el modo de version de retardo bajo.
[0004] Considerando ACELP (Capa 1) (ACELP = Prediccion Lineal Excitada por Codigo Algebraico), la ITU-T 25 recomienda para G.718 [ITU08a, seccion 7.11] un desvanecimiento adaptativo en el dominio predictivo lineal para
controlar la velocidad de desvanecimiento. En general, el ocultamiento sigue este principio:
Segun G.718, en el caso de borrados de tramas, la estrategia de ocultamiento puede resumirse como una convergencia de la energla de senal y la envoltura espectral para los parametros estimados del ruido de fondo. 30 La periodicidad de la senal converge a cero. La velocidad de la convergencia depende de los parametros de la ultima trama correctamente recibida y el numero de tramas borradas consecutivas, y es controlada por un factor de atenuacion, a. El factor de atenuacion a depende ademas de la estabilidad, 0, del filtro LP (LP = Prediccion Lineal) para tramas SIN VOZ. En general, la convergencia es lenta si la ultima buena trama recibida esta en un segmento estable y es rapida si la trama esta en un segmento de transition.
35
[0005] El factor de atenuacion a depende de la clase de senal de la voz, que deriva por la clasificacion de senal descrita en [ITU08a, seccion 6.8.1.3.1 y 7.11.1.1], El factor de estabilidad G se calcula basandose en una medida de distancia entre los filtros adyacentes ISF (Frecuencia Espectral de Impedancia y Admitancia) [ITU08a, seccion 7.1.2.4.2],
40
[0006] La Tabla 1 muestra el esquema de calculo de a:
45
Tabla 1: Valores del factor de atenuacion a, el valor 0 es un factor de estabilidad calculado a partir de una medida de distancia entre los filtros adyacentes LP. [ITU08a, seccion 7.1.2.4.2].
Ultima buena trama recibida
Numero de tramas borradas sucesivas a
INICIO ARTIFICIAL
0,6
INICIO, CON VOZ
< 3 1,0
> 3 0,4
TRANSICION CON VOZ
0,4
TRANSICION SIN VOZ
0,8
SIN VOZ
= 1 0,2 ■ G + 0,8
= 2 0,6
> 2 0,4
[0007] Ademas, G.718 proporciona un metodo de desvanecimiento con el fin de modificar la envoltura
espectral. La idea general es hacer converger los ultimos parametros de ISF hacia un vector de la media de ISF adaptativa. En primer lugar, se calcula un vector de ISF promedio a partir de los ultimos 3 vectores de ISF 50 conocidos. A continuacion, se promedia nuevamente el vector de ISF promedio con un vector de ISF de largo plazo
en tren fuera de ilnea (que es un vector constante) [ITU08a, seccion 7.11.1.2].
[0008] Ademas, G.718 proporciona un metodo de desvanecimiento para ei control dei comportamiento de
iargo piazo, y en consecuencia, ia interaccion con ei ruido de fondo, donde ia energla de excitacion de aitura (y en consecuencia ia periodicidad de excitacion) converge en 0, mientras que ia energla de excitacion aieatoria converge 5 en ia energla de excitacion de CNG [ITU08a, seccion 7.11.1.6]. La atenuacion de ganancia de innovacion se caicuia como:
jn „[°]
10 donde es la ganancia innovadora al comienzo de la siguiente trama, es la ganancia innovadora al comienzo de ia trama actuai, gn es ia ganancia de ia excitacion usada durante ia generation de ruido de confort y ei factor de atenuacion a.
imagen1
[0009] De manera similar a la atenuacion de excitacion periodica, la ganancia es atenuada en forma lineal a
[0]
15 lo largo de la trama sobre una base de muestra por muestra, iniciando con ' y alcanza c’,s al comienzo de la siguiente trama.
[0010] La Fig. 2 expiica resumidamente ia estructura dei decodificador de G.718. En particuiar, ia Fig. 2 iiustra una estructura de decodificador de G.718 de aito nivei para ei PLC, con rasgo de un fiitro paso aito.
20
[0011] Por medio dei enfoque arriba descripto de G.718, ia ganancia innovadora gs converge con ia ganancia usada durante ia generacion de ruido de confort gn para iargas rafagas de perdidas de paquetes. Como se describe en [ITU08a, seccion 6.12.3], ia ganancia de ruido de confort gn se proporciona como ia ralz cuadrada de ia energla E. Las condiciones de ia actuaiizacion de E no se describen en detaiie. Tras ia impiementacion de referencia (punto
25 de flotation codigo C, stat_noise_uv_mod.c), E se deriva de ia siguiente manera:
if (unvoiced_vad —— O) { if (unv_cnt >20) {
ftmp = lp_gainc * lp_gainc;
lp_ener = 0.7f * lp_ener + 0.3f * ftmp;
}
else {
unv_cnt++;
}
}
else {
unv_cnt — 0;
}
en ia que unvoiced_vad sostiene ia detection de actividad de voz, en ia que unv_cnt sostiene ei numero de tramas sin voz en una fiia, en ia que ip_gainc sostiene ias ganancias paso bajo dei iibro de codigo estabiecido, y en ia que 30 ip_ener sostiene ia estimation de energla de generacion de CNG paso bajo E, que se iniciaiiza con 0.
[0012] Ademas, G.718 proporciona un fiitro paso aito, introducido en ia via de senai de ia excitacion sin voz, si ia senai de ia uitima buena trama fue ciasificada en forma diferente de SIN VOZ, vease ia Fig. 2; vease, ademas, [ITU08a, seccion 7.11.1.6]. Este fiitro tiene una caracterlstica de estante bajo, con una respuesta de frecuencia en
35 DC de aproximadamente 5 dB menos que en ia frecuencia Nyquist.
[0013] Ademas, G.718 propone un circuito de retroaiimentacion de LTP desacopiado (LTP = Prediction de iargo piazo). Si bien durante ia operation normai ei circuito de retroaiimentacion para ei iibro de codigo adaptativo es actuaiizado de manera subtrama ([ITU08a, seccion 7.1.2.1.4]) basandose en ia compieta excitacion, durante ei
40 ocuitamiento, este circuito de retroaiimentacion es actuaiizado de manera de trama (vease [ITU08a, secciones 7.11.1.4, 7.11.2.4, 7.11.1.6, 7.11.2.6; dec_GV_exc@dec_gen_voic.c y syn_bfi_post@syn_bfi_pre_post.c]) basado soiamente de ia excitacion con voz. Con este enfoque, ei iibro de codigo adaptativo no es “contaminado” con ruido que tiene su origen en ia excitacion de innovacion aieatoriamente seieccionada.
[0014] Con respecto a las capas de mejoramiento codificado de transformada (3-5) de G.718, durante el ocultamiento, el decodificador se comporta con respecto a la capa alta decodificando de manera similar a la operacion normal, solo que el espectro de MDCT se establece a cero. No se aplica comportamiento de
5 desvanecimiento especial durante el ocultamiento.
[0015] Con respecto a CNG, en G.718, la slntesis de CNG se realiza en el siguiente orden. En primer lugar, se decodifican los parametros de una trama de ruido de confort. A continuacion, se sintetiza una trama de ruido de confort. Luego, se restablece el bufer de altura. A continuacion, se guarda la slntesis para la clasificacion de FER
10 (recuperacion de error de trama). Mas adelante, se realiza el desenfasis de espectro. Luego, se realiza el posfiltrado de baja frecuencia. A continuacion, son actualizadas las variables de CNG.
[0016] En el caso de ocultamiento, se realiza exactamente lo mismo, excepto que los parametros de CNG no son decodificados a partir de la corriente de bits. Esto significa que los parametros no son actualizados durante la
15 perdida de trama, si bien se usan los parametros decodificados a partir del ultimo buen SID (descriptor de insercion de silencio).
[0017] Ahora, se considera G.719. G.719, que se basa en Siren 22, es un codec de audio de banda completa basado en la transformada. La ITU-T recomienda para G.719 un desvanecimiento con repeticion de trama en el
20 dominio espectral [ITU08b, seccion 8.6]. Segun G.719, se incorpora un mecanismo de ocultamiento de borrado de trama en el decodificador. Cuando una trama es correctamente recibida, los coeficientes de transformada reconstruidos son almacenados en un bufer. Si el decodificador es informado de que se ha perdido una trama o que una trama esta alterada, los coeficientes de transformada reconstruidos en la trama recibida mas recientemente son sometidos a escala decreciente con un factor 0,5, y luego, son usados como los coeficientes de transformada 25 reconstruidos para la trama actual. El decodificador procede transformandolos al dominio de tiempo y realizando la operacion de ventaneado-superposicion-adicion.
[0018] A continuacion, se describe G.722. G.722 es un sistema de codificacion de 50 a 7000 Hz que usa la modulation por impulsos codificados de diferencial adaptativo de subbanda (SB-ADPCM) dentro de una tasa de bits
30 de hasta 64 kbit/s. La senal se divide en una subbanda superior y una inferior, usando un analisis de QMF (QMF = Filtro Espejo en Cuadratura). Las dos bandas resultantes son codificadas por ADPCM (ADPCM = Modulacion por Impulsos Codificados de Diferencial Adaptativo”.
[0019] Para G.722, se especifica un algoritmo de alta complejidad para el ocultamiento de perdida de 35 paquetes en el Apendice III [ITU06a], y se especifica un algoritmo de baja complejidad para el ocultamiento de
perdida de paquetes en el Apendice IV [ITU07]. G.722 - Apendice III ([ITU06a, seccion III.5]) propone un silenciamiento efectuado en forma gradual, iniciando despues de 20 ms de perdida de trama, siendo completado despues de 60 ms de perdida de trama. Ademas, G.722 - Apendice IV propone una tecnica de desvanecimiento que aplica "a cada muestra un factor de ganancia que es calculado y adaptado muestra por muestra " [ITU07, seccion 40 IV.6.1.2.7].
[0020] En G.722, el proceso de silenciamiento tiene lugar en el dominio de subbanda justo antes de la slntesis de QMF y como la ultima etapa del modulo de PLC. El calculo del factor de silenciamiento se realiza usando information de clase del clasificador de senales que ademas es parte del modulo de PLC. La distincion se hace
45 entre clases TRANSITORIO, UV_TRANSICION y otras. Ademas, se hace la distincion entre perdidas unicas de tramas de 10 ms y otros casos (multiples perdidas de tramas de 10 ms y perdidas unicas/multiples de tramas de 20 ms).
[0021] Esto se ilustra por la Fig. 3. En particular, la Fig. 3 representa un escenario donde el factor de 50 desvanecimiento de G.722 depende de la informacion de clase y en la que 80 muestras son equivalentes a 10 ms.
[0022] Segun G.722, el modulo de PLC crea la senal para la trama perdida, y alguna senal adicional (10 ms) que se supone es mezclada gradualmente con la siguiente buena trama. El silenciamiento para esta senal adicional sigue las mismas reglas. En el ocultamiento de alta banda de G.722, la mezcla gradual no tiene lugar.
55
[0023] A continuacion, se considera G.722.1. G.722.1, que se basa en Siren 7, es un codec de audio de banda ancha basado en la transformada con un modo de extension de banda super ancha, referido como G.722.1C. G. 722.1 C en si mismo se basa en Siren 14. La ITU-T recomienda para G.722.1 una repeticion de tramas, con silenciamiento posterior [ITU05, seccion 4.7]. Si el decodificador es informado, por medio de un mecanismo de
senalizacion externo no definido en esta recomendacion, que una trama se ha perdido o ha sido alterada, repite los coeficientes de MLT decodificados de la trama previa (MLT: transformada superpuesta modulada). Procede mediante su transformacion al dominio de tiempo y realizando la operacion de superposicion y adicion con la information decodificada de la trama previa y de la siguiente. Si la trama previa tambien se perdio o altero, entonces 5 el decodificador establece todos los coeficientes de MLT de las tramas actuales a cero.
[0024] Ahora se considera G.729. G.729 es un algoritmo de compresion de datos de audio para voz, que comprime voz digital en paquetes de 10 milisegundos de duration. Oficialmente, se describe como Codification de la voz a 8 kbit/s usando la codificacion de la voz de prediction lineal excitada por codigo (CS-ACELP) [ITU 12].
10
[0025] Como se explica resumidamente en [CPK08], G.729 recomienda un desvanecimiento en el dominio de LP. El algoritmo de PLC empleado en el estandar G.729 reconstruye la senal de la voz para la trama actual basandose en la informacion de la voz previamente recibida. En otras palabras, el algoritmo de PLC reemplaza la excitation perdida con una caracterlstica equivalente de una trama previamente recibida, aunque la energla de
15 excitacion decae en forma gradual, finalmente, las ganancias de los libros de codigos adaptativos y establecidos son atenuadas por un factor constante.
[0026]
20
La ganancia de libro de codigo establecido atenuada se proporciona mediante:
imagen2
con m es el Indice de subtrama.
[0027] La ganancia de libro de codigo adaptativa se basa en una version atenuada de la ganancia de libro de 25 codigo adaptativa previa:
0,9 • 4™ , ligado por <^<0,9
[0028] Nam en Park et al. sugieren para G.729 un control de amplitud de senal usando la prediccion por 30 medio de la regresion lineal [CPK08, PKJ+l1]. Se dirige a la perdida de paquetes de rafaga, y usa la regresion lineal como una tecnica de nucleo. La regresion lineal se basa en el modo lineal como:
imagen3
35 donde es la amplitud actual recien predicha, ay b son coeficientes para la funcion lineal de primer orden, e / es el Indice de la trama. Con el fin de hallar los coeficientes optimizados a* y b*, la operacion de suma del error de prediccion cuadrado se minimiza:
imagen4
40
£ es el error cuadrado, g, es la amplitud pasada original N 0 j. Para minimizar este error, simplemente el derivado
*
g
respecto de a y b se establece a cero. Usando los parametros optimizados a* y b*, una estimation de cada ' se indica por:
imagen5
C[
[0029] La Fig. 4 muestra la prediccion de amplitud, en particular, la prediccion de la amplitud usando la regresion lineal.
[0030]
a:
Para obtener la amplitud * del paquete perdido i, una relacion a.
se multiplica con un factor de escala Sr.
imagen6
Ai = Si * Oi
5 -- '* -• (6)
donde el factor de escala Si depende del numero de tramas ocultadas consecutivas l(i).
imagen7
10
[0031]
En [PKJ+11], se propone una escala ligeramente diferente.
a:
[0032] Segun G.729, a continuacion, ' sera suavizado con el fin de prevenir la atenuacion discreta en los bordes de la trama. La amplitud suavizada final Ai(n) se multiplica por la excitacion, obtenida de los componentes 15 previos de PLC.
[0033] A continuacion, se considera G.729.1. G.729.1 es un codificador de tasa de bits variable incorporado basado en G.729. una corriente de bits de codificador de banda ancha escalable de 8-32 kbit/s interoperable con G.729 [ITU06b].
20
[0034] Segun G.729.1, como en G.718 (vease anteriormente), se propone un desvanecimiento adaptativo, que depende de la estabilidad de las caracterfsticas de la senal ([ITu06b, seccion 7.6.1]). Durante el ocultamiento, la senal es habitualmente atenuada basandose en un factor de atenuacion a que depende de los parametros de la clase de la ultima buena trama recibida y el numero de tramas borradas consecutivas. El factor de atenuacion a
25 depende adicionalmente de la estabilidad del filtro de LP para tramas SIN VOZ. En general, la atenuacion es lenta si la ultima buena trama recibida se encuentra en un segmento estable, y es rapida si la trama se encuentra en un segmento de transicion.
[0035] Adicionalmente, el factor de atenuacion a depende de la ganancia de altura promedio por subtrama gp 30 ([ITU06b, ec. 163, 164]).
imagen8
donde * p es la ganancia de altura en subtrama /.
35 [0036] La Tabla 2 muestra el esquema de calculo de a, donde.
8 = \f§p con 0,85 ,8 > 0,98 ^
[0037] Durante el proceso de ocultamiento, se usa a en las siguientes herramientas de ocultamiento.
40
Tabla 2. Valores del factor de atenuacion a, el valor Q es un factor de estabilidad calculado a partir de una medida de _________distancia entre los filtros adyacentes de LP. [ITU06b, seccion 7.6.1],__________
Ultima buena trama recibida
Numero de tramas borradas sucesivas a
CON VOZ
1 P
2,3 gp
>3 0,4
Ultima buena trama recibida
Numero de tramas borradas sucesivas a
INICIO
1 0,8 p
2,3 gp
>3 0,4
INICIO ARTIFICIAL
1 0,6 p
2,3 gp
>3 0,4
TRANSICION CON VOZ
< 2 0,8
> 2 0,2
TRANSICION SIN VOZ
0,88
SIN VOZ
1 0,95
2,3 0,6 e + 0,4
>3 0,4
5
10
[0038] Segun G.729.1, respecto de la resincronizacion de pulso glotal, como el ultimo pulso de la excitation de la trama previa se usa para la construction de la parte periodica, su ganancia es aproximadamente correcta al comienzo de la trama ocultada, y puede establecerse a 1. La ganancia es luego atenuada linealmente a lo largo de toda la trama sobre una base de muestra por muestra, con el fin de lograr el valor de a al final de la trama. La evolution de energfa de los segmentos con voz es extrapolada usando los valores de ganancia de excitacion de altura de cada subtrama de la ultima buena trama. En general, si estas ganancias son mayores que 1, la energfa de
serial es creciente; si son menores que 1, la energfa es decreciente. Por lo tanto, a se establece a ^ como
se ha descrito anteriormente; vease [ITU06b, eq. 163, 164]. El valor de p es clipeado entre 0,98 y 0,85 para evitar fuertes incrementos y disminuciones de energfa; vease [ITU06b, section 7.6.4],
15
[0039] Con respecto a la construccion de la parte aleatoria de la excitacion, segun G.729.1, al comienzo de un bloque borrado, la ganancia de innovation gs se inicializa usando las ganancias de excitacion de innovation de cada subtrama de la ultima buena trama:
imagen9
20
en la que g(0), g(1), g(2) y g(3) son el libro de codigo establecido, o innovacion, ganancias de las cuatro subtramas de la ultima trama correctamente recibida. La atenuacion de ganancia de innovacion se hace como:
imagen10
a
9f’
Jl) J°)
en la que 5s es la ganancia de innovacion al comienzo de la siguiente trama, es la ganancia de innovacion al comienzo de la trama actual, y a es como se define en la Tabla 2 anterior. De manera similar a la atenuacion de 25 excitacion periodica, la ganancia es de ese modo linealmente atenuada a lo largo de toda la trama, en una base de
Jv) gil)
muestra por muestra, empezando con y llegando al valor de ^ que se lograrfa al comienzo de la siguiente trama.
[0040] Segun G.729.1, si la ultima buena trama es SIN VOZ, solo se usa la excitacion de innovacion, y es 30 adicionalmente atenuada por un factor de 0,8. En este caso, el bufer de excitacion pasado es actualizado con la
excitacion de innovacion, ya que no hay parte periodica de la excitacion disponible; vease [ITU06b, seccion 7.6.6].
[0041] A continuation, se considera AMR. 3GPP (AMR) [3GP12b] es un codec de la voz que utiliza el algoritmo de ACELP. La AMR es capaz de codificar la voz con una tasa de muestreo de 8000 muestras/s y una tasa
35 de bits entre 4,75 y 12,2 kbit/s, y sostiene la senalizacion de tramas de descriptores de silencio (DTX/CNG).
[0042] En AMR, durante el ocultamiento de errores (vease [3GP12a]), se distingue entre tramas que son propensas al error (errores de bits) y tramas que estan perdidas por completo (sin ningun dato).
40 [0043] Para el ocultamiento de ACELP, la AMR introduce una maquina de estado que estima la calidad del
canal. Cuando mayor es el valor del contador de estado, peor es la calidad del canal. El sistema inicia en el estado 0. Cada vez que se detecta una mala trama, el contador de estado se incrementa en uno, y se satura cuando llega a 6. Cada vez que se detecta una buena trama de la voz, el contador de estado se restablece a cero, excepto cuando el estado es 6, donde el contador de estado se establece a 5. El flujo de control de la maquina de estado puede ser 5 descrito por el siguiente codigo C (BFI es un indicador de mala trama, State es una variable de estado):
if(BFI != 0 ) {
State = State + 1/
}
else if(State == 6) {
State - 5;
}
else {
State = 0/
}
if (State > 6 ) {
State - 6;
}
[0044] Ademas de esta maquina de estado, en la AMR, las banderas de mala trama de las tramas actuales y 10 previas son verificadas (prevBFI).
[0045] Son posibles tres diferentes combinaciones:
La primera de las tres combinaciones es BFI = 0, prevBFI = 0, State = 0: No se detecta error en la trama 15 recibida o en la trama de la voz recibida previa. Los parametros de la voz recibidos se usan de la manera normal en la slntesis de la voz. Se guarda la trama actual de parametros de la voz.
[0046] La segunda de las tres combinaciones es BFI = 0, prevBFI = 1, State = 0 o 5: No se detecta error en la trama de la voz recibida, si bien la trama de la voz recibida previa fue mala. La ganancia de LTP y la ganancia de
20 libro de codigo establecido estan limitadas por debajo de los valores usados para la ultima buena subtrama recibida
imagen11
donde gp = ganancia de LTP decodificada actual, gp(-1) = ganancia de LTP utilizada usada la ultima buena subtrama 25 (BFI = 0), y
9c =
9c-. 9c<9c{~l)
9c{~ 1), ge>9c{-l)
(11)
donde gc = ganancia de libro de codigo establecido decodificada actual, y gc(-1) = ganancia de libro de codigo 30 establecido usada para la ultima buena subtrama (BFI = 0).
[0047] El resto de los parametros de la voz recibidos se usan normalmente en la slntesis de la voz. Se guarda la trama actual de los parametros de la voz.
35 [0048] La tercera de las tres combinaciones es BFI = 1, prevBFI = 0 o 1, State = 1...6: Se detecta un error en la trama de la voz recibida, y se inicia el procedimiento de sustitucion y silenciamiento. La ganancia de LTP y la ganancia de libro de codigo establecido estan sustituidos por valores atenuados de las subtramas previas:
__ (P(estado) ■ gp(-1). gp{—1) < mediana5(gp(-1),.. ,,gp{-5))
‘ ‘J 1 P(estado) ■ mediana5(gp{— 1)......yp(—"*)) gp( — l) >medianaS (gp(— 1),..., f)p(—5))
(12)
donde gp indica la ganancia decodificada actual de prediction de largo plazo (LTP) y gp(-1), . . . , gp(-n) indican las ganancias de prediccion de largo plazo (LTP) utilizadas para la ultimas subtramas n, y median5() indica una operation de mediana de 5 puntos, y 5
donde gp indica la ganancia decodificada actual de LTP y gp(-1), ... , gp(-n) indican las ganancias de LTP usadas para la ultimas subtramas n, y median5() indica una operacion de mediana de 5 puntos, y
P(estado) = factor de atenuacion,
10
donde (P(1) = 0,98, P(2) = 0,98, P(3) = 0,8, P(4) = 0,3, P(5) = 0,2, P(6) = 0,2) y estado = numero de estado, y
gc(— 1) < medianaS (</c.( —1),. .., (;c( — 5))
PJc{~^)) 9c(~ 1) > medianaS (gc(-1),. .5))
(13)
imagen12
15 donde gc indica la ganancia de libro de codigo establecido decodificada actual, y gc(-1), ... , gc (-n) indican las ganancias de libro de codigo establecido usadas para las ultimas subtramas n, y median5() indica una operacion de mediana de 5 puntos, y C(estado) = factor de atenuacion, donde (C(1) = 0,98, C(2) = 0,98, C(3) = 0,98, C(4) = 0,98, C(5) = 0,98, C(6) = 0,7) y estado = numero de estado.
20 [0049] En AMR, los valores de retraso de LTP (LTP = Prediccion de largo plazo) son reemplazados por el valor pasado de la subtrama N.° 4 de la trama previa (modo 12,2), o valores ligeramente modificados basados en el ultimo valor recibido correctamente (todos los otros modos).
[0050] Segun AMR, los pulsos de innovation de libro de codigo establecido recibidos de la trama erronea se 25 usan en el estado en el cual fueron recibidos, cuando se reciben los datos alterados. En el caso de que no se
reciban datos, deben emplearse los indices de libro de codigo establecido aleatorios.
[0051] Con respecto a CNG en AMR, segun [3GP12a, section 6.4], cada primera trama de SID perdida es sustituida usando la information de SID de tramas de SID validas recibidas anteriormente, y se aplica el
30 procedimiento para tramas de SID validas. Para posteriores tramas de SID perdidas, se aplica una tecnica de atenuacion al ruido de confort, que disminuira en forma gradual el nivel de salida. Por lo tanto, se verifica si la ultima actualization de SID fue hace mas de 50 tramas (=1 s); en ese caso, la salida sera silenciada (atenuacion de nivel por -6/8 dB por trama [3GP12d, dtx_dec{}@sp_dec.c], lo que produce 37,5 dB por segundo). Observese que el desvanecimiento aplicado a CNG se realiza en el dominio de LP.
35
[0052] A continuation, se considera AMR-WB. La multitasa adaptativa - WB [ITU03, 3GP09c] es un codec de la voz, ACELP, basado en AMR (vease la seccion 1.8). Usa extension de ancho de banda parametrica y, ademas, sostiene DTX/CNG. En la description del estandar [3GP12g], hay soluciones de ejemplos de ocultamiento proporcionadas, que son las mismas que para la AMR [3GP12a], con desviaciones menores. Por lo tanto, solo las
40 diferencias con respecto a la AMR se describen aquf. Para la descripcion del estandar, vease la descripcion anterior.
[0053] Con respecto a ACELP, en AMR-WB, se realiza el desvanecimiento de ACELP basado en el codigo de fuente de referencia [3GP12c], mediante la modification de la ganancia de altura gp (para AMR referida arriba ganancia de LTP) y mediante la modificacion de la ganancia de codigo gc.
45
[0054] En el caso de trama perdida, la ganancia de altura gp para la primera subtrama es la misma que en la ultima buena trama, excepto que esta limitada entre 0,95 y 0,5. Para la segunda, la tercera y las siguientes subtramas, la ganancia de altura gp disminuye por un factor de 0,95 y es nuevamente limitada.
50 [0055] AMR-WB propone que en una trama ocultada, gc se base en la ultima gc:
9c,actual = 9c,pasada * (1,4 — gp.pasada)
5
9c — 9c,actual * 9ct
imagen13
tamanosub trama-1
enerinov = codigo [i]
i=0
(15)
(16)
(17)
[0056] Para el ocultamiento de los retrasos de LTP, en AMR-WB, el historial de los cinco ultimos buenos
retrasos de LTP y ganancias de LTP se usan para hallar el mejor metodo para la actualization, en el caso de una perdida de trama. En el caso de que la trama sea recibida con errores de bits, se realiza una prediction, ya sea si el 10 retraso de LTP recibido es utilizable o no [3GP12g].
[0057] Con respecto a CNG, en AMR-WB, si la ultima trama recibida correctamente fue una trama de SID, y una trama se clasifica como perdida, sera sustituida por la ultima information de trama de SID valida, y debe aplicarse el procedimiento para tramas de SID validas.
15
[0058] Para posteriores tramas de SID perdidas, AMR-WB propone la aplicacion de una tecnica de atenuacion al ruido de confort que disminuira en forma gradual el nivel de salida. Por lo tanto, se verifica si la ultima actualizacion de SID fue hace mas de 50 tramas (=1 s), en ese caso, la salida sera silenciada (atenuacion de nivel por -3/8 dB por trama [3GP12f, dtx_dec{}@dtx.c], lo que produce 18,75 dB por segundo). Observese que el
20 desvanecimiento aplicado a CNG se realiza en el dominio de LP.
[0059] Ahora se considera la AMR-WB+. La multitasa adaptativa - WB+ [3GP09a] es un codec cambiado usando la ACELP y TCX (TCX = Excitation Codificada por la Transformada), como codecs nucleo. Usa la extension de ancho de banda parametrica y ademas soporta DTX/CNG.
25
[0060] En la AMR-WB+, se aplica una logica de extrapolation de modos para extrapolar los modos de las tramas perdidas dentro de una supertrama distorsionada. Esta extrapolacion de modos se basa en el hecho de que existe redundancia en la definition de indicadores de modos. La logica de decision (proporcionada en [3GP09a, Figura 18]) propuesta por la AMR-WB+ es la siguiente:
30
- Se define un modo de vector (m-1, m0, m1, m3), donde m-1 indica el modo de la ultima trama de la supertrama previa, y m0, m1, m2, m3 indican los modos de las tramas en la supertrama actual (decodificadas a partir de la corriente de bits), donde mk = -1,0, 1,2 o 3 (-1: perdida, 0: ACELP, 1: TCX20, 2: TCX40, 3: TCX80), y donde el numero de tramas perdidas nperdida puede ser entre 0 y 4.
35
- Si m-1 = 3 y dos de los indicadores de modos de las tramas 0-3 son jguales a tres, todos los indicadores se estableceran a tres, ya que entonces es seguro que una trama TCX80 fue indicada dentro de la supertrama.
- Si solo un indicador de las tramas 0 - 3 es tres (y el numero de tramas perdidas nperdida es tres), el modo se
40 establecera a (1, 1, 1, 1), ya que, entonces 3/4 del espectro objetivo TCX80 esta perdido, y es muy probable
que la ganancia global de TCX este perdida.
- Si el modo esta indicando (x, 2, -1, x, x) o (x, -1, 2, x, x), sera extrapolado a (x, 2, 2, x, x), indicando una trama TCX40. Si el modo indica (x, x, x, 2, -1) o (x, x, -1,2), sera extrapolado a (x, x, x, 2, 2), indicando ademas una
45 trama TCX40. Debe observarse ademas que (x, [0, 1], 2, 2, [0, 1]) son configuraciones invalidas.
- Despues de eso, para cada trama esta perdida (modo = -1), se establece el modo a ACELP (modo = 0) si la
trama precedente fue ACELP, y el modo se establece a TCX20 (modo =1), para todos los otros casos.
50 [0061] Con respecto a ACELP, segun la AMR-WB+, si un modo de tramas perdidas logra mk = 0 despues de la extrapolacion de modos, se aplica el mismo enfoque que en [3GP12g] para esta trama (vease anteriormente).
[0062] En AMR-WB+, dependiendo del numero de tramas perdidas y el modo extrapolado, se distinguen los siguientes enfoques de ocultamiento relacionados con TCX (TCX = Excitacion Codificada por la Transformada):
- Si una trama completa esta perdida, entonces se aplica un ocultamiento de tipo ACELP: Se repite la ultima 5 excitacion, y se usan los coeficientes de ISF ocultados (ligeramente cambiados hacia su media adaptativa)
para sintetizar la senal de dominio de tiempo. Ademas, se multiplica un factor de desvanecimiento de 0,7 por trama (20 ms) [3GP09b, dec_tcx.c] en el dominio predictivo lineal, justo antes de la sintesis de LPC (Codificacion Predictiva Lineal).
10 - Si el ultimo modo fue TCX80, al igual que si el modo extrapolado de la supertrama (parcialmente perdida) es TCX80 (nperdida = [1, 2], modo = (3, 3, 3, 3, 3)), se realiza el ocultamiento en el dominio FFT, utilizando extrapolacion de fases y amplitud, teniendo en cuenta la ultima trama recibida correctamente. El enfoque de extrapolacion de la informacion de fase no es de interes aqui (sin relacion con la estrategia de desvanecimiento), y por lo tanto, no se describe. Para mas detalles, vease [3GP09a, seccion 6.5.1.2.4]. Con
15 respecto a la modificacion de amplitud de AMR-WB+, el enfoque realizado para el ocultamiento de TCX consiste en las siguientes etapas [3GP09a, seccion 6.5.1.2.3]:
- Se computa el espectro de magnitud de trama previa:
20 A[k]antiguo = |X[k]antiguo|
- Se computa el espectro de magnitud de trama actual:
25
imagen14
Se computa la diferencia de ganancia de energia de coeficientes espectrales no perdidos entre la trama previa y la trama actual:
imagen15
- La amplitud de los coeficientes espectrales perdidos es extrapolada usando:
30 si ([k]perdido) A[k] = ganancia • A[k] antiguo
- En todo otro caso de una trama perdida con mk = [2, 3], el objetivo de TCX (FFT inversa de espectro decodificado mas relleno de ruido (usando un nivel de ruido decodificado a partir de la corriente de bits)) se sintetiza usando toda la informacion disponible (que incluye ganancia global de TCX). No se aplica
35 desvanecimiento en este caso.
[0063] Con respecto a CNG en AMR-WB+, se usa el mismo enfoque que en la AMR-WB (vease anteriormente).
40 [0064] A continuacion, se considera OPUS. OPUS [IET12] incorpora tecnologia de dos codecs: el SILK orientado a la voz (conocido como el codec Skype) y el CELT de baja latencia (CELT = Transformada Superpuesta de Energia Restringida). Opus puede ajustarse de una manera sin costuras, entre altas y bajas tasas de bits, e internamente, cambia entre un codec de prediccion lineal a menores tasas de bits (SILK) y un codec de transformada a tasas de bits mas altas (CELT), al igual que un hibrido para una corta superposition.
45
[0065] Con respecto a la compresion y descompresion de datos de audio SILK, en OPUS, hay varios parametros que son atenuados durante el ocultamiento en la rutina del decodificador SILK. El parametro de LTP es atenuado mediante la multiplication de todos los coeficientes de LPC o bien con 0,99, 0,95 o 0,90 por trama, dependiendo del numero de tramas perdidas consecutivas, donde la excitacion se construye usando el ultimo ciclo
50 de altura de la excitacion de la trama previa. El parametro de retraso de altura es aumentado muy lentamente durante las consecutivas perdidas. Para perdidas unicas, se mantiene constante, en comparacion con la ultima trama. Ademas, el parametro de ganancia de excitacion es exponencialmente atenuado con 0,99perdidacnt por trama, de manera que el parametro de ganancia de excitacion es 0,99 para el primer parametro de ganancia de excitacion, de modo que el parametro de ganancia de excitacion es 0,992 para el segundo parametro de ganancia de
excitacion, etc. La excitacion se genera usando un generador de numero aleatorio que genera ruido blanco por el sobreflujo variable. Ademas, los coeficientes de LPC son extrapolados/promediados basandose en el ultimo grupo de coeficientes recibidos correctamente. Despues de la generacion del vector de excitacion atenuado, los coeficientes de LPC ocultados se usan en OPUS para la slntesis de la senal de salida de dominio de tiempo.
5
[0066] Ahora, en el contexto de OPUS, se considera CELT. CELT es un codec basado en la transformada. El ocultamiento de CELT caracteriza un enfoque de PLC basado en la altura, que se aplica para hasta cinco tramas perdidas consecutivamente. Empezando con la trama 6, se aplica un enfoque de ocultamiento de tipo ruido, que genera ruido de fondo, donde dicha caracterlstica se supone que suena como ruido de fondo precedente.
10
[0067] La Fig. 5 ilustra el comportamiento de perdida de rafaga de CELT. En particular, la Fig. 5 representa un espectrograma (eje x: tiempo; eje y: frecuencia) de un segmento de la voz ocultado de CELT. La caja de color gris claro indica las primeras 5 tramas consecutivamente perdidas, donde se aplica el enfoque de PLC basado en la altura. Mas alla de ello, se muestra el ocultamiento de tipo ruido. Debe observarse que el cambio se realiza de
15 manera instantanea, y no transita suavemente.
[0068] Con respecto al ocultamiento basado en la altura, en OPUS, el ocultamiento basado en la altura consiste en hallar la periodicidad en la senal decodificada por autocorrelacion y repetition de la forma de onda ventaneada (en el dominio de excitacion usando el analisis de LPC y la slntesis) usando la desviacion de altura
20 (retraso de altura). La forma de onda ventaneada es superpuesta de tal manera que se preserve la cancelation de la superposition periodica sucesiva en el dominio de tiempo con la trama previa y la siguiente trama [IET12]. Adicionalmente, se deriva un factor de desvanecimiento y se aplica mediante el siguiente codigo:
opus_val32 El=l, E2=l; int period;
if (pitch_index <= MAXPERIOD/2) { period = pitch index;
>
else {
period = MAX_PERIOD/2;
>
for (i=0;i<period;i++)
{
El += exc[MAXPERTOD- period+i] * exc[MAX_PERIOD-period+i];
E2 += exc[MAX_PERIOD-2*period+i] * exc[MAX_PERIOD-2*period+i];
>
if (El > E2) {
El = E2;
>
decay = sqrt(E1/E2)); attenuation = decay;
25
[0069] En este codigo, exc contiene la senal de excitacion hasta MAX_PERIOD muestras antes de la perdida.
[0070] La senal de excitacion es luego multiplicada con atenuacion, luego, sintetizada, y sale mediante la slntesis de LPC.
30
[0071] El algoritmo de desvanecimiento para el enfoque de dominio de tiempo puede ser resumido de la siguiente manera:
- Hallar la energla slncrona de altura del ultimo ciclo de altura antes de la perdida.
35
- Hallar la energla slncrona de altura del segundo ultimo ciclo de altura antes de la perdida.
- Si la energla esta en aumento, limitarla para que permanezca constante: atenuacion = 1.
40 - Si la energla esta en disminucion, continuar con la misma atenuacion durante el ocultamiento.
[0072] Con respecto al ocultamiento de tipo ruido, segun OPUS, para la 6a y siguientes tramas perdidas consecutivas, se realiza un enfoque de sustitucion de ruido en el dominio de MDCT con el fin de estimular el ruido de fondo de confort.
5 [0073] Con respecto al rastreo del nivel de ruido de fondo y la forma, en OPUS, la estimacion de ruido de fondo se realiza de la siguiente manera: Despues del analisis de MDCT, se calcula la ralz cuadrada de las energlas de la banda de MDCT por banda de frecuencia, donde la agrupacion de los bins de la MDCT sigue la escala de Bark segun [IET12, Tabla 55]. A continuacion, la ralz cuadrada de las energlas se transforma en el dominio log2 por medio de:
10
LogE[i] de banda = log2(e) ■ loge (bandE[i] - eMeans[i]) para i = 0 ... 21 (18)
15
[0074] En OPUS, el ruido de fondo es representado en forma logarltmica del lado del decodificador como [IET12, amp2Log2 y log2Amp @ quant_bands.c]:
LogE[i] de fondo = min (LogE[i] de fondo + 8 ■ 0,001, LogE[i] de banda)
para i = 0 ... 21 (19)
[0075] La energla minima trazada se determina basicamente por la raiz cuadrada de la energia de la banda 20 de la trama actual, si bien el incremento de una trama a la siguiente es limitado por 0,05 dB.
25
[0076] Con respecto a la aplicacion del nivel de ruido de fondo y la forma, segun OPUS, si se aplica el PLC de tipo ruido, se usa LogE de fondo como se derivo en la ultima buena trama y se convierte nuevamente en el dominio lineal:
bandE[i] = e (l°ge (2) ■ (Log E[i] de fondo + eMeans[i]) para i = 0 . 21 (20)
donde e es el numero de Euler y eMeans es el mismo vector de constantes que para la transformada de "lineal a log".
30
[0077] El procedimiento de ocultamiento actual es para llenar la trama de la MDCT con ruido blanco producido por un generador de numero aleatorio, y escalar este ruido blanco de modo tal que coincida a modo de banda con la energia de bandE. Posteriormente, se aplica la MDCT inversa, que logra una senal de dominio de tiempo. Despues de la superposicion y adicion y del desenfasis (como en la decodificacion regular), es apagada.
35
[0078] A continuacion, se considera MPEG-4 HE-AAC (MPEG = Grupo de Expertos en Imagenes en Movimiento; HE-AAC = Codificacion de Audio Avanzada de Alta Eficiencia). La codificacion de audio de avanzada de alta eficiencia consiste en un codec de audio basado en la transformada (AAC), suplementado por una extension de ancho de banda parametrica (SBR).
40
[0079] Con respecto a AAC (AAC = Codificacion de Audio Avanzada), el consorcio DAB especifica para AAC en DAB+ un desvanecimiento a cero en el dominio de frecuencia [EBU10, seccion A1.2] (DAB = Transmision de Audio Digital). El comportamiento de desvanecimiento, por ejemplo, la rampa de atenuacion, podria establecerse o ser ajustable por el usuario. Los coeficientes espectrales de la ultima AU (AU = Unidad de Acceso) son atenuados
45 por un factor correspondiente a las caracteristicas de desvanecimiento y luego se pasan a la cartografia de frecuencia a dominio. Dependiendo de la rampa de atenuacion, el ocultamiento cambia a silenciamiento despues de un numero de AU invalidas consecutivas, lo que significa que el espectro completo se establecera a 0.
[0080] El consorcio DRM (DRM = Gerenciamiento de Derechos Digitales) especifica para AAC en DRM un 50 desvanecimiento en el dominio de frecuencia [EBU12, seccion 5.3.3]. El ocultamiento trabaja en los datos espectrales justo antes de la conversion final de frecuencia a tiempo. Si multiples tramas son alteradas, el ocultamiento implementa primero un desvanecimiento, basandose en valores espectrales ligeramente modificados, a partir de la ultima trama valida. Ademas, de manera similar a DAB+, el comportamiento de desvanecimiento, por ejemplo, la rampa de atenuacion, podria fijarse o ser ajustable por el usuario. Los coeficientes espectrales de la 55 ultima trama son atenuados por un factor correspondiente a las caracteristicas de desvanecimiento y luego pasados a la cartografia de frecuencia a tiempo. Dependiendo de la rampa de atenuacion, el ocultamiento cambia al silenciamiento despues de un numero de tramas invalidas consecutivas, lo que significa que el espectro completo se establecera a 0.
[0081] 3GPP introduce para AAC en aacPIus mejorado el desvanecimiento en el dominio de frecuencia similar a DRM [3GP12e, seccion 5.1]. El ocultamiento trabaja en los datos espectrales justo antes de la conversion final de frecuencia a tiempo. Si multiples tramas son alteradas, el ocultamiento implementa primero un desvanecimiento, basandose en valores espectrales ligeramente modificados, a partir de la ultima trama buena. Un desvanecimiento
5 completo lleva 5 tramas. Los coeficientes espectrales de la ultima buena trama son copiados y atenuados por un factor de:
Fac de desvanecimiento = 2'(nTramaDesvanecimiento/2)
con nTramaDesvanecimiento como el contador de tramas desde la ultima buena trama. Despues de cinco tramas de 10 desvanecimiento, el ocultamiento cambia a silenciamiento, lo que significa que el espectro completo se establecera a 0.
[0082] Lauber y Sperschneider introducen para AAC un desvanecimiento a modo de trama del espectro de la MDCT, basandose en la extrapolacion de energla [LS01, seccion 4.4]. Podrlan usarse formas de energla de un
15 espectro precedente, con el fin de extrapolar la forma de un espectro estimado. La extrapolacion de energla puede realizarse en forma independiente de las tecnicas de ocultamiento como una clase de post-ocultamiento.
[0083] Con respecto a AAC, el calculo de energla se realiza sobre una base de banda de factor de escala, con el fin de acercarse a las bandas crlticas del sistema auditivo humano. Los valores de energla individuales son
20 disminuidos sobre una base de trama por trama con el fin de reducir el volumen suavemente, por ejemplo, para desvanecer la senal. Esto llega a ser necesario, ya que la probabilidad de que los valores estimados representen la senal actual disminuye rapidamente en funcion del tiempo.
[0084] Para la generation del espectro que va a ser desvanecido sugieren la repetition de trama o la 25 sustitucion de ruido [LS01, secciones 3.2 y 3.3].
[0085] Quackenbusch y Driesen sugieren para AAC un desvanecimiento a cero a modo de trama exponencial [QD03]. Se propone una repeticion de grupo adyacente de coeficientes de tiempo/frecuencia, en el que cada repeticion tiene atenuacion exponencialmente en incremento, desvaneciendose as! gradualmente hasta el
30 silenciamiento, en el caso de apagones prolongados.
[0086] Con respecto a SBR (SBR = Replication de Banda Espectral), en MPEG-4 HE-AAC, 3GPP sugiere para SBR en aacPlus mejorada el almacenamiento temporal en bufer de los datos de envoltura decodificados, y en el caso de una perdida de trama, la reutilizacion de las energlas almacenadas en bufer de los datos de envoltura
35 transmitidos y la disminucion de estos por una relation constante de 3 dB para cada trama ocultada. El resultado es alimentado en el proceso de decodificacion normal donde el ajustador de envoltura lo utiliza para calcular las ganancias, usadas para el ajuste de las altas bandas con parches, creadas por el generador de HF. Luego tiene lugar la decodificacion de SBR de manera habitual. Ademas, el piso de ruido codificado delta y los valores de nivel de seno son eliminados. Como no queda disponible ninguna diferencia con la information previa, el piso de ruido 40 decodificado y los niveles de seno permanecen proporcionales a la energla de la senal generada de HF [3GP12e, seccion 5.2].
[0087] El consorcio de DRM especificado para la SBR en conjunto con la AAC utiliza la misma tecnica que 3GPP [EBU12, seccion 5.6.3.1]. Ademas, el consorcio de DAB especifica para la SBR en DAB + la misma tecnica
45 que 3GPP [EBU10, seccion A2].
[0088] A continuation, se consideran MPEG-4 CELP y MPEG-4 HVXC (HVXC = Codification de Excitation de Vector Armonico). El consorcio de DRM especifica para la SBR en conjunto con CELP y HVXC [EBU12, seccion 5.6.3.2] que el mlnimo ocultamiento de requerimiento para la SBR para codecs de la voz debe aplicar un conjunto
50 predeterminado de valores de datos, cada vez que una trama alterada de SBR haya sido detectada. Aquellos valores producen una envoltura espectral de alta banda estatica, a un bajo nivel relativo de reproduction, presentando una inclinacion hacia las frecuencias mas altas. El objetivo es simplemente para garantizar que ninguna rafaga de audio de mal comportamiento, potencialmente alta, llegue al oldo del oyente, por medio de la insertion de “ruido de confort” (en lugar del estricto silenciamiento). De hecho, esto no es un real desvanecimiento, sino, en 55 cambio, un salto a un cierto nivel de energla con el fin de insertar cierta clase de ruido de confort.
[0089] Posteriormente, se menciona una alternativa [EBU12, seccion 5.6.3.2] que reutiliza los ultimos datos decodificados correctamente y lentamente disminuye los niveles (L) hacia 0, en forma analoga al caso de AAC + SBR.
[0090] Ahora, se considera MPEG-4 HILN (HILN = Armonicos y Llneas Individuales mas Ruido). Meine et al. introducen un desvanecimiento para el codec MPEG-4 HILN parametrico [IS009] en un dominio parametrico [MEP01]. Para componentes armonicos continuados, un buen comportamiento por defecto para el reemplazo de
5 parametros diferencialmente codificados alterados es mantener la frecuencia constante, con el fin de reducir la amplitud por un factor de atenuacion (por ejemplo, -6 dB), y dejar que la envoltura espectral converja hacia aquella de la caracterlstica de paso bajo promediado. Una alternativa para la envoltura espectral serla mantenerla sin cambios. Con respecto a amplitudes y envolturas espectrales, los componentes de ruido pueden ser tratados de la misma manera que los componentes armonicos.
10
[0091] A continuacion, se considera el rastreo del nivel de ruido de fondo en la tecnica anterior. Rangachari y Loizou [RL06] proporcionan una buena vision general de varios metodos, y describen algunas de sus limitaciones. Los metodos para el rastreo del nivel de ruido de fondo son, por ejemplo, el procedimiento de pista minima [RL06] [Coh03] [SFBOO] [Dob95], basado en VAD (VAD = deteccion de actividad de voz); la filtracion de Kalman [Gan05]
15 [BJH06], las descomposiciones de subespacios [BP06] [HJH08]; decision blanda [SS98] [MPC89] [HE95] y estadlstica minima.
[0092] Se selecciono el enfoque de estadistica minima para usar dentro del alcance para USAC-2 (USAC = Codificacion de la voz y Audio Unificados) y se explica resumidamente a continuacion en mas detalle.
20
[0093] La estimacion de densidad espectral de potencia de ruido basada en un suavizado optimo y minima estadistica [Mar01] introduce un estimador de ruido que es capaz de funcionar independientemente de que la senal sea la voz activa o ruido de fondo. A diferencia de otros metodos, el algoritmo de minima estadistica no usa ningun umbral explicito para distinguir entre actividad de la voz y pausa de la voz, y por lo tanto, se relaciona mas
25 cercanamente con los metodos de decision blanda, que con los metodos tradicionales de deteccion de actividad de voz. De manera similar a los metodos de decision blanda, puede tambien actualizar la PSD (Densidad Espectral de Potencia) de ruido estimado durante la actividad de la voz.
[0094] El metodo de minima estadistica se basa en dos observaciones, concretamente, que la voz y el ruido 30 habitualmente son estadisticamente independientes, y que la potencia de una senal de la voz ruidosa con frecuencia
decae hasta el nivel de potencia del ruido. Por lo tanto, es posible derivar una estimacion de PSD (PSD = densidad espectral de potencia) de ruido exacta mediante el rastreo de la minima de la PSD de la senal ruidosa. Debido a que la minima es menor (o en otros casos, igual) que el valor promedio, el metodo de rastreo minimo requiere una compensacion de inclinacion.
35
[0095] La inclination es una funcion de la variancia de la PSD de la senal suavizada, y como tal, depende del parametro de suavizado del estimador de PSD. A diferencia del trabajo previo sobre el minimo rastreo, que utiliza un parametro de suavizado constante y una correction de inclinacion minima constante, se usa un suavizado de PSD dependiente del tiempo y la frecuencia, que tambien requiere una compensation de inclinacion dependiente del
40 tiempo y la frecuencia.
[0096] El uso de rastreo minimo proporciona una estimacion aproximada de la potencia de ruido. Sin embargo, existen algunas desventajas. El suavizado con un parametro de suavizado fijado amplia los picos de actividad de la voz de la estimacion de PSD suavizada. Esto conducira a estimaciones de ruido inexactas, ya que la
45 ventana de deslizamiento para la busqueda minima podria deslizarse hacia picos amplios. En consecuencia, los parametros de suavizado cercanos a uno no puede ser usados, y en consecuencia, la estimacion de ruido tendra una variancia relativamente grande. Ademas, la estimacion de ruido se inclina hacia valores menores. Adicionalmente, en el caso de incrementar la potencia de ruido el rastreo minimo queda retrasado.
50 [0097] El rastreo de PSD de ruido basado en MMSE, con baja complejidad [HHJ10] introduce un enfoque de PSD de ruido de fondo utilizando una busqueda de MMSE usada en un espectro de DFT (Transformada Discreta de Fourier). El algoritmo consiste en estas etapas de procesamiento:
- Se calcula el maximo estimador de probabilidad basandose en la PSD de ruido de la trama previa.
55
- Se computa el minimo estimador de cuadrados medios.
- Se estima el maximo estimador de probabilidad usando el enfoque dirigido por decision [EM84].
- Se computa el factor de inclinacion inversa asumiendo que los coeficientes de DFT de la voz y ruido son distribuidos en forma gaussiana.
- Se suaviza la densidad espectral de potencia de ruido estimada.
5
[0098] Existe ademas un enfoque de red de seguridad aplicado con el fin de evitar un completo estancamiento del algoritmo.
[0099] El rastreo de ruido no estacionario basado en la estimacion de potencia de ruido recursiva conducida 10 por datos [EH08] introduce un metodo para la estimacion de la variancia espectral de ruido a partir de senales de la
voz contaminadas por fuentes de ruido altamente no estacionarias. Este metodo tambien esta usando el suavizado en la direction de tiempo/frecuencia.
[0100] Un algoritmo de estimacion de ruido de baja complejidad basado en el suavizado de la estimacion de 15 potencia de ruido y la correction de la inclinacion de estimacion [Yu09] mejora el enfoque introducido en [EH08]. La
principal diferencia es que la funcion de ganancia espectral para la estimacion de potencia de ruido es hallada por un metodo conducido por datos iterativos.
[0101] Los metodos estadlsticos para el mejoramiento de la voz ruidosa [Mar03] combinan el enfoque de 20 minima estadlstica proporcionado en [Mar01] por la modification de ganancia de decision blanda [MCA99], por una
estimacion de la SNR a-priori [MCA99], por una limitation de ganancia adaptativa [MC99] y por un estimador de amplitud espectral log MMSE [EM85].
[0102] El desvanecimiento es de particular interes para una pluralidad de codecs de la voz y audio, en 25 particular AMR (vease [3GP12b]) (que incluye ACELP y cNg), AMR-WB (vease [3GP09c]) (que incluye ACELP y
CNG), AMR-WB+ (vease [3GP09a]) (que incluye ACELP, TCX y CNG), G.718 (vease [ITU08a]), G.719 (vease [ITU08b]), G.722 (vease [ITU07]), G.722.1 (vease [ITU05]), G.729 (vease [ITU12, CPK08, PKJ+11]), MPEG-4 HE- AAC / aacPlus mejorada mas (vease [EBU10, EBU12, 3GP12e, LS01, QD03]) (que AAC y SBR), MPEG-4 HILN (vease [IS009, MEP01]) y OPUS (vease [IET12]) (que incluye SILK y CELT).
30
[0103] Dependiendo del codec, el desvanecimiento se realiza en diferentes dominios:
Para codecs que utilizan LPC, el desvanecimiento se realiza en el dominio predictivo lineal (tambien conocido como el dominio de excitation). Esto es cierto para codecs que se basan en ACELP, por ejemplo, AMR, AMR- 35 WB, el nucleo de ACELP de AMR-WB+, G.718, G.729, G.729.1, el nucleo SILK en OPUS; codecs que ademas procesan la senal de excitacion usando una transformation de tiempo-frecuencia, por ejemplo, el nucleo de TCX de AMR-WB+, el nucleo de CELT en OPUS; y para los esquemas de generation de ruido de confort (CNG) que operan en el dominio predictivo lineal, por ejemplo, CNG en AMR, CNG en AMR-WB, CNG en AMR-WB+.
40
[0104] Para codecs que directamente transforman la senal de tiempo en el dominio de frecuencia, el desvanecimiento se realiza en el dominio espectral / subbanda. Esto es cierto para codecs que se basan en la MDCT o una transformacion similar, tal como AAC en MPEG-4 HE-AAC, G.719, G.722 (dominio de subbanda) y G.722.1.
45
[0105] Para codecs parametricos, el desvanecimiento se aplica en el dominio parametrico. Esto es cierto para MPEG-4 HILN.
[0106] Con respecto a la velocidad del desvanecimiento y la curva del desvanecimiento, un desvanecimiento 50 comunmente es realizado mediante la aplicacion de un factor de atenuacion, que se aplica a la representation de
senal en el dominio apropiado. El tamano del factor de atenuacion controla la velocidad del desvanecimiento y la curva del desvanecimiento. En la mayorla de los casos, el factor de atenuacion se aplica a modo de trama, si bien se utiliza ademas una aplicacion a modo de muestra, vease, por ejemplo, G.718 y G.722.
55 [0107] El factor de atenuacion para un cierto segmento de senal podrla ser proporcionado de dos maneras,
absoluta y relativa.
[0108] En el caso de que se provea un factor de atenuacion de manera absoluta, el nivel de referencia es
siempre aquel de la ultima trama recibida. Los factores de atenuacion absolutos habitualmente inician con un valor
cercano a 1 para el segmento de senal inmediatamente despues de la ultima buena trama, y luego, se degradan en forma mas veloz o mas lenta, hacia 0. La curva de desvanecimiento depende directamente de estos factores. Es decir, por ejemplo, el caso para el ocultamiento descripto en el Apendice IV de G.722 (vease, en particular, [ITU07, figura IV.7]), donde las posibles curvas de desvanecimiento son lineales o gradualmente lineales. Considerando un 5 factor de ganancia g(n), mientras que g(0) representa el factor de ganancia de la ultima buena trama, un factor de atenuacion absoluto aat>s(n), el factor de ganancia de cualquier trama perdida posterior puede derivarse como:
9(n) = <xaba(n) ■ g(0)
10 [0109] En el caso en el que se proporciona un factor de atenuacion de manera relativa, el nivel de referencia
es aquel de la trama previa. Esto tiene ventajas en el caso de un procedimiento de ocultamiento recursivo, por ejemplo, si la senal ya atenuada es adicionalmente procesada y atenuada nuevamente.
[0110] Si un factor de atenuacion se aplica de manera recursiva, entonces este podrla ser un valor fijado
15 independiente del numero de tramas consecutivamente perdidas, por ejemplo, 0,5 para G.719 (vease anteriormente); un valor fijado relativo al numero de tramas consecutivamente perdidas, por ejemplo, como se propone para G.729 en [CPK08]: 1,0 para las primeras dos tramas, 0,9 para las siguientes dos tramas, 0,8 para las tramas 5 y 6, y 0, para todas las posteriores tramas (vease anteriormente); o un valor que es relativo al numero de tramas consecutivamente perdidas y que depende de las caracterlsticas de senal, por ejemplo, un desvanecimiento 20 mas veloz para una senal inestable, y un desvanecimiento mas lento, para una senal estable, por ejemplo, G.718 (vease la seccion anterior y [ITU08a, Tabla 44]);
Asumiendo un factor de desvanecimiento relativo 0 < are(n) < 1, mientras que n es el numero de la trama perdida (n > 1); el factor de ganancia de cualquier trama posterior puede derivarse como:
25
imagen16
produciendo un desvanecimiento exponencial.
30
[0111] Con respecto al procedimiento de desvanecimiento, habitualmente, se especifica el factor de atenuacion, si bien en algunos estandares de aplicacion (DRM, DAB+) este ultimo se deja al fabricante.
[0112] Si diferentes partes de senal son desvanecidas en forma separada, podrlan aplicarse diferentes 35 factores de atenuacion, por ejemplo, con el fin de cambiar gradualmente el volumen de los componentes tonales con
una cierta velocidad, y los componentes de tipo ruido, con otra velocidad (por ejemplo, AMR, SILK).
[0113] Habitualmente, se aplica una cierta ganancia a la trama entera. Cuando el desvanecimiento se realiza en el dominio espectral, esta es la unica manera posible. Sin embargo, si el desvanecimiento se realiza en el
40 dominio de tiempo o el dominio predictivo lineal, es posible un desvanecimiento mas granular. Dicho desvanecimiento mas granular se aplica en G.718, donde los factores de ganancia individuales son derivados para cada muestra por interpolacion lineal entre el factor de ganancia de la ultima trama y el factor de ganancia de la trama actual.
45 [0114] Para codecs con una duracion de trama variable, un factor de atenuacion relativo constante conduce a
una velocidad de desvanecimiento diferente dependiendo de la duracion de la trama. Es decir, por ejemplo, el caso para AAC, donde la duracion de la trama depende de la tasa de muestreo.
[0115] A fin de adoptar la curva de desvanecimiento aplicada a la forma temporal de la ultima senal recibida,
50 los factores de desvanecimiento (estaticos) podrlan ser adicionalmente ajustados. Dicho ajuste dinamico adicional se aplica, por ejemplo, para AMR, donde se tiene en cuenta la mediana de los cinco factores de ganancia previos (vease [3GP12b] y seccion 1.8.1). Antes de realizar cualquier atenuacion, la ganancia actual se establece en la mediana, si la mediana es menor que la ultima ganancia; de lo contrario, se usa la ultima ganancia. Ademas, dicho
ajuste dinamico adicional se aplica, por ejemplo, para G729, donde se predice la amplitud usando la regresion lineal de los factores de ganancia previos (vease [CPK08, PKJ+11] y seccion 1.6). En este caso, el factor de ganancia resultante para las primeras tramas ocultadas podrla exceder al factor de ganancia de la ultima trama recibida.
5 [0116] Con respecto al nivel objetivo del desvanecimiento, excepto G.718 y CELT, el nivel objetivo es 0 para
todos los codecs analizados, que incluyen aquellos codecs de generation de ruido de confort (CNG).
[0117] En G.718, el desvanecimiento de la excitation de altura (que representa los componentes tonales) y el desvanecimiento de la excitacion aleatoria (que representa los componentes de tipo ruido) se realizan en forma
10 separada. Si bien el factor de ganancia de altura se desvanece a cero, el factor de ganancia de innovation se desvanece a la energla de excitacion de CNG.
[0118] Asumiendo que se proporcionan los factores de atenuacion relativos, esto conduce - basandose en la formula (23) - al siguiente factor de atenuacion absoluto:
15
g(n) = Orel (n) ■ g{n - 1) + (1 - arei (n)) • gn (25)
siendo gn la ganancia de la excitacion usada durante la generacion de ruido de confort. Esta formula corresponde a la formula (23), cuando gn = 0.
20
[0119] G.718 no realiza desvanecimiento en el caso de DTX/CNG.
[0120] En CELT no hay desvanecimiento hacia el nivel objetivo, si bien, despues de 5 tramas de ocultamiento
tonal (que incluye un desvanecimiento), el nivel es cambiado instantaneamente al nivel objetivo en la 6a trama
25 consecutivamente perdida. El nivel es derivado a modo de banda usando la formula (19).
[0121] Con respecto a la forma espectral objetivo del desvanecimiento, todos los codecs basados en la transformada pura analizados (AAC, G.719, G.722, G.722.1), al igual que la SBR, simplemente prolongan la forma espectral de la ultima buena trama durante el desvanecimiento.
30
[0122] Diversos codecs de la voz desvanecen la forma espectral a una media, usando la slntesis de LPC. La
media podrla ser estatica (AMR) o adaptativa (AMR-WB, AMR-WB+, G.718), mientras que esta ultima se deriva a
partir de una media estatica y una media de corto plazo (derivada promediando los ultimos grupos de coeficientes n LP) (LP = Prediccion Lineal).
35
[0123] Todos los modulos de CNG en los codecs descritos de AMR, AMR-WB, AMR-WB+, G.718 prolongan la forma espectral de la ultima buena trama durante el desvanecimiento.
[0124] Con respecto al rastreo del nivel de ruido de fondo, existen cinco enfoques diferentes conocidos de la 40 bibliografla:
- Basado del detector de actividad de voz: se basa en SNR/VAD, pero muy diflcil de sintonizar y de usar para la voz SNR baja.
45 - Esquema de decision blanda: El enfoque de decision blanda tiene en cuenta la probabilidad de la presencia de la voz [SS98] [MPC89] [HE95],
- Minima estadlstica: Se rastrea la minima de la PSD manteniendo una cierta cantidad de valores con el tiempo en un bufer, permitiendo as! encontrar el mlnimo ruido de las muestras pasadas [Mar01] [HHJ10] [EH08]
50 [Yu09],
- Filtration de Kalman: El algoritmo usa una serie de mediciones observadas en funcion del tiempo, que contienen ruido (variaciones aleatorias), y produce estimaciones de la PSD de ruido que tienden a ser mas precisas que aquellas basandose en una unica medicion sola. El filtro de Kalman opera de manera recursiva
55 sobre corrientes de datos de entrada ruidosos para producir una estimation estadlsticamente optima del estado del sistema [Gan05] [BJH06].
- Descomposicion subespacial: Este enfoque trata de descomponer una senal de tipo ruido en una senal
discursiva limpia y una parte de ruido, utilizando, por ejemplo, la KLT (transformada de Karhunen-Loeve, tambien conocida como analisis de componentes principales) y/o la DFT (Transformada Discreta de Fourier). A continuacion, pueden rastrearse vectores propios/valores propios usando un algoritmo de suavizado arbitrario [BP06] [HJH08].
5
[0125] El documento WO 2007/073604 A1 desvela un metodo y un dispositivo para ocultar borrados de trama producidos por tramas de una senal de sonido codificada borrada durante la transmision de un codificador a un decodificador y para la recuperacion del decodificador despues de los borrados de trama comprenden, en el codificador, determinar los parametros de ocultamiento/recuperacion que incluyen al menos information de fase
10 relacionada con tramas de la senal de sonido codificada. Los parametros de ocultamiento/recuperacion determinados en el codificador se transmiten al decodificador y, en el decodificador, se realiza el ocultamiento del borrado de tramas en respuesta a los parametros de ocultamiento/recuperacion recibidos. El ocultamiento del borrado de tramas comprende resincronizar, en respuesta a la informacion de fase recibida, las tramas ocultadas por borrado con tramas correspondientes de la senal de sonido codificada en el codificador. Cuando no se transmite 15 ningun parametro de ocultamiento/recuperacion al decodificador, se estima una informacion de fase de cada trama de la senal de sonido codificada que ha sido borrada durante la transmision del codificador al decodificador en el decodificador. Por tanto, el ocultamiento del borrado de tramas se realiza en el decodificador en respuesta a la informacion de fase estimada, en el que el ocultamiento del borrado de tramas comprende resincronizar, en respuesta a la informacion de fase estimada, cada trama ocultada por borrado con una trama correspondiente de la 20 senal de sonido codificada en el codificador.
[0126] El objeto de la presente invention es proporcionar conceptos mejorados para sistemas de codification de audio. El objeto de la presente invencion es resuelto por un aparato segun la reivindicacion 1, por un metodo segun la reivindicacion 19 y por un programa informatico segun la reivindicacion 20.
25
[0127] Se provee un aparato para la decodificacion de una senal de audio.
[0128] El aparato comprende una interfaz receptora. La interfaz receptora esta configurada para recibir una pluralidad de tramas, en el que la interfaz receptora esta configurada para recibir una primera trama de la pluralidad
30 de tramas, comprendiendo dicha primera trama una primera portion de senal de audio de la senal de audio, estando dicha primera porcion de senal de audio representada en un primer dominio, y en el que la interfaz receptora esta configurada para recibir una segunda trama de la pluralidad de tramas, comprendiendo dicha segunda trama una segunda porcion de senal de audio de la senal de audio.
35 [0129] Aun mas, el aparato comprende una unidad de transformada para la transformation de la segunda
porcion de senal de audio o un valor o senal derivada de la segunda porcion de senal de audio, de un segundo dominio a un dominio de rastreo para obtener una informacion de segunda porcion de senal, en el que el segundo dominio es diferente del primer dominio, en el que el dominio de rastreo es diferente del segundo dominio, y en el que el dominio de rastreo es igual o diferente del primer dominio.
40
[0130] Adicionalmente, el aparato comprende una unidad de rastreo de nivel de ruido, en el que la unidad de
rastreo de nivel de ruido esta configurada para recibir una informacion de primera porcion de senal que es representada en el dominio de rastreo, en el que la informacion de primera porcion de senal depende de la primera porcion de senal de audio. La unidad de rastreo de nivel de ruido esta configurada para recibir la segunda porcion de
45 senal que es representada en el dominio de rastreo, y en el que la unidad de rastreo de nivel de ruido esta
configurada para determinar la informacion de nivel de ruido dependiendo de la informacion de primera porcion de senal que es representada en el dominio de rastreo y dependiendo de la informacion de segunda porcion de senal que es representada en el dominio de rastreo.
50 [0131] Ademas, el aparato comprende una unidad de reconstruction para la reconstruction de una tercera
porcion de senal de audio de la senal de audio dependiendo de la informacion de nivel de ruido, si una tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora pero esta alterada.
[0132] Una senal de audio, por ejemplo, puede ser una senal de la voz, o una senal de musica, o senal que
55 comprende la voz y musica, etc.
[0133] La afirmacion de que la informacion de primera porcion de senal depende de la primera porcion de senal de audio significa que la informacion de primera porcion de senal es o bien la primera porcion de senal de audio, o que la informacion de primera porcion de senal ha sido obtenida/generada dependiendo de la primera
porcion de senal de audio o que de alguna otra manera depende de la primera porcion de senal de audio. Por ejemplo, la primera porcion de senal de audio puede haber sido transformada de un dominio a otro dominio para obtener la informacion de primera porcion de senal.
5 [0134] De manera similar, una afirmacion de que la informacion de segunda porcion de senal depende de
una segunda porcion de senal de audio significa que la informacion de segunda porcion de senal es o bien la segunda porcion de senal de audio, o que la informacion de segunda porcion de senal ha sido obtenida/generada dependiendo de la segunda porcion de senal de audio o de alguna otra manera depende de la segunda porcion de senal de audio. Por ejemplo, la segunda porcion de senal de audio puede haber sido transformada de un dominio a
10 otro dominio para obtener informacion de segunda porcion de senal.
[0135] En una realizacion, la primera porcion de senal de audio, por ejemplo, puede ser representada en un dominio de tiempo como el primer dominio. Ademas, la unidad de transformada, por ejemplo, puede ser configurada para transformar la segunda porcion de senal de audio o el valor derivado de la segunda porcion de senal de audio,
15 de un dominio de excitacion que es el segundo dominio, al dominio de tiempo que es el dominio de rastreo. Adicionalmente, la unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir la informacion de primera porcion de senal que es representada en el dominio de tiempo como el dominio de rastreo. Aun mas, la unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir la segunda porcion de senal que es representada en el dominio de tiempo como el dominio de rastreo.
20
[0136] Segun una realizacion, la primera porcion de senal de audio, por ejemplo, puede ser representada en un dominio de excitacion como el primer dominio. Aun mas, la unidad de transformada, por ejemplo, puede ser configurada para transformar la segunda porcion de senal de audio o el valor derivado de la segunda porcion de senal de audio, de un dominio de tiempo que es el segundo dominio, al dominio de excitacion que es el dominio de
25 rastreo. Adicionalmente, la unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir la informacion de primera porcion de senal que es representada en el dominio de excitacion como el dominio de rastreo. Aun mas, la unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir la segunda porcion de senal que es representada en el dominio de excitacion como el dominio de rastreo.
30 [0137] En una realizacion, la primera porcion de senal de audio, por ejemplo, puede ser representada en un
dominio de excitacion como el primer dominio, en la que la unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir la informacion de primera porcion de senal, en la que dicha informacion de primera porcion de senal es representada en el dominio FFT, que es el dominio de rastreo, y en la que dicha informacion de primera porcion de senal depende de que dicha primera porcion de senal de audio este representada en el dominio
35 de excitacion, en la que la unidad de transformada, por ejemplo, puede ser configurada para transformar la segunda porcion de senal de audio o el valor derivado de la segunda porcion de senal de audio, de un dominio de tiempo que es el segundo dominio, a un dominio FFT que es el dominio de rastreo, y en la que la unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir la segunda porcion de senal de audio que es representada en el dominio FFT.
40
[0138] En una realizacion, el aparato, por ejemplo, puede comprender adicionalmente una primera unidad de agregacion para determinar un primer valor agregado dependiendo de la primera porcion de senal de audio. Aun mas, el aparato, por ejemplo, puede comprender adicionalmente una segunda unidad de agregacion para determinar, dependiendo de la segunda porcion de senal de audio, un segundo valor agregado como el valor
45 derivado de la segunda porcion de senal de audio. Adicionalmente, la unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir el primer valor agregado como la informacion de primera porcion de senal que es representada en el dominio de rastreo, en la que la unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir el segundo valor agregado como la informacion de segunda porcion de senal que es representada en el dominio de rastreo, y en la que la unidad de rastreo de nivel de ruido, por ejemplo, puede
50 estar configurada para determinar informacion de nivel de ruido dependiendo del primer valor agregado que es representado en el dominio de rastreo y dependiendo del segundo valor agregado que es representado en el dominio de rastreo.
[0139] Segun una realizacion, la primera unidad de agregacion por ejemplo, puede estar configurada para
55 determinar el primer valor agregado de manera que el primer valor agregado indique una media cuadratica de la
primera porcion de senal de audio o de una senal derivada de la primera porcion de senal de audio. Aun mas, la segunda unidad de agregacion, por ejemplo, puede estar configurada para determinar el segundo valor agregado de manera que el segundo valor agregado indique una media cuadratica de la segunda porcion de senal de audio o de una senal derivada de la segunda porcion de senal de audio.
[0140] En una realization, la unidad de transformada, por ejemplo, puede ser configurada para transformar el valor derivado de la segunda portion de senal de audio del segundo dominio al dominio de rastreo, mediante la aplicacion de un valor de ganancia sobre el valor derivado de la segunda portion de senal de audio.
5
[0141] Segun realizaciones, el valor de ganancia, por ejemplo, puede indicar una ganancia introducida por la slntesis de codification predictiva lineal, o el valor de ganancia, por ejemplo, puede indicar una ganancia introducida por la slntesis de codification predictiva lineal y el desenfasis.
10 [0142] En una realization, la unidad de rastreo de nivel de ruido, por ejemplo, puede estar configurada para
determinar information de nivel de ruido mediante la aplicacion de un enfoque de estadlstica minima.
[0143] Segun una realization, la unidad de rastreo de nivel de ruido, por ejemplo, puede estar configurada para determinar un nivel de ruido de confort como la information de nivel de ruido. La unidad de reconstruction, por
15 ejemplo, puede ser configurada para reconstruir la tercera portion de senal de audio dependiendo de la information de nivel de ruido, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora pero esta alterada.
[0144] En una realization, la unidad de rastreo de nivel de ruido, por ejemplo, puede estar configurada para 20 determinar un nivel de ruido de confort como la information de nivel de ruido derivada de un espectro de nivel de
ruido, en la que dicho espectro de nivel de ruido se obtiene mediante la aplicacion del enfoque de estadlstica minima. La unidad de reconstruction, por ejemplo, puede ser configurada para reconstruir la tercera portion de senal de audio dependiendo de una pluralidad de coeficientes predictivos lineales, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz 25 receptora pero esta alterada.
[0145] Segun otra realization, la unidad de rastreo de nivel de ruido, por ejemplo, puede estar configurada para determinar una pluralidad de coeficientes predictivos lineales que indican un nivel de ruido de confort como la information de nivel de ruido, y la unidad de reconstruction, por ejemplo, puede ser configurada para reconstruir la
30 tercera portion de senal de audio dependiendo de la pluralidad de coeficientes predictivos lineales.
[0146] En una realization, la unidad de rastreo de nivel de ruido esta configurada para determinar una pluralidad de coeficientes de FFT que indican un nivel de ruido de confort como la information de nivel de ruido, y la primera unidad de reconstruction esta configurada para reconstruir la tercera portion de senal de audio
35 dependiendo de un nivel de ruido de confort derivado a partir de dichos coeficientes de FFT, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora pero esta alterada.
[0147] En una realization, la unidad de reconstruction, por ejemplo, puede ser configurada para reconstruir la 40 tercera portion de senal de audio dependiendo de la information de nivel de ruido y dependiendo de la primera
portion de senal de audio, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora pero esta alterada.
[0148] Segun una realization, la unidad de reconstruction, por ejemplo, puede ser configurada para
45 reconstruir la tercera portion de senal de audio mediante la atenuacion o la amplification de una senal derivada de
la primera o la segunda portion de senal de audio.
[0149] En una realization, el aparato, por ejemplo, puede comprender adicionalmente una unidad de
prediction de largo plazo que comprende un bufer de retardo. Aun mas, la unidad de prediction de largo plazo, por
50 ejemplo, puede ser configurada para generar una senal procesada dependiendo de la primera o la segunda portion de senal de audio, dependiendo de una entrada de bufer de retardo que esta almacenada en el bufer de retardo y dependiendo de una ganancia de prediction de largo plazo. Adicionalmente, la unidad de prediction de largo plazo, por ejemplo, puede ser configurada para desvanecer la ganancia de prediction de largo plazo hacia cero, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida 55 por la interfaz receptora pero esta alterada.
[0150] Segun una realization, la unidad de prediction de largo plazo, por ejemplo, puede ser configurada para desvanecer la ganancia de prediccion de largo plazo hacia cero, en la que una velocidad con la cual la ganancia de prediction de largo plazo es desvanecida a cero depende de un factor de desvanecimiento.
[0151] En una realization, la unidad de prediction de largo plazo, por ejemplo, puede ser configurada para actualizar la entrada del bufer de retardo mediante el almacenamiento de la senal procesada generada en el bufer de retardo, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera
5 trama es recibida por la interfaz receptora pero esta alterada.
[0152] Segun una realization, la unidad de transformada, por ejemplo, puede ser una primera unidad de transformada, y la unidad de reconstruction es una primera unidad de reconstruction. El aparato adicionalmente comprende una segunda unidad de transformada y una segunda unidad de reconstruction. La segunda unidad de transformada, por ejemplo, puede ser configurada para transformar la information de nivel de ruido del dominio de
10 rastreo al segundo dominio, si una cuarta trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha cuarta trama es recibida por la interfaz receptora pero esta alterada. Aun mas, la segunda unidad de reconstruction, por ejemplo, puede ser configurada para reconstruir una cuarta portion de senal de audio de la senal de audio dependiendo de la information de nivel de ruido que es representada en el segundo dominio, si dicha cuarta trama de la pluralidad de tramas no es recibida por la interfaz receptora, o si dicha cuarta trama es recibida 15 por la interfaz receptora pero esta alterada.
[0153] En una realization, la segunda unidad de reconstruction, por ejemplo, puede ser configurada para reconstruir la cuarta portion de senal de audio dependiendo de la information de nivel de ruido y dependiendo de la segunda portion de senal de audio.
20
[0154] Segun una realization, la segunda unidad de reconstruction, por ejemplo, puede ser configurada para reconstruir la cuarta portion de senal de audio mediante la atenuacion o la amplification de una senal derivada de la primera o la segunda portion de senal de audio.
25 [0155] Aun mas, se provee un metodo para la decodificacion de una senal de audio.
[0156] El metodo comprende:
- Recibir una primera trama de una pluralidad de tramas, comprendiendo dicha primera trama una primera 30 portion de senal de audio de la senal de audio, estando dicha primera portion de senal de audio representada
en un primer dominio.
- Recibir una segunda trama de la pluralidad de tramas, comprendiendo dicha segunda trama una segunda porcion de senal de audio de la senal de audio.
35
- Transformar la segunda portion de senal de audio o un valor o una senal derivada de la segunda portion de senal de audio de un segundo dominio a un dominio de rastreo para obtener una information de segunda portion de senal, en el que el segundo dominio es diferente del primer dominio, en el que el dominio de rastreo es diferente del segundo dominio, y en el que el dominio de rastreo es igual o diferente del primer dominio.
40
- Determinar la information de nivel de ruido dependiendo de la information de primera portion de senal, que es representada en el dominio de rastreo, y dependiendo de la information de segunda portion de senal que es representada en el dominio de rastreo, en el que la information de primera portion de senal depende de la primera portion de senal de audio. Y:
45
- Reconstruir una tercera portion de senal de audio de la senal de audio dependiendo de la information de nivel de ruido que es representada en el dominio de rastreo, si una tercera trama de la pluralidad de tramas no es recibida, o si dicha tercera trama es recibida pero esta alterada.
50 [0157] Adicionalmente, se provee un programa informatico para la implementation del metodo anteriormente
descrito cuando se ejecuta en un ordenador o procesador de senales.
[0158] Ejemplos proporcionan un parametro de suavizado de variation de tiempo, de manera que las capacidades de rastreo del periodograma suavizado y su variancia sean mejor equilibrados, para desarrollar un
55 algoritmo para la compensacion de inclinacion, y para acelerar el rastreo de ruido, en general.
[0159] Con respecto al desvanecimiento, son de interes los siguientes parametros: el dominio de desvanecimiento; la velocidad de desvanecimiento, o, mas en general, la curva de desvanecimiento; el nivel objetivo del desvanecimiento; la forma espectral objetivo del desvanecimiento; y/o el rastreo del nivel de ruido de fondo. En
este contexto, el estado de la tecnica tiene significativas desventajas.
[0160] Se provee un aparato y un metodo para la mejora del desvanecimiento de la senal para sistemas de codificacion de audio cambiados durante el ocultamiento de errores.
5
[0161] Aun mas, se provee un programa informatico para la implementation del metodo anteriormente descrito cuando se ejecuta en un ordenador o procesador de senales.
[0162] Las realizaciones representan un desvanecimiento al nivel de ruido de confort. Segun las 10 realizaciones, se representa un rastreo de nivel de ruido de confort comun en el dominio de excitation. El nivel de
ruido de confort que es dirigido durante la perdida de paquetes de rafaga sera el mismo, independientemente del codificador nucleo (ACELP/TCX) en uso, y siempre estara actualizado. No existe estado de la tecnica conocido, donde sea necesario un rastreo de nivel de ruido comun. Las realizaciones proveen el desvanecimiento de un codec cambiado a una senal de tipo ruido de confort durante las perdidas de paquetes de rafagas.
15
[0163] Aun mas, las realizaciones representan que la complejidad general sera menor en comparacion con dos modulos de rastreo de nivel de ruido independientes, ya que pueden compartirse las funciones (PROM) y la memoria.
20 [0164] En las realizaciones, la derivation de nivel en el dominio de excitacion (en comparacion con la
derivation de nivel en el dominio de tiempo) proporciona mas mlnimos durante la voz activa, ya que parte de la informacion de la voz es cubierta por los coeficientes de LP.
[0165] En el caso de ACELP, segun las realizaciones, la derivacion de nivel tiene lugar en el dominio de 25 excitacion. En el caso de TCX, en las realizaciones, el nivel es derivado en el dominio de tiempo, y la ganancia de la
slntesis de LPC y el desenfasis se aplica como un factor de correction con el fin de modelar el nivel de energla en el dominio de excitacion. El rastreo del nivel en el dominio de excitacion, por ejemplo, antes de FDNS, teoricamente tambien serla posible, si bien la compensation de nivel entre el dominio de excitacion de TCX y el dominio de excitacion de ACELP se considera bastante compleja.
30
[0166] Ningun estado de la tecnica incorpora dicho rastreo de nivel de fondo comun en diferentes dominios. Las tecnicas del estado de la tecnica no tienen dicho rastreo de nivel de ruido de confort comun, por ejemplo, en el dominio de excitacion, en un sistema de codec cambiado. Por lo tanto, las realizaciones son convenientes sobre la tecnica anterior, ya que, en cuanto a las tecnicas del estado de la tecnica, el nivel de ruido de confort que es dirigido
35 durante las perdidas de paquetes de rafagas puede ser diferente, dependiendo del modo de codificacion precedente (ACELP/TCX), donde el nivel fue rastreado; ya que en el estado de la tecnica, el rastreo que es separado para cada modo de codificacion causara complejidad computacional adicional e innecesario en exceso; y ya que, en el estado de la tecnica, podrla no haber disponible ningun nivel de ruido de confort actualizado en ninguno de los nucleos, debido a cambio reciente a este nucleo.
40
[0167] Segun algunas realizaciones, el rastreo de nivel es conducido en el dominio de excitacion, si bien el desvanecimiento de TCX se realiza en el dominio de tiempo. Mediante el desvanecimiento en el dominio de tiempo, se evitan fallos de la TDAC, que causarlan la superposition periodica sucesiva. Esto llega a ser de particular interes cuando se ocultan componentes de senal tonal. Aun mas, la conversion de nivel entre el dominio de excitacion de
45 ACELP y el dominio espectral de la MDCT se evita, y en consecuencia, por ejemplo, se ahorran recursos de calculo. Debido al cambio entre el dominio de excitacion y el dominio de tiempo, se requiere un ajuste de nivel entre el dominio de excitacion y el dominio de tiempo. Esto es resuelto por la derivacion de la ganancia que serla introducida por la slntesis de LPC y el preenfasis y el uso de esta ganancia como un factor de correccion para la conversion del nivel entre los dos dominios.
50
[0168] Por el contrario, las tecnicas del estado de la tecnica no conducen el rastreo de nivel en el dominio de excitacion y el desvanecimiento de TCX en el dominio de tiempo. Con respecto a los codecs basados en la transformada del estado de la tecnica, se aplica el factor de atenuacion o bien en el dominio de excitacion (para enfoques de ocultamiento de tipo dominio de tiempo/ACELP), vease [3GP09a]) o en el dominio de frecuencia (para
55 enfoques de dominio de frecuencia como la repetition de trama o la sustitucion de ruido, vease [LS01]). Una desventaja del enfoque del estado de la tecnica para la aplicacion del factor de atenuacion en el dominio de frecuencia es que la superposicion periodica sucesiva sera causado en la region de superposicion y adicion en el dominio de tiempo. Este sera el caso para tramas adyacentes a las cuales se aplican diferentes factores de atenuacion, debido a que el procedimiento de desvanecimiento causa el fallo de la TDAC (cancelation de la
superposicion periodica sucesiva del dominio de tiempo). Esto es en particular relevante cuando se ocultan los componentes de senal tonal. Las realizaciones anteriormente mencionadas, en consecuencia, son convenientes en comparacion con el estado de la tecnica.
5 [0169] Las realizaciones compensan la influencia del filtro paso alto sobre la ganancia de la slntesis de LPC.
Segun realizaciones, para compensar el cambio de ganancia no deseado del analisis de LPC y el enfasis causado por la excitacion sin voz filtrada por paso alto, se deriva un factor de correccion. Este factor de correccion considera este cambio de ganancia no deseado y modifica el nivel de ruido de confort objetivo en el dominio de excitacion, de manera que se alcance el nivel objetivo correcto en el dominio de tiempo.
10
[0170] Por el contrario, el estado de la tecnica, por ejemplo, G.718 [ITU08a], introduce un filtro paso alto en la via de la senal de la excitacion sin voz, como se representa en la Fig. 2, si la senal de la ultima buena trama no fue clasificada como SIN VOZ. Al realizar esto, las tecnicas del estado de la tecnica causan efectos secundarios no deseados, ya que la ganancia de la posterior slntesis de LPC depende de las caracterlsticas de la senal, que son
15 alteradas por este filtro paso alto. Debido a que el nivel de fondo es rastreado y aplicado en el dominio de excitacion, el algoritmo se basa en la ganancia de la slntesis de LPC, que, a su vez, depende nuevamente de las caracterlsticas de la senal de excitacion. En otras palabras: la modificacion de las caracterlsticas de la senal de la excitacion debido a la filtracion paso alto, como es conducida por el estado de la tecnica, podrla conducir a una ganancia modificada (habitualmente reducida) de la slntesis de LPC. Esto conduce a un nivel de salida erroneo, aun cuando el nivel de 20 excitacion sea correcto.
[0171] Las realizaciones superan estas desventajas del estado de la tecnica.
[0172] En particular, las realizaciones representan una forma espectral adaptativa de ruido de confort. A 25 diferencia de G.718, al rastrear la forma espectral del ruido de fondo, y mediante la aplicacion (desvanecimiento) de
esta forma durante las perdidas de paquetes de rafagas, la caracterlstica de ruido del ruido de fondo precedente coincidira, conduciendo a una caracterlstica de ruido agradable del ruido de confort. Esto evita no coincidencias demasiado visibles de la forma espectral que pueden ser introducidas mediante el uso de una envoltura espectral derivada en tren fuera de llnea y/o la forma espectral de las ultimas tramas recibidas.
30
[0173] Aun mas, se provee un aparato para la decodificacion de una senal de audio. El aparato comprende una interfaz receptora, en el que la interfaz receptora esta configurada para recibir una primera trama que comprende una primera porcion de senal de audio de la senal de audio, y en el que la interfaz receptora esta configurada para recibir una segunda trama que comprende una segunda porcion de senal de audio de la senal de
35 audio.
[0174] Aun mas, el aparato comprende una unidad de rastreo de nivel de ruido, en el que la unidad de rastreo de nivel de ruido esta configurada para determinar la informacion de nivel de ruido dependiendo de por lo menos una de la primera porcion de senal de audio y la segunda porcion de senal de audio (esto significa: dependiendo de la
40 primera porcion de senal de audio y/o la segunda porcion de senal de audio), en el que la informacion de nivel de ruido es representada en un dominio de rastreo.
[0175] Adicionalmente, el aparato comprende una primera unidad de reconstruccion para la reconstruccion de, en un primer dominio de reconstruccion, una tercera porcion de senal de audio de la senal de audio dependiendo
45 de la informacion de nivel de ruido, si una tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora pero esta alterada, en el que el primer dominio de reconstruccion es diferente o igual del dominio de rastreo.
[0176] Aun mas, el aparato comprende una unidad de transformada para la transformacion de la informacion 50 de nivel de ruido, del dominio de rastreo a un segundo dominio de reconstruccion, si una cuarta trama de la
pluralidad de tramas no es recibida por la interfaz receptora o si dicha cuarta trama es recibida por la interfaz receptora pero esta alterada, en el que el segundo dominio de reconstruccion es diferente del dominio de rastreo, y en el que el segundo dominio de reconstruccion es diferente del primer dominio de reconstruccion; y
55 [0177] Adicionalmente, el aparato comprende una segunda unidad de reconstruccion para la reconstruccion
de, en el segundo dominio de reconstruccion, una cuarta porcion de senal de audio de la senal de audio dependiendo de la informacion de nivel de ruido que es representada en el segundo dominio de reconstruccion, si dicha cuarta trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha cuarta trama es recibida por la interfaz receptora pero esta alterada.
[0178] Segun algunas realizaciones, el dominio de rastreo, por ejemplo, puede ser aquel en el que el dominio de rastreo es un dominio de tiempo, un dominio espectral, un dominio FFT, un dominio de MDCT, o un dominio de excitacion. El primer dominio de reconstruccion, por ejemplo, puede ser el dominio de tiempo, el dominio espectral,
5 el dominio FFT, el dominio de la MDCT, o el dominio de excitacion. El segundo dominio de reconstruccion, por ejemplo, puede ser el dominio de tiempo, el dominio espectral, el dominio FFT, el dominio de la MDCT, o el dominio de excitacion.
[0179] En una realizacion, el dominio de rastreo, por ejemplo, puede ser el dominio FFT; el primer dominio de 10 reconstruccion, por ejemplo, puede ser el dominio de tiempo; y el segundo dominio de reconstruccion, por ejemplo,
puede ser el dominio de excitacion.
[0180] En otra realizacion, el dominio de rastreo, por ejemplo, puede ser el dominio de tiempo, el primer dominio de reconstruccion, por ejemplo, puede ser el dominio de tiempo, y el segundo dominio de reconstruccion,
15 por ejemplo, puede ser el dominio de excitacion.
[0181] Segun una realizacion, dicha primera porcion de senal de audio, por ejemplo, puede ser representada en un primer dominio de entrada, y dicha segunda porcion de senal de audio, por ejemplo, puede ser representada en un segundo dominio de entrada. La unidad de transformada, por ejemplo, puede ser una segunda unidad de
20 transformada. El aparato, por ejemplo, puede comprender adicionalmente una primera unidad de transformada para la transformacion de la segunda porcion de senal de audio o un valor o una senal derivado de la segunda porcion de senal de audio, del segundo dominio de entrada al dominio de rastreo, para obtener una informacion de segunda porcion de senal. La unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir una informacion de primera porcion de senal que es representada en el dominio de rastreo, en la que la informacion de 25 primera porcion de senal depende de la primera porcion de senal de audio, en la que la unidad de rastreo de nivel de ruido esta configurada para recibir la segunda porcion de senal que es representada en el dominio de rastreo, y en la que la unidad de rastreo de nivel de ruido esta configurada para determinar la informacion de nivel de ruido dependiendo de la informacion de primera porcion de senal que es representada en el dominio de rastreo y dependiendo de la informacion de segunda porcion de senal que es representada en el dominio de rastreo.
30
[0182] Segun una realizacion, el primer dominio de entrada, por ejemplo, puede ser el dominio de excitacion, y el segundo dominio de entrada, por ejemplo, puede ser el dominio de la MDCT.
[0183] En otra realizacion, el primer dominio de entrada, por ejemplo, puede ser el dominio de la MDCT, y 35 donde el segundo dominio de entrada, por ejemplo, puede ser el dominio de la MDCT.
[0184] Segun una realizacion, la primera unidad de reconstruccion, por ejemplo, puede ser configurada para reconstruir la tercera porcion de senal de audio mediante la conduccion de un primer desvanecimiento a un espectro de tipo ruido. La segunda unidad de reconstruccion, por ejemplo, puede ser configurada para reconstruir la cuarta
40 porcion de senal de audio mediante la conduccion de un segundo desvanecimiento a un espectro de tipo ruido y/o un segundo desvanecimiento de una ganancia de LTP. Aun mas, la primera unidad de reconstruccion y la segunda unidad de reconstruccion, por ejemplo, pueden ser configuradas para conducir el primer desvanecimiento y el segundo desvanecimiento a un espectro de tipo ruido y/o un segundo desvanecimiento de una ganancia de LTP con la misma velocidad de desvanecimiento.
45
[0185] En una realizacion, el aparato, por ejemplo, puede comprender adicionalmente una primera unidad de agregacion para determinar un primer valor agregado dependiendo de la primera porcion de senal de audio. Aun mas, el aparato adicionalmente, por ejemplo, puede comprender una segunda unidad de agregacion para determinar, dependiendo de la segunda porcion de senal de audio, un segundo valor agregado como el valor
50 derivado de la segunda porcion de senal de audio. La unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir el primer valor agregado como la informacion de primera porcion de senal que es representada en el dominio de rastreo, en la que la unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir el segundo valor agregado como la informacion de segunda porcion de senal que es representada en el dominio de rastreo, y en la que la unidad de rastreo de nivel de ruido esta configurada para 55 determinar la informacion de nivel de ruido dependiendo del primer valor agregado que es representado en el dominio de rastreo y dependiendo del segundo valor agregado que es representado en el dominio de rastreo.
[0186] Segun una realizacion, la primera unidad de agregacion, por ejemplo, puede estar configurada para determinar el primer valor agregado de manera que el primer valor agregado indique una media cuadratica de la
primera porcion de senal de audio o de una senal derivada de la primera porcion de senal de audio. La segunda unidad de agregacion esta configurada para determinar el segundo valor agregado de manera que el segundo valor agregado indique una media cuadratica de la segunda porcion de senal de audio o de una senal derivada de la segunda porcion de senal de audio.
5
[0187] En una realizacion, la primera unidad de transformada, por ejemplo, puede ser configurada para transformar el valor derivado de la segunda porcion de senal de audio, del segundo dominio de entrada al dominio de rastreo mediante la aplicacion de un valor de ganancia sobre el valor derivado de la segunda porcion de senal de audio.
10
[0188] Segun una realizacion, el valor de ganancia, por ejemplo, puede indicar una ganancia introducida por la slntesis de codificacion predictiva lineal, o donde el valor de ganancia indica una ganancia introducida por la slntesis de codificacion predictiva lineal y el desenfasis.
15 [0189] En una realizacion, la unidad de rastreo de nivel de ruido, por ejemplo, puede estar configurado para
determinar la informacion de nivel de ruido mediante la aplicacion de un enfoque de estadlstica minima.
[0190] Segun una realizacion, la unidad de rastreo de nivel de ruido, por ejemplo, puede estar configurada para determinar un nivel de ruido de confort como la informacion de nivel de ruido. La unidad de reconstruccion, por
20 ejemplo, puede ser configurada para reconstruir la tercera porcion de senal de audio dependiendo de la informacion de nivel de ruido, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora pero esta alterada.
[0191] En una realizacion, la unidad de rastreo de nivel de ruido, por ejemplo, puede estar configurada para 25 determinar un nivel de ruido de confort como la informacion de nivel de ruido derivada de un espectro de nivel de
ruido, en la que dicho espectro de nivel de ruido se obtiene mediante la aplicacion del enfoque de estadlstica minima. La unidad de reconstruccion, por ejemplo, puede ser configurada para reconstruir la tercera porcion de senal de audio dependiendo de una pluralidad de coeficientes predictivos lineales, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora, o si dicha tercera trama es recibida por la interfaz 30 receptora pero esta alterada.
[0192] Segun una realizacion, la primera unidad de reconstruccion, por ejemplo, puede ser configurada para reconstruir la tercera porcion de senal de audio dependiendo de la informacion de nivel de ruido y dependiendo de la primera porcion de senal de audio, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz
35 receptora o si dicha tercera trama es recibida por la interfaz receptora pero esta alterada.
[0193] En una realizacion, la primera unidad de reconstruccion, por ejemplo, puede ser configurada para reconstruir la tercera porcion de senal de audio mediante la atenuacion o amplificacion de la primera porcion de senal de audio.
40
[0194] Segun una realizacion, la segunda unidad de reconstruccion, por ejemplo, puede ser configurada para reconstruir la cuarta porcion de senal de audio dependiendo de la informacion de nivel de ruido y dependiendo de la segunda porcion de senal de audio.
45 [0195] En una realizacion, la segunda unidad de reconstruccion, por ejemplo, puede ser configurada para
reconstruir la cuarta porcion de senal de audio mediante la atenuacion o amplificacion de la segunda porcion de senal de audio.
[0196] Segun una realizacion, el aparato, por ejemplo, puede comprender adicionalmente una unidad de 50 prediccion de largo plazo que comprende un bufer de retardo, en el que la unidad de prediccion de largo plazo, por
ejemplo, puede ser configurada para generar una senal procesada dependiendo de la primera o la segunda porcion de senal de audio, dependiendo de una entrada de bufer de retardo que esta almacenada en el bufer de retardo y dependiendo de una ganancia de prediccion de largo plazo, y en el que la unidad de prediccion de largo plazo esta configurada para desvanecer la ganancia de prediccion de largo plazo hacia cero, si dicha tercera trama de la 55 pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora pero esta alterada.
[0197] En una realizacion, la unidad de prediccion de largo plazo, por ejemplo, puede ser configurada para desvanecer la ganancia de prediccion de largo plazo hacia cero, en la que una velocidad con la que la ganancia de
prediction de largo plazo es desvanecida a cero depende de un factor de desvanecimiento.
[0198] En una realization, la unidad de prediccion de largo plazo, por ejemplo, puede ser configurada para actualizar la entrada del bufer de retardo mediante el almacenamiento de la senal procesada generada en el bufer
5 de retardo, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha tercera trama es recibida por la interfaz receptora pero esta alterada.
[0199] Aun mas, se provee un metodo para la decodificacion de una senal de audio. El metodo comprende:
10 - Recibir una primera trama que comprende una primera portion de senal de audio de la senal de audio, y la reception de una segunda trama que comprende una segunda porcion de senal de audio de la senal de audio.
- Determinar information de nivel de ruido dependiendo de por lo menos una de la primera porcion de senal de audio y la segunda porcion de senal de audio, en el que la informacion de nivel de ruido es representada en un
15 dominio de rastreo.
- Reconstruir, en un primer dominio de reconstruccion, una tercera porcion de senal de audio de la senal de audio dependiendo de la informacion de nivel de ruido, si una tercera trama de la pluralidad de tramas no es recibida o si dicha tercera trama es recibida pero esta alterada, donde el primer dominio de reconstruction es
20 diferente o igual del dominio de rastreo.
- Transformar la informacion de nivel de ruido, del dominio de rastreo a un segundo dominio de reconstruccion, si una cuarta trama de la pluralidad de tramas no es recibida o si dicha cuarta trama es recibida pero esta alterada, en el que el segundo dominio de reconstruccion es diferente del dominio de rastreo, y en el que el
25 segundo dominio de reconstruccion es diferente del primer dominio de reconstruccion. Y:
- Reconstruir, en el segundo dominio de reconstruccion, una cuarta porcion de senal de audio de la senal de audio dependiendo de la informacion de nivel de ruido que es representada en el segundo dominio de reconstruccion, si dicha cuarta trama de la pluralidad de tramas no es recibida o si dicha cuarta trama es
30 recibida pero esta alterada.
[0200] Aun mas, se provee un programa informatico para la implementation del metodo anteriormente descrito, cuando se ejecuta en un ordenador o procesador de senales.
35 [0201] Aun mas, se provee un aparato para la decodificacion de una senal de audio codificada para obtener
una senal de audio reconstruida. El aparato comprende una interfaz receptora para la recepcion de una o mas tramas, un generador de coeficientes y un reconstructor de senal. El generador de coeficientes esta configurado para determinar, si una trama actual de las una o mas tramas es recibida por la interfaz receptora y si la trama actual recibida por la interfaz receptora no esta alterada, uno o mas primeros coeficientes de senal de audio, estando 40 comprendidos por la trama actual, en el que dichos uno o mas primeros coeficientes de senal de audio indican una caracterlstica de la senal de audio codificada, y uno o mas coeficientes de ruido que indican un ruido de fondo de la senal de audio codificada. Aun mas, el generador de coeficientes esta configurado para generar uno o mas segundos coeficientes de senal de audio, dependiendo de los uno o mas primeros coeficientes de senal de audio y dependiendo de los uno o mas coeficientes de ruido, si la trama actual no es recibida por la interfaz receptora o si la 45 trama actual recibida por la interfaz receptora esta alterada. El reconstructor de senal de audio esta configurado para reconstruir una primera porcion de la senal de audio reconstruida dependiendo del uno o mas primeros coeficientes de senal de audio, si la trama actual es recibida por la interfaz receptora y si la trama actual recibida por la interfaz receptora no esta alterada. Aun mas el reconstructor de senal de audio esta configurado para reconstruir una segunda porcion de la senal de audio reconstruida dependiendo del uno o mas segundos coeficientes de senal de 50 audio, si la trama actual no es recibida por la interfaz receptora, o si la trama actual recibida por la interfaz receptora esta alterada.
[0202] En algunas realizaciones, uno o mas primeros coeficientes de senal de audio, por ejemplo, pueden ser uno o mas coeficientes de filtro predictivo lineal de la senal de audio codificada. En algunas realizaciones, el uno o
55 mas primeros coeficientes de senal de audio, por ejemplo, pueden ser uno o mas coeficientes de filtro predictivo lineal de la senal de audio codificada.
[0203] Dependiendo de una realizacion, el uno o mas coeficientes de ruido, por ejemplo, pueden ser uno o mas coeficientes de filtro predictivo lineal que indican el ruido de fondo de la senal de audio codificada. En una
realizacion, el uno o mas coeficientes de filtro predictivo lineal, por ejemplo, pueden representar una forma espectral del ruido de fondo.
[0204] En una realizacion, el generador de coeficientes, por ejemplo, puede ser configurado para determinar
5 la una o mas segundas porciones de senal de audio de manera tal que una o mas segundas porciones de senal de audio sean uno o mas coeficientes de filtro predictivo lineal de la senal de audio reconstruida, o de manera que uno o mas primeros coeficientes de senal de audio sean uno o mas pares espectrales de impedancia y admitancia de la senal de audio reconstruida.
10 [0205] Segun una realizacion, el generador de coeficientes, por ejemplo, puede ser configurado para generar
uno o mas segundos coeficientes de senal de audio mediante la aplicacion de la formula:
factual [i] _ a ' fultimo [i] + (1 — a) ' ptmedia [i]
15 donde factual [/] indica uno de uno mas segundos coeficientes de senal de audio, donde fuitimo [/] indica uno del uno o mas primeros coeficientes de senal de audio, donde ptmedia [/] es uno de uno o mas coeficientes de ruido, en la que a es un numero real con 0 < a < 1, y en la que i es un Indice. En una realizacion, 0 < a < 1.
[0206] Dependiendo de una realizacion, fuitimo [i] indica un coeficiente de filtro predictivo lineal de la senal de 20 audio codificada, y en la que factual[/] indica un coeficiente de filtro predictivo lineal de la senal de audio reconstruida.
[0207] En una realizacion, ptmedia [/], por ejemplo, puede indicar el ruido de fondo de la senal de audio codificada.
25 [0208] En una realizacion, el generador de coeficientes, por ejemplo, puede ser configurado para determinar,
si la trama actual de una o mas tramas es recibida por la interfaz receptora y si la trama actual recibida por la interfaz receptora no esta alterada, el uno o mas coeficientes de ruido mediante la determinacion de un espectro de ruido de la senal de audio codificada.
30 [0209] Dependiendo de una realizacion, el generador de coeficientes, por ejemplo, puede estar configurado
para determinar coeficientes de LPC que representan ruido de fondo usando un enfoque de estadlstica minima sobre el espectro de senal para determinar un espectro de ruido de fondo y mediante el calculo de los coeficientes LPC que representan la forma de ruido de fondo a partir del espectro de ruido de fondo.
35 [0210] Aun mas, se provee un metodo para la decodificacion de una senal de audio codificada para obtener
una senal de audio reconstruida. El metodo comprende:
- Recibir una o mas tramas.
40 - Determinar, si una trama actual de una o mas tramas es recibida y si la trama actual recibida no esta alterada, de uno o mas primeros coeficientes de senal de audio, estando comprendidos por la trama actual, en el que dichos uno o mas primeros coeficientes de senal de audio indican una caracterlstica de la senal de audio codificada, e indicando uno o mas coeficientes de ruido un ruido de fondo de la senal de audio codificada.
45 - Generar uno o mas segundos coeficientes de senal de audio, dependiendo del uno o mas primeros coeficientes
de senal de audio y dependiendo del uno o mas coeficientes de ruido, si la trama actual no es recibida o si la
trama actual recibida esta alterada.
- Reconstruir una primera porcion de la senal de audio reconstruida dependiendo del uno o mas primeros
50 coeficientes de senal de audio, si la trama actual es recibida y si la trama actual recibida no esta alterada. Y:
- Reconstruir una segunda porcion de la senal de audio reconstruida dependiendo del uno o mas segundos
coeficientes de senal de audio, si la trama actual no es recibida o si la trama actual recibida esta alterada.
55 [0211] Aun mas, se provee un programa informatico para la implementation del metodo anteriormente
descrito cuando se ejecuta en un ordenador o procesador de senales.
[0212] El tener medios comunes para rastrear y aplicar la forma espectral del ruido de confort durante el
desvanecimiento posee varias ventajas. El rastreo y la aplicacion de la forma espectral de modo que puedan
realizarse de manera similar para ambos codecs nucleo permiten un simple enfoque comun. CELT ensena solo el rastreo de energlas a modo de banda, en el dominio espectral, y la formacion a modo de banda, de la forma espectral en el dominio espectral, que no es posible para el nucleo CELP.
5 [0213] Por el contrario, en el estado de la tecnica, la forma espectral del ruido de confort introducido durante
las perdidas de rafagas es o bien completamente estatica, o en parte estatica y en parte adaptativa a la media de corto plazo de la forma espectral (como se representa en G.718 [ITU08a]), y habitualmente no coincidira con el ruido de fondo en la senal antes de la perdida de paquete. Estas caracterlsticas de no coincidencia del ruido de confort podrlan ser molestas. Dependiendo del estado de la tecnica, puede emplearse una forma de ruido de fondo en tren
10 fuera de llnea (estatica) que pueda ser placentera en terminos de sonido para senales particulares, si bien menos placentera para otras, por ejemplo, sonidos de ruido de coches totalmente diferentes al ruido de oficina.
[0214] Ademas, en el estado de la tecnica, puede emplearse una adaptacion a la media de corto plazo de la forma espectral de las tramas previamente recibidas, que podrla llevar las caracterlsticas de la senal mas cerca de la
15 senal recibida antes, si bien no necesariamente de las caracterlsticas del ruido de fondo. En el estado de la tecnica, el rastreo de la forma espectral a modo de banda en el dominio espectral (como se representa en CELT [IET12]) no es aplicable para un codec cambiado usando no solo un nucleo basado en el dominio de la MDCT (TCX), sino, ademas, un nucleo basado en ACELP. Las realizaciones anteriormente mencionadas, en consecuencia, son convenientes en comparacion con el estado de la tecnica.
20
[0215] Aun mas, se provee un aparato para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida. El aparato comprende una interfaz receptora para recibir una o mas tramas que comprenden informacion sobre una pluralidad de muestras de senal de audio de un espectro de senal de audio de la senal de audio codificada, y un procesador para generar la senal de audio reconstruida. El procesador esta
25 configurado para generar la senal de audio reconstruida desvaneciendo un espectro modificado a un espectro objetivo, si una trama actual no es recibida por la interfaz receptora o si la trama actual es recibida por la interfaz receptora pero esta alterada, en el que el espectro modificado comprende una pluralidad de muestras de senales modificadas, en el que, para cada una de las muestras de senales modificadas del espectro modificado, un valor absoluto de dicha muestra de senal modificada es igual a un valor absoluto de una de las muestras de senal de
30 audio del espectro de senales de audio. Aun mas, el procesador esta configurado para no realizar el desvanecimiento del espectro modificado al espectro objetivo, si la trama actual de una o mas tramas es recibida por la interfaz receptora y si la trama actual recibida por la interfaz receptora no esta alterada.
35
40
[0216] Segun una realizacion, el espectro objetivo, por ejemplo, puede ser un espectro de tipo ruido.
[0217] En una realizacion, el espectro de tipo ruido, por ejemplo, puede representar ruido blanco.
[0218] Segun una realizacion, el espectro de tipo ruido, por ejemplo, puede ser con forma.
[0219] En una realizacion, la forma del espectro de tipo ruido, por ejemplo, puede depender de un espectro de senal de audio de una senal previamente recibida.
[0220] Segun una realizacion, el espectro de tipo ruido, por ejemplo, puede ser con forma dependiendo de la forma del espectro de senal de audio.
45
[0221] En una realizacion, el procesador, por ejemplo, puede emplear un factor de inclinacion para dar forma al espectro de tipo ruido.
[0222]
50
Segun una realizacion, el procesador, por ejemplo, puede emplear la formula ruido_conforma[i] = ruido * potencia(factor_inclinacion, i/N)
en la que N indica el numero de muestras, en la que i es un Indice, en la que 0<= i < N, con factor_inclinacion > 0, y en la que potencia es una funcion de potencia.
55
potencia (x, y) indica xy
i
potencia(factor_inclinacion, i/N) factor_inclinacionN
[0223] Si el factor_inclinaci6n es mas pequeno de 1, esto significa atenuacion con i creciente. Si el
factorjnclinacion es mayor de 1, significa amplificacion con i creciente.
[0224]
5
Segun otra realizacion, el procesador, por ejemplo, puede emplear la formula ruido_conforma[i] = ruido * (1 + i / (N-1) * (factor_inclinaci6n-1))
en la que N indica el numero de muestras, en la que i es un Indice, en la que 0<= i < N, con factor_inclinacion > 0.
10 [0225] Si el factor_inclinacion es mas pequeno de 1, esto significa atenuacion con i creciente. Si el
factorjnclinacion es mayor de 1, significa amplificacion con i creciente.
[0226] En una realizacion, el procesador, por ejemplo, puede estar configurado para generar el espectro
modificado, mediante el cambio de un signo de una o mas de las muestras de senal de audio del espectro de 15 senales de audio, si la trama actual no es recibida por la interfaz receptora o si la trama actual recibida por la interfaz receptora esta alterada.
[0227] En una realizacion, cada una de las muestras de senal de audio del espectro de senal de audio, por ejemplo, puede estar representado por un numero real, pero no por un numero imaginario.
20
[0228] Segun una realizacion, las muestras de senal de audio del espectro de senal de audio, por ejemplo, pueden estar representadas en un dominio de transformada de coseno discreta modificada.
[0229] En otra realizacion, las muestras de senal de audio del espectro de senal de audio, por ejemplo, 25 pueden estar representadas en un dominio de transformada de seno discreta modificada.
[0230] Segun una realizacion, el procesador, por ejemplo, puede estar configurado para generar el espectro modificado mediante el empleo de una funcion de signos aleatorios que, en forma aleatoria, o pseudoaleatoria, da salida o bien a un primer o un segundo valor.
30
[0231] En una realizacion, el procesador, por ejemplo, puede estar configurado para desvanecer el espectro modificado al espectro objetivo mediante la disminucion posterior de un factor de atenuacion.
[0232] Segun una realizacion, el procesador, por ejemplo, puede estar configurado para desvanecer el 35 espectro modificado al espectro objetivo mediante el incremento posterior de un factor de atenuacion.
[0233] En una realizacion, si la trama actual no es recibida por la interfaz receptora o si la trama actual recibida por la interfaz receptora esta alterada, el procesador, por ejemplo, puede estar configurado para generar la senal de audio reconstruida empleando la formula:
40
x[i] = (1-cum_damping) * ruido [i] + cum_damping * random_sign( ) * old_x [i]
en la que i es un Indice, donde x[i] indica una muestra de la senal de audio reconstruida, en la que cum_damping es un factor de atenuacion, en la que old_x[i] indica una de las muestras de senal de audio del espectro de senales de 45 audio de la senal de audio codificada, en la que random_sign( ) devuelve 1 o -1, y en la que el ruido es un vector aleatorio que indica el espectro objetivo.
[0234] En una realizacion, dicho ruido de vector aleatorio, por ejemplo, puede ser escalado de manera que su
media cuadratica sea similar a la media cuadratica del espectro de la senal de audio codificada que esta 50 comprendida por una de las tramas que se recibio por ultimo lugar por la interfaz receptora.
[0235] Segun una general realizacion, el procesador puede, por ejemplo, estar configurado para generar la senal de audio reconstruida, empleando un vector aleatorio que es escalado de modo que su media cuadratica sea similar a la media cuadratica del espectro de la senal de audio codificada que esta comprendida por una de las
55 tramas que han sido recibidas por ultimo lugar por la interfaz receptora.
[0236] Ademas, se provee un metodo para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida. El metodo comprende:
- Recibir una o mas tramas que comprenden informacion sobre una pluralidad de muestras de senales de audio de un espectro de senal de audio de la senal de audio codificada. Y:
- Generar la senal de audio reconstruida.
5
[0237] La generacion de la senal de audio reconstruida se realiza mediante el desvanecimiento de un espectro modificado a un espectro objetivo, si una trama actual no es recibida o si la trama actual es recibida pero esta alterada, en el que el espectro modificado comprende una pluralidad de muestras de senales modificadas, en el que, para cada una de las muestras de senales modificadas del espectro modificado, un valor absoluto de dicha
10 muestra de senal modificada es igual a un valor absoluto de una de las muestras de senales de audio del espectro de senales de audio. El espectro modificado no se desvanece a un espectro de ruido blanco, si la trama actual de la una o mas tramas es recibida y si la trama actual que es recibida no esta alterada.
[0238] Ademas, se provee un programa informatico para la implementacion del metodo anteriormente 15 descrito cuando se ejecuta en un ordenador o procesador de senales.
[0239] Las realizaciones realizan un espectro de MDCT de desvanecimiento a ruido blanco antes de la aplicacion de FDNS (FDNS = Sustitucion de Ruido de Dominio de Frecuencia).
20 [0240] Segun el estado de la tecnica, en codecs basados en ACELP, el innovador libro de codigo se sustituye
por un vector aleatorio (por ejemplo, con ruido). En realizaciones, el enfoque de ACELP, que consiste en sustituir el innovador libro de codigo con un vector aleatorio (por ejemplo, con ruido) es adoptado para la estructura de decodificador de TCX. Aqul, el equivalente del innovador libro de codigo es el espectro de MDCT normalmente recibido dentro de la corriente de bits y alimentado en el FDNS.
25
[0241] El enfoque de ocultamiento de MDCT clasico serla repetir simplemente este espectro como tal o aplicarlo a un cierto proceso de aleatorizacion, que prolonga basicamente la forma espectral de la ultima trama recibida [LS01]. Esto tiene el inconveniente que la forma espectral de corto plazo se prolonga, conduciendo frecuentemente a un sonido metalico repetitivo que no es de tipo ruido de fondo, y as! no puede usarse como ruido
30 de confort.
[0242] Usando el metodo propuesto, la forma espectral de corto plazo se realiza por la FDNS y la LTP de TCX, la forma espectral en la ejecucion larga se realiza por la FDNS solo. La forma por la FDNS se desvanece a partir de la forma espectral a corto plazo a la forma espectral de largo plazo rastreada del ruido de fondo, y la LTP de
35 TCX se desvanece a cero.
[0243] El desvanecimiento de los coeficientes de FDNS a coeficientes de ruido de fondo rastreados conduce a que tenga una transicion suave entre la ultima buena envoltura espectral y la envoltura de fondo espectral que debe ser el objetivo de la ejecucion larga, con el fin de lograr un ruido de fondo agradable en caso de largas
40 perdidas de trama de rafaga.
[0244] Por el contrario, segun el estado de la tecnica, para codecs basados en la transformada, se realiza ocultamiento de tipo ruido por repeticion de tramas o sustitucion de ruido en el dominio de frecuencias [LS01]. En el estado de la tecnica, la sustitucion de ruido se realiza normalmente por mezcla de signos de los bins espectrales. Si
45 en el estado de la tecnica la mezcla de signos de TCX (dominio de frecuencia) se usa durante el ocultamiento, los ultimos coeficientes de MDCT recibidos se reutilizan y cada signo se aleatoriza antes de que el espectro sea inversamente transformado al dominio de tiempo. El inconveniente de este procedimiento del estado de la tecnica es, que para tramas consecutivamente perdidas, el mismo espectro se usa una y otra vez, solo con aleatorizaciones de signo diferentes y atenuacion global. Cuando se mira a la envoltura espectral con el tiempo en una rejilla de 50 tiempo gruesa, puede observarse que la envoltura es aproximadamente constante durante la perdida de tramas consecutiva, debido a que las energlas de banda se mantienen constantes relativamente entre si dentro de una trama y solo son globalmente atenuadas. En el sistema de codificacion usado, segun el estado de la tecnica, los valores espectrales se procesan usando FDNS, con el fin de restaurar el espectro original. Esto significa que si se quiere desvanecer el espectro de MDCT a una cierta envoltura espectral (usando coeficientes de FDNS, por 55 ejemplo, que describen el ruido de fondo actual), el resultado no solo es dependiente de los coeficientes de FDNs, sino tambien dependiente del espectro previamente decodificado que era de mezcla de signos. Las realizaciones anteriormente mencionadas superan las desventajas del estado de la tecnica.
[0245] Las realizaciones se basan en el hallazgo de que es necesario desvanecer el espectro usado para la
mezcla de signos a ruido blanco, antes de alimentarlo en el procesamiento de FDNS. De otro modo, el espectro de salida nunca coincidira con la envoltura objetivo usada para el procedimiento de FDNS.
[0246] En realizaciones, se usa la misma velocidad de desvanecimiento para el desvanecimiento de ganancia 5 de LTP que para el desvanecimiento de ruido blanco.
[0247] Aun mas, se provee un aparato para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida. El aparato comprende una interfaz receptora para la recepcion de una pluralidad de tramas, un bufer de retardo para el almacenamiento de muestras de senal de audio de la senal de audio codificada, un selector de muestras para la selection de una pluralidad de muestras de senal de audio seleccionadas de las
10 muestras de senal de audio almacenadas en el bufer de retardo, y un procesador de muestras para el procesamiento de las muestras de senal de audio seleccionadas para obtener muestras de la senal de audio reconstruida de la senal de audio reconstruida. El selector de muestras esta configurado para seleccionar, si una trama actual es recibida por la interfaz receptora y si la trama actual recibida por la interfaz receptora no esta alterada, la pluralidad de muestras de senal de audio seleccionadas de las muestras de senal de audio almacenadas 15 en el bufer de retardo dependiendo de una information de retraso de altura que esta comprendida por la trama actual. Aun mas, el selector de muestras esta configurado para seleccionar, si la trama actual no es recibida por la interfaz receptora o si la trama actual recibida por la interfaz receptora esta alterada, la pluralidad de muestras de senal de audio seleccionadas de las muestras de senal de audio almacenadas en el bufer de retardo dependiendo de una informacion de retraso de altura que esta comprendida por otra trama recibida previamente por la interfaz 20 receptora.
[0248] Segun una realization, el procesador de muestras, por ejemplo, puede ser configurado para obtener las muestras de senal de audio reconstruida, si la trama actual es recibida por la interfaz receptora y si la trama actual recibida por la interfaz receptora no esta alterada, mediante la reescala de las muestras de senal de audio
25 seleccionadas dependiendo de la informacion de ganancia que esta comprendida por la trama actual. Aun mas, el selector de muestras, por ejemplo, puede ser configurado para obtener las muestras de senal de audio reconstruida, si la trama actual no es recibida por la interfaz receptora o si la trama actual recibida por la interfaz receptora esta alterada, mediante la reescala de las muestras de senal de audio seleccionadas dependiendo de la informacion de ganancia que esta comprendida por dicha otra trama que es recibida previamente por la interfaz receptora.
30
[0249] En ejemplos, el procesador de muestras, por ejemplo, puede ser configurado para obtener las muestras de senal de audio reconstruida, si la trama actual es recibida por la interfaz receptora y si la trama actual recibida por la interfaz receptora no esta alterada, multiplicando las muestras de senal de audio seleccionadas y un valor dependiendo de la informacion de ganancia comprendida por la trama actual. Aun mas, el selector de muestras
35 esta configurado para obtener las muestras de senal de audio reconstruida, si la trama actual no es recibida por la interfaz receptora o si la trama actual recibida por la interfaz receptora esta alterada, multiplicando las muestras de senal de audio seleccionadas y un valor dependiendo de la informacion de ganancia que esta comprendida por dicha otra trama recibida previamente por la interfaz receptora.
40 [0250] En un ejemplo, el procesador de muestras, por ejemplo, puede ser configurado para almacenar las
muestras de senal de audio reconstruida en el bufer de retardo.
[0251] En un ejemplo, el procesador de muestras, por ejemplo, puede ser configurado para almacenar las muestras de senal de audio reconstruida en el bufer de retardo antes de que otra trama sea recibida por la interfaz
45 receptora.
[0252] En un ejemplo, el procesador de muestras, por ejemplo, puede ser configurado para almacenar las muestras de senal de audio reconstruida en el bufer de retardo despues de que otra trama sea recibida por la interfaz receptora.
50
[0253] En un ejemplo, el procesador de muestras, por ejemplo, puede ser configurado para reescalar las muestras de senal de audio seleccionadas dependiendo de la informacion de ganancia para obtener muestras de senal de audio reescaladas, y mediante la combination de las muestras de senal de audio reescaladas con muestras de senal de audio de entrada, para obtener las muestras de senal de audio procesadas.
55
[0254] En un ejemplo, el procesador de muestras, por ejemplo, puede ser configurado para almacenar las muestras de senal de audio procesadas, que indican la combinacion de las muestras de senal de audio reescaladas y las muestras de senal de audio de entrada, en el bufer de retardo, y para no almacenar las muestras de senal de audio reescaladas en el bufer de retardo, si la trama actual que es recibida por la interfaz receptora y si la trama
actual que es recibida por la interfaz receptora no esta alterada. Aun mas, el procesador de muestras esta configurado para almacenar las muestras de senal de audio reescaladas en el bufer de retardo, y para no almacenar las muestras de senal de audio procesadas en el bufer de retardo, si la trama actual no es recibida por la interfaz receptora o si la trama actual que es recibida por la interfaz receptora esta alterada.
5
[0255] En otro ejemplo, el procesador de muestras, por ejemplo, puede ser configurado para almacenar las
muestras de senal de audio procesadas en el bufer de retardo, si la trama actual no es recibida por la interfaz receptora o si la trama actual recibida por la interfaz receptora esta alterada.
10 [0256] En un ejemplo, el selector de muestras, por ejemplo, puede ser configurado para obtener las muestras
de senal de audio reconstruida mediante la reescala de las muestras de senal de audio seleccionadas dependiendo de una ganancia modificada, en el que la ganancia modificada se define dependiendo de la formula:
ganancia = ganancia_pasada * amortiguamiento;
15
en la que la ganancia es la ganancia modificada, en la que el selector de muestras, por ejemplo, puede ser configurado para establecer la ganancia_pasada en la ganancia despues de la ganancia, y ha sido calculada, y en la que el amortiguamiento es un valor real.
20 [0257] En un ejemplo, el selector de muestras, por ejemplo, puede ser configurado para calcular la ganancia
modificada.
[0258] En un ejemplo, el amortiguamiento, por ejemplo, puede ser definido segun: 0 < amortiguamiento < 1.
25 [0259] En un ejemplo, la ganancia de ganancia modificada, por ejemplo, puede establecerse a cero, si por lo
menos una cantidad predefinida de tramas no ha sido recibida por la interfaz receptora desde que una trama fue recibida ultima por la interfaz receptora.
[0260] Aun mas, se provee un metodo para la decodificacion de una senal de audio codificada para obtener 30 una senal de audio reconstruida. El metodo comprende:
- Recibir una pluralidad de tramas.
- Almacenar muestras de senal de audio de la senal de audio codificada.
35
- Seleccionar una pluralidad de muestras de senal de audio seleccionadas de las muestras de senal de audio que estan almacenadas en el bufer de retardo. Y:
- Procesar las muestras de senal de audio seleccionadas para obtener muestras de la senal de audio 40 reconstruidas de la senal de audio reconstruida.
[0261] Si una trama actual es recibida, y si la trama actual recibida no esta alterada, la etapa de la seleccion de la pluralidad de muestras de senal de audio seleccionadas de las muestras de senal de audio que estan almacenadas en el bufer de retardo se realiza dependiendo de una informacion de retraso de altura comprendida por
45 la trama actual. Aun mas, si la trama actual no es recibida, o si la trama actual que es recibida esta alterada, la etapa de la seleccion de la pluralidad de muestras de senal de audio seleccionadas de las muestras de senal de audio que estan almacenadas en el bufer de retardo se realiza dependiendo de una informacion de retraso de altura comprendida por otra trama que ha sido recibida previamente por la interfaz receptora.
50 [0262] Aun mas, se provee un programa informatico para la implementacion del metodo anteriormente
descrito cuando se ejecuta en un ordenador o procesador de senales.
[0263] Las realizaciones emplean LTP de TCX (LTP de TCX = Prediccion de largo plazo de la Excitacion Codificada por la Transformada). Durante la operacion normal, la memoria de la LTP de tCx se actualiza con la
55 senal sintetizada, que contiene ruido y componentes tonales reconstruidos.
[0264] En lugar de deshabilitar la LTP de TCX durante el ocultamiento, su operacion normal puede ser continuada durante el ocultamiento con los parametros recibidos en la ultima buena trama. Esto preserva la forma espectral de la senal, en particular, aquellos componentes tonales que son modelados por el filtro de LTP.
[0265] Aun mas, realizaciones desacoplan el circuito de retroalimentacion de LTP de TCX. Una simple continuacion de la operation de prediction de LTP de TCX normal introduce ruido adicional, ya que con cada etapa de actualization se introduce mas ruido aleatoriamente generado de la excitation de LTP. Los componentes tonales,
5 en consecuencia, se distorsionan cada vez mas en funcion del tiempo, por el ruido agregado.
[0266] Para superar esto, solo puede ser retroalimentado el bufer de LTP de TCX actualizado (sin la adicion de ruido), con el fin de no contaminar la information tonal con ruido aleatorio no deseado.
[0267] Adicionalmente, realizaciones, la ganancia de la prediccion de LTP de TCX se desvanece a cero.
10
[0268] Estas realizaciones se basan en el hallazgo de que la continuacion de la LTP de TCX ayuda a preservar las caracterlsticas de senal a corto plazo, si bien posee desventajas a largo plazo. La senal transmitida durante el ocultamiento incluira la informacion de voz/tonal que estaba presente antes de la perdida. Especialmente para la voz limpia o la voz sobre ruido de fondo, es extremadamente improbable que un tono o armonico decaiga en
15 forma muy lenta durante un tiempo muy largo. Al continuar la operacion de LTP de TCX durante el ocultamiento, en particular, si la actualizacion de la memoria de LTP es desacoplada (solo se retroalimentan los componentes tonales y no la parte con mezcla de signos), la informacion de voz/tonal permanecera presente en la senal ocultada para la perdida entera, siendo atenuada solo por el desvanecimiento general al nivel de ruido de confort. Aun mas, es imposible alcanzar la envoltura de ruido de confort durante las perdidas de paquetes de rafagas, si la LTP de TCX se 20 aplica durante la perdida de rafaga sin ser atenuada en funcion del tiempo, ya que la senal entonces siempre incorporara la informacion de voz de la LTP.
[0269] Por lo tanto, la ganancia de la LTP de TCX se desvanece hacia cero, de modo que los componentes tonales representados por la LTP se desvaneceran a cero, al mismo tiempo que la senal se desvanece al nivel y
25 forma de senal de fondo, y de manera que el desvanecimiento alcance la envoltura de fondo espectral deseada (ruido de confort) sin incorporar componentes tonales no deseados.
[0270] En realizaciones, se usa la misma velocidad de desvanecimiento para el desvanecimiento de la ganancia de LTP que para el desvanecimiento del ruido blanco.
30
[0271] Por el contrario, en el estado de la tecnica, no hay codec de transformation conocido que use la LTP durante el ocultamiento. Para la MPEG-4 LTP [IS009], no existen enfoques de ocultamiento en el estado de la tecnica. Otro codec basado en la MDCT del estado de la tecnica, que hace uso de una LTP, es CELT, si bien este codec usa un ocultamiento de tipo ACELP para las primeras cinco tramas, y para todas las posteriores tramas, se
35 genera ruido de fondo, que no hace uso de la LTP. Una desventaja del estado de la tecnica del no uso de la LTP de TCX es que todos los componentes tonales que estan modelados con la LTP desaparecen abruptamente. Aun mas, en los codecs basados en ACELP del estado de la tecnica, la operacion de LTP es prolongada durante el ocultamiento, y la ganancia del libro de codigo adaptativo es desvanecida a cero. Con respecto a la operacion de circuito de retroalimentacion, el estado de la tecnica emplea dos enfoques, o bien la excitacion entera, por ejemplo, 40 la suma de la excitacion innovadora y la adaptativa, es retroalimentada (AMR-WB); o solo es retroalimentada la excitacion adaptativa actualizada, por ejemplo, las partes de senal tonal (G.718). Las realizaciones anteriormente mencionadas superan las desventajas del estado de la tecnica.
[0272] A continuacion, se describen las realizaciones de la presente invention en mas detalle con referencia
45 a las figuras, en las que:
Fig. 1a
Fig. 1b 50
Fig. 1b
ilustra un aparato para la decodificacion de una senal de audio segun una realization,
ilustra un aparato para la decodificacion de una senal de audio segun otra realizacion,
ilustra un aparato para la decodificacion de una senal de audio segun otra realizacion, en la que el aparato adicionalmente comprende una primera y una segunda unidades de agregacion,
Fig. 1d 55
ilustra un aparato para la decodificacion de una senal de audio segun una realizacion adicional, en la que el aparato ademas comprende una unidad de prediccion de largo plazo que comprende un bufer de retardo,
Fig. 2 ilustra la estructura del decodificador de G.718,
Fig. 3
Fig. 4 5
Fig. 5
Fig. 6
10
Fig. 7
Fig. 8 15
Fig. 9 Fig. 10
20
Fig. 11
25 Fig. 12
Fig. 13 30
Fig. 14
representa un escenario, en la que el factor de desvanecimiento de G.722 depende de la informacion de clase,
muestra un enfoque para la prediccion de amplitud usando la regresion lineal,
ilustra el comportamiento de perdida de rafaga de Transformada Superpuesta de Energla Restringida CELT),
muestra un rastreo del nivel de ruido de fondo segun una realizacion en el decodificador durante un modo de operacion libre de error,
ilustra la derivacion de ganancia de la slntesis de LPC y el desenfasis segun una realizacion,
representa la aplicacion de nivel de ruido de confort durante la perdida de paquete segun una realizacion,
ilustra la compensation de ganancia paso alto avanzada durante el ACELP segun una realizacion,
representa el desacoplado del circuito de retroalimentacion de la LTP durante el ocultamiento segun una realizacion,
ilustra un aparato para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida segun una realizacion,
muestra un aparato para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida segun otra realizacion, y
ilustra un aparato para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida segun una realizacion adicional, y
ilustra un aparato para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida segun otra realizacion.
[0273] La Fig. 1a ilustra un aparato para la decodificacion de una senal de audio segun una realizacion.
35
[0274] El aparato comprende una interfaz receptora 110. La interfaz receptora esta configurada para recibir una pluralidad de tramas, en el que la interfaz receptora 110 esta configurada para recibir una primera trama de la pluralidad de tramas, comprendiendo dicha primera trama una primera portion de senal de audio de la senal de audio, estando dicha primera porcion de senal de audio representada en un primer dominio. Aun mas, la interfaz
40 receptora 110 esta configurada para recibir una segunda trama de la pluralidad de tramas, comprendiendo dicha segunda trama una segunda porcion de senal de audio de la senal de audio.
[0275] Aun mas, el aparato comprende una unidad de transformada 120 para la transformation de la segunda porcion de senal de audio o un valor o una senal derivado de la segunda porcion de senal de audio de un
45 segundo dominio a un dominio de rastreo para obtener una informacion de segunda porcion de senal, en el que el segundo dominio es diferente del primer dominio, en el que el dominio de rastreo es diferente del segundo dominio, y en el que el dominio de rastreo es igual o diferente del primer dominio.
[0276] Adicionalmente, el aparato comprende una unidad de rastreo de nivel de ruido 130, en el que la 50 unidad de rastreo de nivel de ruido esta configurada para recibir una informacion de primera porcion de senal que es
representada en el dominio de rastreo, en el que la informacion de primera porcion de senal depende de la primera porcion de senal de audio, en el que la unidad de rastreo de nivel de ruido esta configurada para recibir la segunda porcion de senal que es representada en el dominio de rastreo, y en el que la unidad de rastreo de nivel de ruido esta configurada para determinar la informacion de nivel de ruido dependiendo de la informacion de primera porcion 55 de senal que es representada en el dominio de rastreo y dependiendo de la informacion de segunda porcion de senal que es representada en el dominio de rastreo.
[0277] Aun mas, el aparato comprende una unidad de reconstruction para la reconstruction de una tercera porcion de senal de audio de la senal de audio dependiendo de la informacion de nivel de ruido, si una tercera trama
de la pluralidad de tramas no es recibida por la interfaz receptora pero esta alterada.
[0278] Con respecto a la primera y/o la segunda porcion de senal de audio, por ejemplo, la primera y/o la segunda porcion de senal de audio, por ejemplo, pueden alimentarse en una o mas unidades de procesamiento (no
5 expuestas) para la generacion de una o mas senales de altavoz para uno o mas altavoces, de manera que la informacion de sonido recibida comprendida por la primera y/o la segunda porcion de senal de audio pueda ser reproducida nuevamente.
[0279] Aun mas, sin embargo, la primera y la segunda porciones de senal de audio se usan tambien para el 10 ocultamiento, por ejemplo, en el caso de que las posteriores tramas no lleguen al receptor, o en el caso de que las
posteriores tramas sean erroneas.
[0280] Entre otras cosas, la presente invention se basa en el hallazgo de que el rastreo de nivel de ruido debe conducirse en un dominio comun, referido en el presente documento como “dominio de rastreo”. El dominio de
15 rastreo, por ejemplo, puede ser un dominio de excitation, por ejemplo, el dominio en el que la senal es representada por LPC (LPC = Coeficientes Predictivos Lineales) o por ISP (Par espectral de Impedancia y Admitancia) como se describe en AMR-WB y en AMR-WB+ (vease [3GP12a], [3GP12b], [3GP09a], [3GP09b], [3GP09c]). El rastreo del nivel de ruido en un solo dominio tiene, entre otras cosas, la ventaja de que se evitan los efectos de la superposition periodica sucesiva cuando la senal cambia entre una primera representation en un primer dominio y una segunda 20 representacion en un segundo dominio (por ejemplo, cuando la representacion de senal cambia de ACELP a TCX o viceversa).
[0281] Con respecto a la unidad de transformada 120, lo que se transforma es o bien la segunda porcion de senal de audio en si misma, o una senal derivada de la segunda porcion de senal de audio (por ejemplo, la segunda
25 porcion de senal de audio ha sido procesada para obtener la senal derivada), o un valor derivado de la segunda porcion de senal de audio (por ejemplo, la segunda porcion de senal de audio ha sido procesada para obtener el valor derivado).
[0282] Con respecto a la primera porcion de senal de audio, en algunas realizaciones, la primera porcion de 30 senal de audio puede ser procesada y/o transformada al dominio de rastreo.
[0283] En otras realizaciones, sin embargo, la primera porcion de senal de audio puede estar ya representada en el dominio de rastreo.
35 [0284] En algunas realizaciones, la informacion de primera porcion de senal es identica a la primera porcion
de senal de audio. En otras realizaciones, la informacion de primera porcion de senal es, por ejemplo, un valor agregado que depende de la primera porcion de senal de audio.
[0285] Ahora, en primer lugar, se considera en mas detalle el desvanecimiento a un nivel de ruido de confort. 40
[0286] El enfoque de desvanecimiento descrito, por ejemplo, puede ser implementado en una version de bajo retardo de xHE-AAC [NMR+12] (xHE-AAC = AAC de Alta Eficiencia Extendida), que es capaz de cambiar sin costuras entre la codification de ACELP (la voz) y de MDCT (musica/ruido) sobre una base por trama.
45 [0287] Con respecto al rastreo de nivel comun en un dominio de rastreo, por ejemplo, como dominio de
excitacion, para aplicar un desvanecimiento suave a un nivel de ruido de confort apropiado durante la perdida de paquetes, es necesario identificar dicho nivel de ruido de confort durante el proceso de decodificacion normal. Por ejemplo, puede asumirse que un nivel de ruido similar al ruido de fondo es mas comodo. Por lo tanto, el nivel de ruido de fondo puede ser derivado y actualizado en forma constante durante la codificacion normal.
50
[0288] La presente invencion se basa en el hallazgo de que cuando se tiene un codec de nucleo cambiado
(por ejemplo, ACELP y TCX), es en particular adecuada la consideration de un nivel de ruido de fondo comun, independientemente del codificador de nucleo seleccionado.
55 [0289] La Fig. 6 representa un rastreo del nivel de ruido de fondo segun una realization preferida en el
decodificador durante el modo de operation libre de error, por ejemplo, durante la decodificacion normal.
[0290] El rastreo en si mismo, por ejemplo, puede realizarse usando el enfoque de estadlstica minima (vease
[Mar01]).
[0291] Este nivel rastreado de ruido de fondo, por ejemplo, puede considerarse como la informacion de nivel
de ruido mencionada anteriormente.
5 [0292] Por ejemplo, la estimacion de ruido de estadistica minima presentada en el documento: “Rainer
Martin, Noise power spectral density estimation based on optimal smoothing and minimum statistics, IEEE Transactions on Speech and Audio Processing 9 (2001), no. 5, 504 -512), [Mar01] puede emplearse para el rastreo del nivel de ruido de fondo.
10 [0293] De manera correspondiente, en algunas realizaciones, la unidad de rastreo de nivel de ruido 130 esta
configurada para determinar la informacion de nivel de ruido mediante la aplicacion de un enfoque de estadistica minima, por ejemplo, mediante el empleo de la estimacion de ruido de estadistica minima de [Mar01].
[0294] A continuacion, se describen algunas consideraciones y detalles de este enfoque de rastreo.
15
[0295] Con respecto al rastreo de nivel, se supone que el fondo es de tipo ruido. En consecuencia, es preferible realizar el rastreo de nivel en el dominio de excitacion para evitar el rastreo de componentes tonales delanteros que son extraidos por LPC. Por ejemplo, el relleno de ruido de ACELP puede emplear ademas el nivel de ruido de fondo en el dominio de excitacion. Con el rastreo en el dominio de excitacion, solo un unico rastreo del nivel
20 de ruido de fondo puede cumplir dos propositos, lo que ahorra complejidad computacional. En una realizacion preferida, el rastreo se realiza en el dominio de excitacion de ACELP.
[0296] La Fig. 7 ilustra la derivation de ganancia de la sintesis de LPC y el desenfasis segun una realizacion.
25 [0297] Con respecto a la derivacion de nivel, por ejemplo, la derivacion de nivel puede realizarse o bien en el
dominio de tiempo o en el dominio de excitacion, o en cualquier otro dominio adecuado. Si los dominios para la derivacion de nivel y el rastreo de nivel difieren, puede ser necesaria, por ejemplo, una compensation de ganancia.
[0298] En la realizacion preferida, la derivacion de nivel para ACELP se realiza en el dominio de excitacion. 30 En consecuencia, no se requiere compensacion de ganancia.
[0299] Para TCX, puede ser necesaria, por ejemplo, una compensacion de ganancia para ajustar el nivel derivado al dominio de excitacion de ACELP.
35 [0300] En la realizacion preferida, la derivacion de nivel para TCX tiene lugar en el dominio de tiempo. Se
hallo una compensacion de ganancia manipulable para este enfoque: la ganancia introducida por la sintesis de LPC y el desenfasis se deriva como se muestra en la Fig. 7, y el nivel derivado se divide entre esta ganancia.
[0301] Alternativamente, la derivacion de nivel para TCX podria realizarse en el dominio de excitacion de 40 TCX. Sin embargo, la compensacion de ganancia entre el dominio de excitacion de TCX y el dominio de excitacion
de ACELP se considero demasiado complicada.
[0302] Por lo tanto, volviendo a la Fig. 1a, en algunas realizaciones, la primera portion de senal de audio es representada en un dominio de tiempo como el primer dominio. La unidad de transformada 120 esta configurada
45 para transformar la segunda porcion de senal de audio o el valor derivado de la segunda porcion de senal de audio de un dominio de excitacion que es el segundo dominio, al dominio de tiempo que es el dominio de rastreo. En dichas realizaciones, la unidad de rastreo de nivel de ruido 130 esta configurada para recibir la informacion de primera porcion de senal que es representada en el dominio de tiempo como el dominio de rastreo. Aun mas, la unidad de rastreo de nivel de ruido 130 esta configurada para recibir la segunda porcion de senal que es 50 representada en el dominio de tiempo como el dominio de rastreo.
[0303] En otras realizaciones, la primera porcion de senal de audio esta representada en un dominio de excitacion como el primer dominio. La unidad de transformada 120 esta configurada para transformar la segunda porcion de senal de audio o el valor derivado de la segunda porcion de senal de audio, de un dominio de tiempo que
55 es el segundo dominio, al dominio de excitacion que es el dominio de rastreo. En dichas realizaciones, la unidad de rastreo de nivel de ruido 130 esta configurada para recibir la informacion de primera porcion de senal que es representada en el dominio de excitacion como el dominio de rastreo. Aun mas, la unidad de rastreo de nivel de ruido 130 esta configurada para recibir la segunda porcion de senal que es representada en el dominio de excitacion
como el dominio de rastreo.
[0304] En una realizacion, la primera porcion de senal de audio, por ejemplo, puede ser representada en un dominio de excitacion como el primer dominio, en la que la unidad de rastreo de nivel de ruido 130, por ejemplo,
5 puede ser configurada para recibir la information de primera porcion de senal, en la que dicha information de primera porcion de senal esta representada en el dominio FFT, que es el dominio de rastreo, y en la que dicha informacion de primera porcion de senal depende de dicha primera porcion de senal de audio que esta representada en el dominio de excitacion, en la que la unidad de transformada 120, por ejemplo, puede ser configurada para transformar la segunda porcion de senal de audio o el valor derivado de la segunda porcion de senal de audio, de un 10 dominio de tiempo que es el segundo dominio, a un dominio FFT que es el dominio de rastreo, y en la que la unidad de rastreo de nivel de ruido 130, por ejemplo, puede ser configurada para recibir la segunda porcion de senal de audio que es representada en el dominio FFT.
[0305] La Fig. 1b ilustra un aparato segun otra realizacion. En la Fig. 1b, la unidad de transformada 120 de la 15 Fig. 1a es una primera unidad de transformada 120, y la unidad de reconstruction 140 de la Fig. 1a es una primera
unidad de reconstruccion 140. El aparato adicionalmente comprende una segunda unidad de transformada 121 y una segunda unidad de reconstruccion 141.
[0306] La segunda unidad de transformada 121 esta configurada para transformar la informacion de nivel de 20 ruido del dominio de rastreo al segundo dominio, si una cuarta trama de la pluralidad de tramas no es recibida por la
interfaz receptora o si dicha cuarta trama es recibida por la interfaz receptora pero esta alterada.
[0307] Aun mas, la segunda unidad de reconstruccion 141 esta configurada para reconstruir una cuarta porcion de senal de audio de la senal de audio dependiendo de la informacion de nivel de ruido que es representada
25 en el segundo dominio si dicha cuarta trama de la pluralidad de tramas no es recibida por la interfaz receptora o si dicha cuarta trama es recibida por la interfaz receptora pero esta alterada.
[0308] La Fig. 1c ilustra un aparato para la decodificacion de una senal de audio segun otra realizacion. El aparato adicionalmente comprende una primera unidad de agregacion 150 para determinar un primer valor agregado
30 que depende la primera porcion de senal de audio. Aun mas, el aparato de la Fig. 1c adicionalmente comprende una segunda unidad de agregacion 160 para determinar un segundo valor agregado como el valor derivado de la segunda porcion de senal de audio que depende de la segunda porcion de senal de audio. En la realizacion de la Fig. 1c, la unidad de rastreo de nivel de ruido 130 esta configurada para recibir el primer valor agregado como la informacion de primera porcion de senal que es representada en el dominio de rastreo, en la que la unidad de 35 rastreo de nivel de ruido 130 esta configurada para recibir el segundo valor agregado como la informacion de segunda porcion de senal que es representada en el dominio de rastreo. La unidad de rastreo de nivel de ruido 130 esta configurada para determinar la informacion de nivel de ruido dependiendo del primer valor agregado que es representado en el dominio de rastreo y dependiendo del segundo valor agregado que es representado en el dominio de rastreo.
40
[0309] En una realizacion, la primera unidad de agregacion 150 esta configurada para determinar el primer valor agregado, de manera que el primer valor agregado indique una media cuadratica de la primera porcion de senal de audio o de una senal derivada de la primera porcion de senal de audio. Aun mas, la segunda unidad de agregacion 160 esta configurada para determinar el segundo valor agregado, de manera que el segundo valor
45 agregado indique una media cuadratica de la segunda porcion de senal de audio o de una senal derivada de la segunda porcion de senal de audio.
[0310] La Fig. 6 ilustra un aparato para la decodificacion de una senal de audio segun una realizacion adicional.
50
[0311] En la Fig. 6, la unidad de rastreo de nivel de fondo 630 implementa una unidad de rastreo de nivel de ruido 130 segun la Fig. 1a.
[0312] Aun mas, en la Fig. 6, la unidad de RMS 650 (RMS = media cuadratica) es una primera unidad de 55 agregacion, y la unidad de RMS 660 es una segunda unidad de agregacion.
[0313] Segun algunas realizaciones, la (primera) unidad de transformada 120 de la Fig. 1a, Fig. 1b y Fig. 1c esta configurada para transformar el valor derivado de la segunda porcion de senal de audio, del segundo dominio al dominio de rastreo, mediante la aplicacion de un valor de ganancia (x) sobre el valor derivado de la segunda porcion
de senal de audio, por ejemplo, mediante la division del valor derivado de la segunda porcion de senal de audio entre un valor de ganancia (x). En otras realizaciones, un valor de ganancia, por ejemplo, puede ser multiplicado.
[0314] En algunas realizaciones, el valor de ganancia (x), por ejemplo, puede indicar una ganancia 5 introducida por la slntesis de codificacion predictiva lineal, o el valor de ganancia (x), por ejemplo, puede indicar una
ganancia introducida por la slntesis de codificacion predictiva lineal y el desenfasis.
[0315] En la Fig. 6, la unidad 622 proporciona el valor (x) que indica la ganancia introducida por la slntesis de codificacion predictiva lineal y el desenfasis. La unidad 622 entonces divide el valor proporcionado por la segunda
10 unidad de agregacion 660, que es un valor derivado de la segunda porcion de senal de audio, entre el valor de
ganancia proporcionado (x) (por ejemplo, ya sea mediante la division entre x, ya sea mediante la multiplicacion del
valor 1/x). Por lo tanto, la unidad 620 de la Fig. 6 que comprende las unidades 621 y 622 implementa la primera
unidad de transformada de la Fig. 1a, Fig. 1b o Fig. 1c.
15 [0316] El aparato de la Fig. 6 recibe una primera trama con una primera porcion de senal de audio que es
una excitacion con voz y/o una excitacion sin voz y que es representada en el dominio de rastreo, en la Fig. 6, un dominio de LPC (ACELP). La primera porcion de senal de audio es alimentada en una unidad de slntesis de LPC y desenfasis 671 para el procesamiento para obtener una salida de primera porcion de senal de audio en el dominio de tiempo. Aun mas, la primera porcion de senal de audio es alimentada en el modulo de RMS 650 para obtener un 20 primer valor que indica una media cuadratica de la primera porcion de senal de audio. Este primer valor (primer valor de RMS) esta representado en el dominio de rastreo. El primer valor de RMS, que es representado en el dominio de rastreo, es entonces alimentado en la unidad de rastreo de nivel de ruido 630.
[0317] Aun mas, el aparato de la Fig. 6 recibe una segunda trama con una segunda porcion de senal de 25 audio que comprende un espectro de MDCT y que es representada en un dominio de MDCT. El relleno de ruido se
realiza por medio de un modulo de relleno de ruido 681, la formacion de ruido en el dominio de frecuencia se realiza por medio de un modulo de formacion de ruido en el dominio de frecuencia 682; la transformation al dominio de tiempo se realiza por un modulo de iMDCT/OLA 683 (OLA = superposition y adicion), y la prediction de largo plazo se realiza por medio de una unidad de prediccion de largo plazo 684. La unidad de prediccion de largo plazo, por 30 ejemplo, puede comprender un bufer de retardo (no mostrado en la Fig. 6).
[0318] La senal derivada de la segunda porcion de senal de audio es luego alimentada en el modulo de RMS 660 para obtener un segundo valor que indica una media cuadratica de dicha senal derivada de la segunda porcion de senal de audio. Este segundo valor (segundo valor de RMS) es aun representado en el dominio de tiempo. La
35 unidad 620 entonces transforma el segundo valor de media cuadratica (RMS) del dominio de tiempo al dominio de rastreo, aqul, el dominio de LPC (ACELP). El segundo valor de RMS, que es representado en el dominio de rastreo, es entonces alimentado en la unidad de rastreo de nivel de ruido 630.
[0319] En realizaciones, el rastreo de nivel se realiza en el dominio de excitation, si bien el desvanecimiento 40 de TCX se realiza en el dominio de tiempo.
[0320] Mientras que durante la decodificacion normal se rastrea el nivel de ruido de fondo, puede usarse, por ejemplo, durante la perdida de paquetes, como un indicador de un nivel apropiado de ruido de confort, al que la ultima senal recibida es suavemente desvanecida a modo de nivel.
45
[0321] La derivation del nivel para el rastreo y la aplicacion del desvanecimiento de nivel, en general, son independientes entre si, y podrlan realizarse en diferentes dominios. En la realization preferida, la aplicacion de nivel se realiza en los mismos dominios que la derivacion de nivel, conduciendo a los mismos beneficios que para ACELP, sin compensation de ganancia necesaria, y que para TCX, es necesaria la compensation de ganancia
50 inversa como para la derivacion de nivel (vease la Fig. 6), y en consecuencia, puede usarse la misma derivacion de ganancia, como se ilustra por la Fig. 7.
[0322] A continuation, se describe la compensacion de una influencia del filtro paso alto sobre la ganancia de slntesis de LPC segun realizaciones.
55
[0323] La Fig. 8 explica resumidamente este enfoque. En particular, la Fig. 8 ilustra la aplicacion de nivel de ruido de confort durante la perdida de paquetes.
[0324] En la Fig. 8, la unidad de filtro de ganancia paso alto 643, la unidad de multiplicacion 644, la unidad de
desvanecimiento 645, la unidad de filtro paso alto 646, la unidad de desvanecimiento 647 y la unidad de combinacion 648 forman en conjunto una primera unidad de reconstruction.
[0325] Aun mas, en la Fig. 8, la unidad de provision de nivel de fondo 631 proporciona la information de nivel 5 de ruido. Por ejemplo, la unidad de provision de nivel de fondo 631 puede ser implementada de igual manera que la
unidad de rastreo de nivel de fondo 630 de la Fig. 6.
[0326] Adicionalmente, en la Fig. 8, la unidad de ganancia de slntesis de LPC y desenfasis 649, y la unidad de multiplication 641 forman juntas una segunda unidad de transformada 640.
10
[0327] Aun mas, en la Fig. 8, la unidad de desvanecimiento 642 representa una segunda unidad de reconstruccion.
[0328] En la realization de la Fig. 8, la excitation con voz y la excitation sin voz son desvanecidas en forma 15 separada: La excitacion con voz es desvanecida a cero, si bien la excitacion sin voz es desvanecida hacia el nivel de
ruido de confort. La Fig. 8 adicionalmente representa un filtro paso alto, que es introducido en la cadena de senal de la excitacion sin voz con el fin de suprimir los componentes de baja frecuencia para todos los casos, excepto cuando la senal fue clasificada como sin voz.
20 [0329] Para modelar la influencia del filtro paso alto, el nivel despues de la slntesis de LPC y el desenfasis se
calcula una vez con y una vez sin el filtro paso alto. A continuation, la relation de dichos dos niveles es derivada y usada para alterar el nivel de fondo aplicado.
[0330] Esto se ilustra por la Fig. 9. En particular, la Fig. 9 representa la compensation de ganancia paso alto 25 avanzada durante el ocultamiento de ACELP segun una realizacion.
[0331] En lugar de la senal de excitacion actual, se usa solo un simple impulso como entrada para este computo. Esto permite una reducida complejidad, ya que la respuesta de impulso decae rapidamente, y de ese modo, puede realizarse la derivation de RMS en una trama de tiempo mas corto. En la practica, solo se usa una
30 subtrama en lugar de la trama entera.
[0332] Segun una realizacion, la unidad de rastreo de nivel de ruido 130 esta configurada para determinar un nivel de ruido de confort como la informacion de nivel de ruido. La unidad de reconstruccion 140 esta configurada para la reconstruccion de la tercera portion de senal de audio dependiendo de la informacion de nivel de ruido, si
35 dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha tercera trama es recibida por la interfaz receptora 110 pero esta alterada.
[0333] En una realizacion, la unidad de rastreo de nivel de ruido 130 esta configurada para determinar un nivel de ruido de confort como la informacion de nivel de ruido derivada de un espectro de nivel de ruido, en la que
40 dicho espectro de nivel de ruido se obtiene mediante la aplicacion del enfoque de estadlstica minima. La unidad de reconstruccion 140 esta configurada para la reconstruccion de la tercera porcion de senal de audio dependiendo de una pluralidad de coeficientes predictivos lineales, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha tercera trama es recibida por la interfaz receptora 110 pero esta alterada.
45 [0334] En una realizacion, la (primera y/o segunda) unidad de reconstruccion 140, 141, por ejemplo, puede
ser configurada para reconstruir la tercera porcion de senal de audio dependiendo de la informacion de nivel de ruido y dependiendo de la primera porcion de senal de audio, si dicha tercera (cuarta) trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha tercera (cuarta) trama es recibida por la interfaz receptora 110 pero esta alterada.
50
[0335] Segun una realizacion, la (primera y/o segunda) unidad de reconstruccion 140, 141, por ejemplo,
puede ser configurada para reconstruir la tercera (o cuarta) porcion de senal de audio mediante la atenuacion o amplification de la primera porcion de senal de audio.
55 [0336] La Fig. 14 ilustra un aparato para la decodificacion de una senal de audio. El aparato comprende una
interfaz receptora 110, en la que la interfaz receptora 110 esta configurada para recibir una primera trama que comprende una primera porcion de senal de audio de la senal de audio, y en la que la interfaz receptora 110 esta configurada para recibir una segunda trama que comprende una segunda porcion de senal de audio de la senal de audio.
[0337] Aun mas, el aparato comprende una unidad de rastreo de nivel de ruido 130, en el que la unidad de rastreo de nivel de ruido 130 esta configurada para determinar la informacion de nivel de ruido que depende por lo menos de una de la primera porcion de senal de audio y la segunda porcion de senal de audio (esto significa: que
5 depende de la primera porcion de senal de audio y/o la segunda porcion de senal de audio), en la que la informacion de nivel de ruido se representa en un dominio de rastreo.
[0338] Adicionalmente, el aparato comprende una primera unidad de reconstruction 140 para la reconstruccion de, en un primer dominio de reconstruccion, una tercera porcion de senal de audio de la senal de
10 audio dependiendo de la informacion de nivel de ruido, si una tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha tercera trama es recibida por la interfaz receptora 110 pero esta alterada, en el que el primer dominio de reconstruccion es diferente o igual del dominio de rastreo.
[0339] Aun mas, el aparato comprende una unidad de transformada 121 para la transformation de la 15 informacion de nivel de ruido, del dominio de rastreo a un segundo dominio de reconstruccion, si una cuarta trama
de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha cuarta trama es recibida por la interfaz receptora 110 pero esta alterada, en el que el segundo dominio de reconstruccion es diferente del dominio de rastreo, y en el que el segundo dominio de reconstruccion es diferente del primer dominio de reconstruccion; y
20 [0340] Adicionalmente, el aparato comprende una segunda unidad de reconstruccion 141 para la
reconstruccion de, en el segundo dominio de reconstruccion, una cuarta porcion de senal de audio de la senal de audio dependiendo de la informacion de nivel de ruido que es representada en el segundo dominio de reconstruccion, si dicha cuarta trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha cuarta trama es recibida por la interfaz receptora 110 pero esta alterada.
25
[0341] Segun algunas realizaciones, el dominio de rastreo, por ejemplo, puede ser en el que el dominio de rastreo es un dominio de tiempo, un dominio espectral, un dominio FFT, un dominio de MDCT, o un dominio de excitation. El primer dominio de reconstruccion, por ejemplo, puede ser el dominio de tiempo, el dominio espectral, el dominio FFT, el dominio de MDCT, o el dominio de excitacion. El segundo dominio de reconstruccion, por ejemplo,
30 puede ser el dominio de tiempo, el dominio espectral, el dominio FFT, el dominio de MDCT, o el dominio de excitacion.
[0342] En una realization, el dominio de rastreo, por ejemplo, puede ser el dominio FFT, el primer dominio de reconstruccion, por ejemplo, puede ser el dominio de tiempo, y el segundo dominio de reconstruccion, por ejemplo,
35 puede ser el dominio de excitacion.
[0343] En otra realizacion, el dominio de rastreo, por ejemplo, puede ser el dominio de tiempo, el primer dominio de reconstruccion, por ejemplo, puede ser el dominio de tiempo, y el segundo dominio de reconstruccion, por ejemplo, puede ser el dominio de excitacion.
40
[0344] Segun una realizacion, dicha primera porcion de senal de audio, por ejemplo, puede ser representada en un primer dominio de entrada, y dicha segunda porcion de senal de audio, por ejemplo, puede ser representada en un segundo dominio de entrada. La unidad de transformada, por ejemplo, puede ser una segunda unidad de transformada. El aparato, por ejemplo, puede comprender adicionalmente una primera unidad de transformada para
45 la transformacion de la segunda porcion de senal de audio o un valor o una senal derivado de la segunda porcion de senal de audio, del segundo dominio de entrada al dominio de rastreo, para obtener una informacion de segunda porcion de senal. La unidad de rastreo de nivel de ruido, por ejemplo, puede ser configurada para recibir una informacion de primera porcion de senal que es representada en el dominio de rastreo, en la que la informacion de primera porcion de senal depende de la primera porcion de senal de audio, en la que la unidad de rastreo de nivel de 50 ruido esta configurada para recibir la segunda porcion de senal que es representada en el dominio de rastreo, y en la que la unidad de rastreo de nivel de ruido esta configurada para determinar la informacion de nivel de ruido dependiendo de la informacion de primera porcion de senal que es representada en el dominio de rastreo y dependiendo de la informacion de segunda porcion de senal que es representada en el dominio de rastreo.
55 [0345] Segun una realizacion, el primer dominio de entrada, por ejemplo, puede ser el dominio de excitacion,
y el segundo dominio de entrada, por ejemplo, puede ser el dominio de MDCT.
[0346] En otra realizacion, el primer dominio de entrada, por ejemplo, puede ser el dominio de MDCT, y
donde el segundo dominio de entrada, por ejemplo, puede ser el dominio de MDCt.
[0347] Si, por ejemplo, una senal esta representada en un dominio de tiempo, por ejemplo, puede ser representada por muestras de dominio de tiempo de la senal. O, por ejemplo, si una senal esta representada en un dominio espectral, por ejemplo, puede ser representada por muestras espectrales de un espectro de la senal.
5
[0348] En una realizacion, el dominio de rastreo, por ejemplo, puede ser el dominio FFT, el primer dominio de reconstruction, por ejemplo, puede ser el dominio de tiempo, y el segundo dominio de reconstruction, por ejemplo, puede ser el dominio de excitation.
10 [0349] En otra realizacion, el dominio de rastreo, por ejemplo, puede ser el dominio de tiempo, el primer
dominio de reconstruccion, por ejemplo, puede ser el dominio de tiempo, y el segundo dominio de reconstruccion, por ejemplo, puede ser el dominio de excitacion.
[0350] En algunas realizaciones, las unidades ilustradas en la Fig. 14, por ejemplo, pueden estar 15 configuradas como se describe para las Figs. 1a, 1b, 1c y 1d.
[0351] Con respecto a realizaciones particulares, en, por ejemplo, un modo de tasa baja, un aparato segun una realizacion, por ejemplo, puede recibir tramas de ACELP como una entrada, que son representadas en un dominio de excitacion, y que son luego transformadas en un dominio de tiempo por medio de la slntesis de LPC. Aun
20 mas, en el modo de tasa baja, el aparato segun una realizacion, por ejemplo, puede recibir tramas de TCX como una entrada, que son representadas en un dominio de MDCT, y que son luego transformadas en un dominio de tiempo por medio de una MDCT inversa.
[0352] Luego se realiza el rastreo en un dominio de FFT, en el que la senal de FFT es derivada de la senal 25 de dominio de tiempo mediante la conduction de una FFT (Transformada de Fourier Veloz). El rastreo, por ejemplo,
puede ser realizado por la conduccion de un enfoque de estadlstica minima, separado para todas las llneas espectrales para obtener un espectro de ruido de confort.
[0353] A continuation se realiza el ocultamiento mediante la conduccion de la derivation de nivel basada en 30 el espectro de ruido de confort. La derivacion de nivel se realiza basandose en el espectro de ruido de confort. La
conversion de nivel en el dominio de tiempo se realiza para el PLC de TCX de FD. Se realiza un desvanecimiento en el dominio de tiempo. Se realiza una derivacion de nivel en el dominio de excitacion para el PLC de ACELP y para el PLC de TCX de tD (de tipo ACELP). Luego se realiza un desvanecimiento en el dominio de excitacion.
35 [0354] El siguiente listado resume esto:
tasa baja:
40
entrada:
° CELP (dominio de excitacion -> dominio de tiempo, por medio de la slntesis de LPC) ° TCX (dominio de MDCT -> dominio de tiempo, mediante la MDCT inversa)
45 • rastreo:
° dominio FFT, derivado de dominio de tiempo por medio de FFT
° estadlstica minima, separada para todas las llneas espectrales 50 -> espectro de ruido de confort
• ocultamiento:
° derivacion de nivel basada en el espectro de ruido de confort 55
° conversion de nivel en el dominio de tiempo para
■ PLC de TCX de FD
5
10
-> desvanecimiento en el dominio de tiempo ° conversion de nivel en el dominio de excitacion para
■ PLC de ACELP
■ PLC de TCX de TD (de tipo ACELP)
-> desvanecimiento en el dominio de excitacion
[0355] En, por ejemplo, un modo de tasa alta, pueden recibirse tramas de TCX como una entrada, que son representadas en el dominio de MDCT, y que son luego transformadas al dominio de tiempo mediante una MDCT inversa.
15
[0356] El rastreo entonces puede realizarse en el dominio de tiempo. Por ejemplo, el rastreo puede realizarse mediante la conduccion de un enfoque de estadlstica minima basado en el nivel de energla para obtener un nivel de ruido de confort.
20 [0357] Para el ocultamiento, para el PLC de TCX de FD, el nivel puede usarse como tal, y puede realizarse
solamente un desvanecimiento en el dominio de tiempo. Para el PLC de TCX de TD, (de tipo ACELP), se realiza la conversion de nivel en el dominio de excitacion y el desvanecimiento en el dominio de excitacion.
[0358] El siguiente listado resume esto:
25
tasa alta:
• entrada:
30 ° TCX (dominio de MDCT -> dominio de tiempo, mediante MDCT inversa)
• rastreo:
° dominio de tiempo 35
° estadlstica minima sobre el nivel de energla -> nivel de ruido de confort
• ocultamiento:
40 ° uso de nivel "como tal"
■ PLC de TCX de FD
-> desvanecimiento en el dominio de tiempo 45
° conversion de nivel en el dominio de excitacion para
■ PLC de TCX de TD (de tipo ACELP)
50 -> desvanecimiento en el dominio de excitacion
[0359] El dominio FFT y el dominio de la MDCT son ambos dominios espectrales, mientras que el dominio de
excitacion es cierta clase de dominio de tiempo.
55 [0360] Segun una realizacion, la primera unidad de reconstruccion 140, por ejemplo, puede ser configurada
para reconstruir la tercera porcion de senal de audio mediante la conduccion de un primer desvanecimiento a un espectro de tipo ruido. La segunda unidad de reconstruccion 141, por ejemplo, puede ser configurada para reconstruir la cuarta porcion de senal de audio mediante la conduccion de un segundo desvanecimiento a un
espectro de tipo ruido y/o un segundo desvanecimiento de una ganancia de LTP. Aun mas, la primera unidad de reconstruction 140 y la segunda unidad de reconstruction 141, por ejemplo, pueden ser configuradas para conducir el primer desvanecimiento y el segundo desvanecimiento a un espectro de tipo ruido y/o un segundo desvanecimiento de una ganancia de LTP con la misma velocidad de desvanecimiento.
5
[0361] Ahora, se considera la forma espectral adaptativa de ruido de confort.
[0362] A fin de lograr la formation adaptativa al ruido de confort durante la perdida de paquetes de rafaga, como una primera etapa, puede realizarse el hallazgo de coeficientes apropiados de LPC que representan el ruido
10 de fondo. Estos coeficientes de LPC pueden derivarse durante la voz activa usando un enfoque de estadlstica minima para hallar el espectro de ruido de fondo, y luego, el calculo de los coeficientes de LPC a partir de este, usando un algoritmo arbitrario para la derivation de LPC conocido de la bibliografla. Algunas realizaciones, por ejemplo, pueden convertir directamente el espectro de ruido de fondo en una representation que puede usarse directamente para FDNS en el dominio de la MDCT.
15
[0363] El desvanecimiento a ruido de confort puede realizarse en el dominio de ISF (tambien aplicable en el dominio de LSF; LSF: Frecuencia Espectral Lineal):
factual [i] — 0 ' fultimo [i] + (1 — a) ' ptmedia [i] i — 0... 16 (26)
20
estableciendo ptmedia en coeficientes de LP apropiados que describen el ruido de confort.
[0364] Con respecto a la forma espectral adaptativa anteriormente descrita del ruido de confort, se ilustra una realization mas general por la Fig. 11.
25
[0365] La Fig. 11 ilustra un aparato para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida segun una realizacion.
[0366] El aparato comprende una interfaz receptora 1110 para la reception de una o mas tramas, un 30 generador de coeficientes 1120 y un reconstructor de senal 1130.
[0367] El generador de coeficientes 1120 esta configurado para determinar, si una trama actual de una o mas tramas es recibida por la interfaz receptora 1110, y si la trama actual recibida por la interfaz receptora 1110 no pero esta alterada/erronea, uno o mas primeros coeficientes de senal de audio, que estan comprendidos por la trama
35 actual, en el que dichos uno o mas primeros coeficientes de senal de audio indican una caracterlstica de la senal de audio codificada, y uno o mas coeficientes de ruido que indican un ruido de fondo de la senal de audio codificada. Aun mas, el generador de coeficientes 1120 esta configurado para generar uno o mas segundos coeficientes de senal de audio, que dependen de los uno o mas primeros coeficientes de senal de audio y que dependen de los uno o mas coeficientes de ruido, si la trama actual no es recibida por la interfaz receptora 1110 o si la trama actual 40 recibida por la interfaz receptora 1110 pero esta alterada/erronea.
[0368] El reconstructor de senal de audio 1130 esta configurado para la reconstruccion de una primera porcion de la senal de audio reconstruida que depende de los uno o mas primeros coeficientes de senal de audio, si la trama actual es recibida por la interfaz receptora 1110 y si la trama actual recibida por la interfaz receptora 1110
45 no esta alterada. Aun mas, el reconstructor de senal de audio 1130 esta configurado para la reconstruccion de una segunda portion de la senal de audio reconstruida que depende de uno o mas segundos coeficientes de senal de audio, si la trama actual no es recibida por la interfaz receptora 1110 o si la trama actual recibida por la interfaz receptora 1110 esta alterada.
50 [0369] La determination de un ruido de fondo es muy conocida en la tecnica (ver, por ejemplo, [Mar01]:
Rainer Martin, Noise power spectral density estimation based on optimal smoothing and minimum statistics, IEEE Transactions on Speech and Audio Processing 9 (2001), no. 5, 504 -512), y en una realizacion, el aparato procede consecuentemente.
55 [0370] En algunas realizaciones, el uno o mas primeros coeficientes de senal de audio, por ejemplo, pueden
ser uno o mas coeficientes de filtro predictivo lineal de la senal de audio codificada. En algunas realizaciones, el uno o mas primeros coeficientes de senal de audio, por ejemplo, pueden ser uno o mas coeficientes de filtro predictivo lineal de la senal de audio codificada.
[0371] Se conoce bien en la tecnica la manera de reconstruir una senal de audio, por ejemplo, una senal de la voz, a partir de coeficientes de filtro predictivo lineal o de pares espectrales de impedancia y admitancia (vease, por ejemplo, [3GP09c]: Speech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; transcoding functions, 3GPP TS 26.190, 3rd Generation Partnership Project, 2009), y en una realizacion, el
5 reconstructor de senal procede consecuentemente.
[0372] Segun una realizacion, el uno o mas coeficientes de ruido, por ejemplo, pueden ser uno o mas coeficientes de filtro predictivo lineal que indican el ruido de fondo de la senal de audio codificada. En una realizacion, el uno o mas coeficientes de filtro predictivo lineal, por ejemplo, pueden representar una forma espectral del ruido de fondo.
10
[0373] En una realizacion, el generador de coeficientes 1120, por ejemplo, puede estar configurado para determinar una o mas segundas porciones de senal de audio de manera que una o mas segundas porciones de senal de audio sean uno o mas coeficientes de filtro predictivo lineal de la senal de audio reconstruida, o de manera que uno o mas primeros coeficientes de senal de audio sean uno o mas pares espectrales de impedancia y
15 admitancia de la senal de audio reconstruida.
[0374] Segun una realizacion, el generador de coeficientes 1120, por ejemplo, puede estar configurado para generar el uno o mas segundos coeficientes de senal de audio mediante la aplicacion de la formula:
20
factual [i] _ a ' fultimo [i] + (1 — a) ' ptmedia [i]
en la que factual[/] indica uno de los uno o mas segundos coeficientes de senal de audio, en la que fuitimo[i] indica uno de los uno o mas primeros coeficientes de senal de audio, en la que ptmedia [/] es uno de uno o mas coeficientes de ruido, en la que a es un numero real con 0 < a < 1, y en la que i es un Indice.
25
[0375] Segun una realizacion, fuitimo [i] indica un coeficiente de filtro predictivo lineal de la senal de audio codificada, y en la que factual [/] indica un coeficiente de filtro predictivo lineal de la senal de audio reconstruida.
[0376] En una realizacion, ptmedia [/], por ejemplo, puede ser un coeficiente de filtro predictivo lineal que indica 30 el ruido de fondo de la senal de audio codificada.
[0377] Segun una realizacion, el generador de coeficientes 1120, por ejemplo, puede ser configurado para generar coeficientes de senal de audio de por lo menos 10 segundos como el uno o mas segundos coeficientes de senal de audio.
35
[0378] En una realizacion, el generador de coeficientes 1120, por ejemplo, puede estar configurado para determinar, si la trama actual de una o mas tramas es recibida por la interfaz receptora 1110 y si la trama actual recibida por la interfaz receptora 1110 no esta alterada, el uno o mas coeficientes de ruido mediante la determinacion de un espectro de ruido de la senal de audio codificada.
40
[0379] A continuacion, se considera el desvanecimiento del espectro de MDCT a ruido blanco antes de la aplicacion de FDNS.
[0380] En lugar de modificar aleatoriamente el signo de un bin de MDCT (mezcla de signos), se llena el 45 espectro completo con ruido blanco, que se le da forma usando FDNS. Para evitar un cambio instantaneo en las
caracterlsticas del espectro, se aplica una mezcla gradual entre la mezcla de signos y el relleno de ruido. La mezcla gradual puede realizarse de la siguiente manera:
for (i=0; i<L_frame; i++) { if (old_x[i] != 0) {
x[i] = (1 - cum_damping)*noise[i] + cum_damping * random_sign() * x_old[i];
}
}
donde:
cum_damping es el factor de atenuacion (absoluto) - disminuye de trama a trama, empezando de 1 y
disminuyendo hacia 0;
old_x es el espectro de la ultima trama recibida;
5 random_sign devuelve 1 o -1
ruido contiene un vector aleatorio (ruido blanco) que se somete a escala de manera tal que su media cuadratica (RMS) sea similar al ultimo espectro bueno.
[0381] El termino random_sign( )*old_x[i] caracteriza el proceso de mezcla de signos con el fin de aleatorizar 10 las fases y de ese modo evitar repeticiones de armonicos.
[0382] A continuacion, podrla efectuarse otra normalizacion del nivel de energla despues de la mezcla gradual, con el fin de garantizar que la energla de la operacion de suma no se desvle debido a la correlacion de los dos vectores.
15
[0383] Segun realizaciones, la primera unidad de reconstruccion 140, por ejemplo, puede ser configurada para reconstruir la tercera porcion de senal de audio dependiendo de la informacion de nivel de ruido y que depende de la primera porcion de senal de audio. En una realizacion particular, la primera unidad de reconstruccion 140, por ejemplo, puede ser configurada para reconstruir la tercera porcion de senal de audio mediante la atenuacion o
20 amplificacion de la primera porcion de senal de audio.
[0384] En algunas realizaciones, la segunda unidad de reconstruccion 141, por ejemplo, puede ser configurada para reconstruir la cuarta porcion de senal de audio dependiendo de la informacion de nivel de ruido y que depende de la segunda porcion de senal de audio. En una realizacion particular, la segunda unidad de
25 reconstruccion 141, por ejemplo, puede ser configurada para reconstruir la cuarta porcion de senal de audio mediante la atenuacion o amplificacion de la segunda porcion de senal de audio.
[0385] Con respecto al desvanecimiento anteriormente descrito del espectro de MDCT a ruido blanco antes de la aplicacion de FDNS, una realizacion mas general es ilustrada por la Fig. 12.
30
[0386] La Fig. 12 ilustra un aparato para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida segun una realizacion.
[0387] El aparato comprende una interfaz receptora 1210 para la recepcion de una o mas tramas que 35 comprenden informacion sobre una pluralidad de muestras de senal de audio de un espectro de senales de audio de
la senal de audio codificada, y un procesador 1220 para la generacion de la senal de audio reconstruida.
[0388] El procesador 1220 esta configurado para generar la senal de audio reconstruida mediante el desvanecimiento de un espectro modificado a un espectro objetivo, si una trama actual no es recibida por la interfaz
40 receptora 1210 o si la trama actual es recibida por la interfaz receptora 1210 pero esta alterada, en el que el espectro modificado comprende una pluralidad de muestras de senales modificadas, en el que, para cada una de las muestras de senales modificadas del espectro modificado, un valor absoluto de dicha muestra de senal modificada es igual a un valor absoluto de una de las muestras de senal de audio del espectro de senales de audio.
45 [0389] Aun mas, el procesador 1220 esta configurado para no realizar el desvanecimiento del espectro
modificado al espectro objetivo, si la trama actual de una o mas tramas es recibida por la interfaz receptora 1210 y si la trama actual recibida por la interfaz receptora 1210 no esta alterada.
50
[0390] Segun una realizacion, el espectro objetivo es un espectro de tipo ruido.
[0391] En una realizacion, el espectro de tipo ruido representa ruido blanco.
[0392] Segun una realizacion, el espectro de tipo ruido es con forma.
[0393] En una realizacion, la forma del espectro de tipo ruido depende de un espectro de senales de audio de una senal previamente recibida.
[0394] Segun una realizacion, el espectro de tipo ruido es con forma dependiendo de la forma del espectro de senales de audio.
[0395] En una realizacion, el procesador 1220 emplea un factor de inclinacion para dar forma al espectro de
tipo ruido.
5
10
15
20
25
[0396] Segun una realizacion, el procesador 1220 emplea la formula
ruido_conforma[i] = ruido * potencia(factor_inclinacion,i/N)
en la que N indica el numero de muestras, en la que i es un Indice, en la que 0<= i < N, con factor_inclinacion > 0, en la que potencia es una funcion de potencia.
[0397] Si el factor_inclinacion es menor que 1, esto significa la atenuacion con i creciente. Si el factor_inclinacion es mayor que 1, esto significa la amplification con i creciente.
[0398] Segun otra realizacion, el procesador 1220 puede emplear la formula
ruido_conforma [i] = ruido * (1 + i / (N-1) * (factor_inclinacion-1)) en la que N indica el numero de muestras, en la que i es un Indice,
en la que 0<= i < N,
con factor_inclinacion > 0.
30
[0399] Segun una realizacion, el procesador 1220 esta configurado para generar el espectro modificado, mediante el cambio de un signo de una o mas de las muestras de serial de audio del espectro de senales de audio, si la trama actual no es recibida por la interfaz receptora 1210 o si la trama actual recibida por la interfaz receptora 1210 esta alterada.
35
[0400] En una realizacion, cada una de las muestras de senal de audio del espectro de senales de audio esta representada por un numero real, pero no por un numero imaginario.
[0401] Segun una realizacion, las muestras de senal de audio del espectro de senales de audio estan 40 representadas en un dominio de transformada de coseno discreta modificada.
[0402] En otra realizacion, las muestras de senal de audio del espectro de senales de audio estan representadas en un dominio de transformada de seno discreta modificada.
45 [0403] Segun una realizacion, el procesador 1220 esta configurado para generar el espectro modificado
mediante el empleo de una funcion de signos aleatorios que, en forma aleatoria, o pseudoaleatoria, da salida o bien a un primer o un segundo valor.
[0404] En una realizacion, el procesador 1220 esta configurado para desvanecer el espectro modificado al
50 espectro objetivo mediante la disminucion posterior de un factor de atenuacion.
[0405] Segun una realizacion, el procesador 1220 esta configurado para desvanecer el espectro modificado
al espectro objetivo mediante el incremento posterior de un factor de atenuacion.
55 [0406] En una realizacion, si la trama actual no es recibida por la interfaz receptora 1210 o si la trama actual
recibida por la interfaz receptora 1210 esta alterada, el procesador 1220 esta configurado para generar la senal de audio reconstruida mediante el empleo de la formula:
x[i] = (1-cum_damping) * ruido [i] + cum_damping * random_sign( ) * old_x [i]
en la que i es un Indice, en la que x[i] indica una muestra de la senal de audio reconstruida, en la que cum_damping es un factor de atenuacion, en la que old_x[i] indica una de las muestras de senal de audio del espectro de senales de audio de la senal de audio codificada, en la que random_sign( ) devuelve a 1 o -1, y en la que el ruido es un 5 vector aleatorio que indica el espectro objetivo.
[0407] Algunas realizaciones continuan una operacion de LTP de TCX. En dichas realizaciones, la operacion
de LTP de TCX es continuada durante el ocultamiento con los parametros de la LTP (retraso de LTP y ganancia de LTP) derivados de la ultima buena trama.
10 [0408] Las operaciones de LTP pueden resumirse como:
- Alimentar el bufer de retardo de LTP basandose en la salida previamente derivada.
- Basandose en el retraso de LTP: seleccionar la porcion de senal apropiada, del bufer de retardo de LTP que se 15 usa como contribucion de LTP para dar forma a la senal actual.
- Reescalar esta contribucion de LTP usando la ganancia de LTP.
- Sumar esta contribucion reescalada de LTP a la entrada de senal de LTP con el fin de generar la senal de 20 salida de LTP.
[0409] Podrlan considerarse diferentes enfoques con respecto al tiempo, cuando se realiza la actualization
del bufer de retardo de LTP:
25 Como la primera operacion de LTP en trama n usando la salida de la ultima trama n-1. Esto actualiza el bufer de retardo de LTP en trama n que va a usarse durante el procesamiento de LTP en trama n.
Como la ultima operacion de LTP en trama n usando la salida de la trama actual n. Esto actualiza el bufer de retardo de LTP en trama n que va a usarse durante el procesamiento de LTP en trama n+1.
30 [0410] A continuation, se considera el desacoplado del circuito de retroalimentacion de la LTP de TCX.
[0411] El desacoplado del circuito de retroalimentacion de la LTP de TCX evita la introduction de ruido adicional (resultante de la sustitucion de ruido aplicado a la senal de entrada de LPT) durante cada circuito de retroalimentacion del decodificador de LTP cuando se encuentra en modo de ocultamiento.
35
[0412] La Fig. 10 ilustra este desacoplado. En particular, la Fig. 10 representa el desacoplado del circuito de retroalimentacion de la LTP durante el ocultamiento (bfi=1).
[0413] La Fig. 10 ilustra un bufer de retardo 1020, un selector de muestras 1030, y un procesador de 40 muestras 1040 (el procesador de muestras 1040 es indicado por la llnea de puntos).
[0414] Hacia el tiempo, cuando se realiza la actualizacion del bufer de retardo de la LTP 1020, algunas realizaciones proceden de la siguiente manera:
45 - Para la operacion normal: Para actualizar el bufer de retardo de LTP 1020, podrla preferirse como la primera operacion de LTP, ya que la senal de salida sumada habitualmente es almacenada en forma persistente. Con este enfoque, puede omitirse un bufer dedicado.
- Para la operacion desacoplada: Para actualizar el bufer de retardo de LTP, podrla preferirse como la ultima 50 operacion de LTP, ya que la contribucion de LTP a la senal habitualmente solo es almacenada en forma
temporaria. Con este enfoque, se preserva la senal de contribucion de LTP transitoriamente. La implementation de esta manera de este bufer de contribucion de LTP podrla hacerse persistente.
[0415] Asumiendo que se usa este ultimo enfoque en cualquier caso (operacion normal y ocultamiento), las 55 realizaciones, por ejemplo, pueden implementar lo siguiente:
- Durante la operacion normal: Se usa la salida de senal de dominio de tiempo del decodificador de LTP despues de su adicion a la senal de entrada de la LTP para alimentar el bufer de retardo de LTP.
- Durante el ocultamiento: Se usa la salida de senal de dominio de tiempo del decodificador de LTP antes de su adicion a la senal de entrada de LTP para alimentar el bufer de retardo de LTP.
[0416] Algunas realizaciones desvanecen la ganancia de la LTP de TCX hacia cero. En dicha realizacion, la 5 ganancia de la LTP de TCX, por ejemplo, puede ser desvanecida hacia cero con un cierto factor de desvanecimiento
adaptativo de senal. Esto, por ejemplo, puede ser realizado iterativamente, por ejemplo, segun el siguiente pseudocodigo:
ganancia = ganancia_pasada * amortiguamiento;
10
[..]
ganancia_pasada = ganancia;
15 donde:
ganancia es la ganancia del decodificador de LTP de TCX aplicad en la trama actual; ganancia_pasada es la ganancia del decodificador de LTP de TCX aplicada en la trama previa;
20
amortiguamiento es el factor de desvanecimiento (relativo).
[0417] La Fig. 1d ilustra un aparato segun una realizacion adicional, en el que el aparato adicionalmente comprende una unidad de prediccion de largo plazo 170 que comprende un bufer de retardo 180. La unidad de
25 prediccion de largo plazo 170 esta configurada para generar una senal procesada que depende de la segunda porcion de senal de audio, que depende de una entrada de bufer de retardo que esta almacenada en el bufer de retardo 180 y que depende de una ganancia de prediccion de largo plazo. Aun mas, la unidad de prediccion de largo plazo esta configurada para desvanecer la ganancia de prediccion de largo plazo hacia cero, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha tercera trama es recibida por la 30 interfaz receptora 110 pero esta alterada.
[0418] En otras realizaciones (no mostradas), la unidad de prediccion de largo plazo, por ejemplo, puede ser
configurada para generar una senal procesada que depende de la primera porcion de senal de audio, que depende de una entrada de bufer de retardo que esta almacenada en el bufer de retardo y que depende de una ganancia de
35 prediccion de largo plazo.
[0419] En la Fig. 1d, la primera unidad de reconstruccion 140, por ejemplo, puede generar la tercera porcion de senal de audio adicionalmente que depende de la senal procesada.
40 [0420] En una realizacion, la unidad de prediccion de largo plazo 170, por ejemplo, puede ser configurada
para desvanecer la ganancia de prediccion de largo plazo hacia cero, en la que una velocidad con la que la ganancia de prediccion de largo plazo es desvanecida a cero depende de un factor de desvanecimiento.
[0421] De manera alternativa o adicional, la unidad de prediccion de largo plazo 170, por ejemplo, puede ser 45 configurada para actualizar la entrada del bufer de retardo 180 mediante el almacenamiento de la senal procesada
generada en el bufer de retardo 180 si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora 110 o si dicha tercera trama es recibida por la interfaz receptora 110 pero esta alterada.
[0422] Con respecto al uso anteriormente descrito de la LTP de TCX, una realizacion mas general se ilustra 50 por la Fig. 13.
[0423] La Fig. 13 ilustra un aparato para la decodificacion de una senal de audio codificada para obtener una senal de audio reconstruida.
55 [0424] El aparato comprende una interfaz receptora 1310 para la recepcion de una pluralidad de tramas, un
bufer de retardo 1320 para el almacenamiento de muestras de senal de audio de la senal de audio codificada, un selector de muestras 1330 para la seleccion de una pluralidad de muestras de senal de audio seleccionadas de las muestras de senal de audio almacenadas en el bufer de retardo 1320, y un procesador de muestras 1340 para el procesamiento de las muestras de senal de audio seleccionadas para obtener muestras de la senal de audio
reconstruida de la senal de audio reconstruida.
[0425] El selector de muestras 1330 esta configurado para seleccionar, si una trama actual es recibida por la interfaz receptora 1310 y si la trama actual recibida por la interfaz receptora 1310 no esta alterada, la pluralidad de
5 muestras de senal de audio seleccionadas de las muestras de senal de audio almacenadas en el bufer de retardo 1320 que depende de una informacion de retraso de altura comprendida por la trama actual. Aun mas, el selector de muestras 1330 esta configurado para seleccionar, si la trama actual no es recibida por la interfaz receptora 1310 o si la trama actual recibida por la interfaz receptora 1310 esta alterada, la pluralidad de muestras de senal de audio seleccionadas de las muestras de senal de audio almacenadas en el bufer de retardo 1320 que depende de una 10 informacion de retraso de altura compuesta por otra trama recibida previamente por la interfaz receptora 1310.
[0426] Segun una realizacion, el procesador de muestras 1340, por ejemplo, puede ser configurado para obtener las muestras de senal de audio reconstruida, si la trama actual es recibida por la interfaz receptora 1310 y si la trama actual recibida por la interfaz receptora 1310 no esta alterada, mediante la reescala de las muestras de
15 senal de audio seleccionadas dependiendo de la informacion de ganancia comprendida por la trama actual. Aun mas, el selector de muestras 1330, por ejemplo, puede ser configurado para obtener las muestras de senal de audio reconstruida, si la trama actual no es recibida por la interfaz receptora 1310 o si la trama actual recibida por la interfaz receptora 1310 esta alterada, mediante la reescala de las muestras de senal de audio seleccionadas dependiendo de la informacion de ganancia comprendida por dicha otra trama recibida previamente por la interfaz 20 receptora 1310.
[0427] En una realizacion, el procesador de muestras 1340, por ejemplo, puede ser configurado para obtener las muestras de senal de audio reconstruida, si la trama actual es recibida por la interfaz receptora 1310 y si la trama actual recibida por la interfaz receptora 1310 no esta alterada, multiplicando las muestras de senal de audio
25 seleccionadas y un valor dependiendo de la informacion de ganancia comprendida por la trama actual. Aun mas, el selector de muestras 1330 esta configurado para obtener las muestras de senal de audio reconstruida, si la trama actual no es recibida por la interfaz receptora 1310 o si la trama actual recibida por la interfaz receptora 1310 esta alterada, multiplicando las muestras de senal de audio seleccionadas y un valor dependiendo de la informacion de ganancia comprendida por dicha otra trama recibida previamente por la interfaz receptora 1310.
30
[0428] Segun una realizacion, el procesador de muestras 1340, por ejemplo, puede ser configurado para almacenar las muestras de senal de audio reconstruida en el bufer de retardo 1320.
[0429] En una realizacion, el procesador de muestras 1340, por ejemplo, puede ser configurado para 35 almacenar las muestras de senal de audio reconstruida en el bufer de retardo 1320 antes de que otra trama sea
recibida por la interfaz receptora 1310.
[0430] Segun una realizacion, el procesador de muestras 1340, por ejemplo, puede ser configurado para almacenar las muestras de senal de audio reconstruida en el bufer de retardo 1320 despues de que otra trama sea
40 recibida por la interfaz receptora 1310.
[0431] En una realizacion, el procesador de muestras 1340, por ejemplo, puede ser configurado para reescalar las muestras de senal de audio seleccionadas dependiendo de la informacion de ganancia para obtener muestras de senal de audio reescaladas y mediante la combinacion de las muestras de senal de audio reescaladas
45 con muestras de senal de audio de entrada para obtener las muestras de senal de audio procesadas.
[0432] Segun una realizacion, el procesador de muestras 1340, por ejemplo, puede ser configurado para almacenar las muestras de senal de audio procesadas, que indican la combinacion de las muestras de senal de audio reescaladas y las muestras de senal de audio de entrada, en el bufer de retardo 1320, y para no almacenar las
50 muestras de senal de audio reescaladas en el bufer de retardo 1320, si la trama actual es recibida por la interfaz receptora 1310 y si la trama actual recibida por la interfaz receptora 1310 no esta alterada. Aun mas, el procesador de muestras 1340 esta configurado para almacenar las muestras de senal de audio reescaladas en el bufer de retardo 1320 y para no almacenar las muestras de senal de audio procesadas en el bufer de retardo 1320, si la trama actual no es recibida por la interfaz receptora 1310 o si la trama actual recibida por la interfaz receptora 1310 55 esta alterada.
[0433] Segun otra realizacion, el procesador de muestras 1340, por ejemplo, puede ser configurado para almacenar las muestras de senal de audio procesadas en el bufer de retardo 1320, si la trama actual no es recibida por la interfaz receptora 1310 o si la trama actual recibida por la interfaz receptora 1310 esta alterada.
5
[0434] En una realization, el selector de muestras 1330, por ejemplo, puede ser configurado para obtener las
muestras de senal de audio reconstruida mediante la reescala de las muestras de senal de audio seleccionadas dependiendo de una ganancia modificada, en la que la ganancia modificada se define segun la formula:
ganancia = ganancia_pasada * amortiguamiento;
en la que ganancia es la ganancia modificada, en la que el selector de muestras 1330, por ejemplo, puede ser configurado para establecer ganancia_pasada en la ganancia despues de la ganancia, y se ha calculado, y donde el 10 amortiguamiento es un numero real.
[0435] Segun una realization, el selector de muestras 1330, por ejemplo, puede ser configurado para calcular
la ganancia modificada.
15 [0436] En una realization, el amortiguamiento, por ejemplo, puede ser definido segun: 0 < amortiguamiento <
1.
[0437] Segun una realization, la ganancia de ganancia modificada, por ejemplo, puede ser establecida a
cero, si por lo menos un numero predefinido de tramas no ha sido recibido por la interfaz receptora 1310, desde que 20 una ultima trama ha sido recibida por la interfaz receptora 1310.
[0438] A continuation, se considera la velocidad de desvanecimiento. Existen varios modulos de
ocultamiento que se aplican a una cierta clase de desvanecimiento. Si bien la velocidad de este desvanecimiento podrla ser seleccionada de manera diferente a traves de estos modulos, es beneficioso usar la misma velocidad de 25 desvanecimiento para todos los modulos de ocultamiento para un nucleo (ACELP o TCX). Por ejemplo:
Para ACELP, debe usarse la misma velocidad de desvanecimiento, en particular, para el libro de codigo adaptativo (alterando la ganancia), y/o para la senal de libro de codigo innovadora (alterando la ganancia).
30 [0439] Ademas, para TCX, debe usarse la misma velocidad de desvanecimiento, en particular, para la senal
de dominio de tiempo, y/o para la ganancia de la LTP (disminuida a cero), y/o para la ponderacion de LPC (disminuida a uno), y/o para los coeficientes de LP (disminuidos a forma espectral de fondo), y/o para la mezcla gradual a ruido blanco.
35 [0440] Adicionalmente, podrla ser preferible ademas usar la misma velocidad de desvanecimiento para
ACELP y TCX, si bien, debido a la diferente naturaleza de los nucleos, podrla tambien seleccionarse el uso de diferentes velocidades de desvanecimiento.
[0441] Esta velocidad de desvanecimiento podrla ser estatica, pero preferentemente es adaptativa a las 40 caracterlsticas de la senal. Por ejemplo, la velocidad de desvanecimiento, por ejemplo, puede depender del factor de
estabilidad de LPC (TCX) y/o de una clasificacion, y/o de un numero de tramas consecutivamente perdidas.
[0442] La velocidad de desvanecimiento, por ejemplo, puede ser determinada dependiendo del factor de atenuacion, que podrla ser proporcionado en forma absoluta o relativa, y que podrla ademas cambiar en funcion del
45 tiempo durante un cierto desvanecimiento.
[0443] En realizaciones, se usa la misma velocidad de desvanecimiento para el desvanecimiento de la ganancia de LTP que para el desvanecimiento de ruido blanco.
50 [0444] Se han proporcionado un aparato, metodo y programa informatico para la generation de una senal de
ruido de confort como se describe anteriormente.
[0445] Si bien algunos aspectos se han descripto en el contexto de un aparato, es claro que estos aspectos ademas representan una description del metodo correspondiente, donde un bloque o dispositivo se corresponde
55 con una etapa de metodo o una caracterlstica de una etapa de metodo. Analogamente, los aspectos descritos en el contexto de una etapa de metodo ademas representan una description de un bloque o artlculo correspondiente o caracterlstica de un aparato correspondiente.
[0446] La senal descompuesta inventiva puede ser almacenada en un medio de almacenamiento digital, o
puede ser transmitida en un medio de transmision tal como un medio de transmision inalambrico o un medio de transmision alambrico tal como internet.
[0447] Dependiendo de ciertos requisitos de implementation, las realizaciones de la invention pueden ser
5 implementadas en hardware o software. La implementacion puede realizarse usando un medio de almacenamiento digital, por ejemplo, un disquete, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene senales de control electronicamente legibles all! almacenadas, que cooperan (o son capaces de cooperar) con un sistema de ordenador programable, de manera que se lleve a cabo el metodo respectivo.
10 [0448] Algunas realizaciones segun la invencion comprenden un portador de datos no transitorio que tiene
senales de control electronicamente legibles, que son capaces de cooperar con un sistema de ordenador programable, de manera que se lleve a cabo uno de los metodos que se describen en la presente solicitud.
[0449] En general, las realizaciones de la presente invencion pueden ser implementadas como un producto 15 de programa informatico con un codigo de programa, siendo el codigo de programa operativo para realizar uno de
los metodos cuando el producto de programa informatico se ejecuta en un ordenador. El codigo de programa puede ser almacenado, por ejemplo, en un portador legible en una maquina.
[0450] Otras realizaciones comprenden el programa informatico para realizar uno de los metodos descritos 20 en el presente documento, almacenado en un portador legible en una maquina.
[0451] En otras palabras, una realization del metodo inventivo, por lo tanto, es un programa informatico que tiene un codigo de programa para la realizacion de uno de los metodos descritos en el presente documento, cuando el programa informatico se ejecuta en un ordenador.
25
[0452] Una realizacion adicional de los metodos inventivo es, por lo tanto, un portador de datos (o un medio de almacenamiento digital, o un medio legible por computadora) que comprende, all! grabado, el programa informatico para realizar uno de los metodos descritos en el presente documento.
30 [0453] Una realizacion adicional del metodo inventivo es, por lo tanto, una corriente de datos o una secuencia
de senales que representa el programa informatico para realizar uno de los metodos descritos en el presente documento. La corriente de datos o la secuencia de senales, por ejemplo, puede estar configurada para ser transferida por medio de una conexion de comunicacion de datos, por ejemplo, por medio de internet.
35 [0454] Una realizacion adicional comprende un medio de procesamiento, por ejemplo, un ordenador, o un
dispositivo logico programable, configurado o adaptado para realizar uno de los metodos descritos en el presente documento.
[0455] Una realizacion adicional comprende un ordenador que tiene all! instalado el programa informatico 40 para realizar uno de los metodos descritos en el presente documento.
[0456] En algunas realizaciones, puede usarse un dispositivo logico programable (por ejemplo, una matriz de puertas programables de campo) para realizar algunas o la totalidad de las funcionalidades de los metodos descritos en el presente documento. En algunas realizaciones, la matriz de puertas programables de campo puede cooperar
45 con un microprocesador con el fin de realizar uno de los metodos descritos en el presente documento. En general, los metodos se realizan, preferentemente, por cualquier aparato de hardware.
[0457] Las realizaciones anteriormente descritas son simplemente ilustrativas de los principios de la presente invencion. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en el
50 presente documento seran evidentes para otros expertos en la tecnica. Por lo tanto, se tiene la intention de limitarse solo por el alcance de las reivindicaciones de patente inminentes, y no por los detalles especlficos presentados a modo de description y explication de las realizaciones en el presente documento.
Referencias
55
[0458]
[3GP09a] 3GPP; Technical Specification Group Services and System Aspects, Extended adaptive multi-rate - wideband (AMR-WB+) codec, 3GPP TS 26.290, 3rd Generation Partnership Project, 2009.
[3GP09b]
Extended adaptive multi-rate - wideband (AMR-WB+) codec; floating-point ANSI-C code, 3GPP TS 26.304, 3rd Generation Partnership Project, 2009.
[3GP09c] 5
Speech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; transcoding functions, 3GPP TS 26.190, 3rd Generation Partnership Project, 2009.
[3GP12a]
Adaptive multi-rate (AMR) speech codec; error concealment of lost frames (release 11), 3GPP TS 26.091, 3rd Generation Partnership Project, Sep 2012.
10 [3GP12b]
Adaptive multi-rate (AMR) speech codec; transcoding functions (release 11), 3GPP TS 26.090, 3rd Generation Partnership Project, Sep 2012. [3GP12c], ANSI-C code for the adaptive multi-rate - wideband (AMR-WB) speech codec, 3gPP TS 26.173, 3rd Generation Partnership Project, Sep 2012.
[3GP12d] 15
ANSI-C code for the floating-point adaptive multi-rate (AMR) speech codec (release11), 3GPP TS 26.104, 3rd Generation Partnership Project, Sep 2012.
[3GP12e]
General audio codec audio processing functions; Enhanced aacPlus general audio codec; additional decoder tools (release 11), 3GPP TS 26.402, 3rd Generation Partnership Project, Sep 2012.
20 [3GP12f]
Speech codec speech processing functions; adaptive multi-rate - wideband (amr-wb) speech codec; ansi-c code, 3GPP TS 26.204, 3rd Generation Partnership Project, 2012.
[3GP12g]
Speech codec speech processing functions; adaptive multi-rate - wideband (AMR-WB) speech codec; error concealment of erroneous or lost frames, 3GPP TS 26.191, 3rd Generation Partnership Project,
25
Sep 2012.
[BJH06]
I. Batina, J. Jensen, and R. Heusdens, Noise power spectrum estimation for speech enhancement using an autoregressive model for speech power spectrum dynamics, in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. 3 (2006), 1064-1067.
30 [BP06]
A. Borowicz and A. Petrovsky, Minima controlled noise estimation for klt-based speech enhancement, CD-ROM, 2006, Italy, Florence.
[Coh03] 35
I. Cohen, Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging, IEEE Trans. Speech Audio Process. 11 (2003), no. 5, 466-475.
[CPK08]
Choong Sang Cho, Nam In Park, and Hong Kook Kim, A packet loss concealment algorithm robust to burst packet loss for celp- type speech coders, Tech. report, Korea Enectronics Technology Institute, Gwang Institute of Science and Technology, 2008, The 23rd International Technical Conference on
40
Circuits/Systems, Computers and Communications (ITC-CSCC 2008).
[Dob95]
G. Doblinger, Computationally efficient speech enhancement by spectral minima tracking in subbands, in Proc. Eurospeech (1995), 1513-1516.
45 [EBU10]
EBU/ETSI JTC Broadcast, Digital audio broadcasting (DAB); transport of advanced audio coding (AAC) audio, ETSI TS 102 563, European Broadcasting Union, May 2010.
[EBU12]
Digital radio mondiale (DRM); system specification, ETSI ES 201 980, ETSI, Jun 2012.
[EH08] 50
Jan S. Erkelens and Richards Heusdens, Tracking of Nonstationary Noise Based on Data-Driven Recursive Noise Power Estimation, Audio, Speech, and Language Processing, IEEE Transactions on 16 (2008), no. 6, 1112 - 1123.
[EM84]
Y. Ephraim and D. Malah, Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator, IEEE Trans. Acoustics, Speech and Signal Processing 32 (1984), no. 6,
55
1109-1121.
[EM85]
Speech enhancement using a minimum mean-square error log-spectral amplitude estimator, IEEE Trans. Acoustics, Speech and Signal Processing 33 (1985), 443-445.
[Gan05]
S. Gannot, Speech enhancement: Application of the kalman filter in the estimate-maximize (em framework), Springer, 2005.
[HE95] 5
H. G. Hirsch and C. Ehrlicher, Noise estimation techniques for robust speech recognition, Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, no. pp. 153-156, IEEE, 1995.
[HHJ10]
Richard C. Hendriks, Richard Heusdens, and Jesper Jensen, MMSE based noise PSD tracking with low complexity, Acoustics Speech and Signal Processing (ICASSP), 2010 IEEE International Conference on, Mar 2010, pp. 4266 -4269.
10 [HJH08]
Richard C. Hendriks, Jesper Jensen, and Richard Heusdens, Noise tracking using dft domain subspace decompositions, IEEE Trans. Audio, Speech, Lang. Process. 16 (2008), no. 3, 541-553.
[IET12] 15
IETF, Definition of the Opus Audio Codec, Tech. Report RFC 6716, Internet Engineering Task Force, Sep 2012.
[ISO09]
ISO/IEC JTC1/SC29/WG11, Information technology - coding of audio-visual objects - part 3: Audio, ISO/IEC IS 14496-3, International Organization for Standardization, 2009.
20 [ITU03]
ITU-T, Wideband coding of speech at around 16 kbit/s using adaptive multi-rate wideband (amr-wb), Recommendation ITU-T G.722.2, Telecommunication Standardization Sector of ITU, Jul 2003.
[ITU05] 25
Low-complexity coding at 24 and 32 kbit/s for hands-free operation in systems with low frame loss, Recommendation ITU-T G.722.1, Telecommunication Standardization Sector of ITU, May 2005.
[ITU06a]
G.722 Appendix III: A high-complexity algorithm for packet loss concealment for G. 722, ITU-T Recommendation, ITU-T, Nov 2006.
30 [ITU06b]
G.729.1: G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with g.729, Recommendation ITU-T G.729.1, Telecommunication Standardization Sector of ITU, May 2006.
[ITU07] 35
G.722 Appendix IV: A low-complexity algorithm for packet loss concealment with G.722, ITU-T Recommendation, ITU-T, Aug 2007.
[ITU08a]
G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s, Recommendation ITU-T G.718, Telecommunication Standardization Sector of ITU, Jun 2008.
40 [ITU08b]
G.719: Low-complexity, full-band audio coding for high-quality, conversational applications, Recommendation ITU-T G.719, Telecommunication Standardization Sector of ITU, Jun 2008.
[ITU12] 45
G.729: Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (cs-acelp), Recommendation ITU-T G.729, Telecommunication Standardization Sector of ITU, June 2012.
[LS01]
Pierre Lauber and Ralph Sperschneider, Error concealment for compressed digital audio, Audio Engineering Society Convention 111, no. 5460, Sep 2001.
50 [Mar01]
Rainer Martin, Noise power spectral density estimation based on optimal smoothing and minimum statistics, IEEE Transactions on Speech and Audio Processing 9 (2001), no. 5, 504 -512.
[Mar03] 55
Statistical methods for the enhancement of noisy speech, International Workshop on Acoustic Echo and Noise Control (IWAENC2003), Technical University of Braunschweig, Sep 2003.
[MC99]
R. Martin and R. Cox, New speech enhancement techniques for low bit rate speech coding, in Proc. IEEE Workshop on Speech Coding (1999), 165-167.
[MCA99]
5 [MEP01] [MPC89]
10
[NMR+12]
15
[PKJ+11]
20
[QD03]
25
[RL06]
[SFB00]
30
[SS98]
D. Malah, R. V. Cox, and A. J. Accardi, Tracking speech-presence uncertainty to improve speech enhancement in nonstationary noise environments, Proc. IEEE Int. Conf. on Acoustics Speech and Signal Processing (1999), 789-792.
Nikolaus Meine, Bernd Edler, and Heiko Purnhagen, Error protection and concealment for HILN MPEG-4 parametric audio coding, Audio Engineering Society Convention 110, no. 5300, May 2001.
Y. Mahieux, J.-P. Petit, and A. Charbonnier, Transform coding of audio signals using correlation between successive transform blocks, Acoustics, Speech, and Signal Processing, 1989. ICASSP-89., 1989 International Conference on, 1989, pp. 2021-2024 vol.3.
Max Neuendorf, Markus Multrus, Nikolaus Rettelbach, Guillaume Fuchs, Julien Robilliard, Jeremie Lecomte, Stephan Wilde, Stefan Bayer, Sascha Disch, Christian Helmrich, Roch Lefebvre, Philippe Gournay, Bruno Bessette, Jimmy Lapierre, Kristopfer Kjorling, Heiko Purnhagen, Lars Villemoes, Werner Oomen, Erik Schuijers, Kei Kikuiri, Toru Chinen, Takeshi Norimatsu, Chong Kok Seng, Eunmi Oh, Miyoung Kim, Schuyler Quackenbush, and Berndhard Grill, MPEG Unified Speech and Audio Coding - The ISO / MPEG Standard for High-Efficiency Audio Coding of all Content Types, Convention Paper 8654, AES, April 2012, Presented at the 132nd Convention Budapest, Hungary.
Nam In Park, Hong Kook Kim, Min A Jung, Seong Ro Lee, and Seung Ho Choi, Burst packet loss concealment using multiple codebooks and comfort noise for celp-type speech coders in wireless sensor networks, Sensors 11 (2011), 5323-5336.
Schuyler Quackenbush and Peter F. Driessen, Error mitigation in MPEG-4 audio packet communication systems, Audio Engineering Society Convention 115, no. 5981, Oct 2003.
S. Rangachari and P. C. Loizou, A noise-estimation algorithm for highly non-stationary environments, Speech Commun. 48 (2006), 220-231.
V. Stahl, A. Fischer, and R. Bippus, Quantile based noise estimation for spectral subtraction and wiener filtering, in Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. (2000), 1875-1878.
J. Sohn and W. Sung, A voice activity detector employing soft decision based noise spectrum adaptation, Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, no. pp. 365-368, IEEE, 1998.
35 [Yu09] Rongshan Yu, A low-complexity noise estimation algorithm based on smoothing of noise power
estimation and estimation bias correction, Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on, Apr 2009, pp. 4421-4424.

Claims (17)

  1. REIVINDICACIONES
    1. Un aparato para la decodificacion de una senal de audio, que comprende:
    una interfaz receptora (110) para recibir una pluralidad de tramas, en el que la interfaz receptora (110) esta 5 configurada para recibir una primera trama de la pluralidad de tramas, comprendiendo dicha primera trama una primera porcion de senal de audio de la senal de audio, estando dicha primera porcion de senal de audio representada en un primer dominio, y en el que la interfaz receptora (110) esta configurada para recibir una segunda trama de la pluralidad de tramas, comprendiendo dicha segunda trama una segunda porcion de senal de audio de la senal de audio,
    10 una unidad de transformada (120) para transformar la segunda porcion de senal de audio o un valor o senal derivada de la segunda porcion de senal de audio de un segundo dominio a un dominio de rastreo para obtener una informacion de segunda porcion de senal, en el que el segundo dominio es diferente del primer dominio, en el que el dominio de rastreo es diferente del segundo dominio, y en el que el dominio de rastreo es igual o diferente del primer dominio,
    15 una unidad de rastreo de nivel de ruido (130), en el que la unidad de rastreo de nivel de ruido (130) esta configurada para recibir una informacion de primera porcion de senal que es representada en el dominio de rastreo, en la que la informacion de primera porcion de senal depende de la primera porcion de senal de audio, en el que la unidad de rastreo de nivel de ruido (130) esta configurada para recibir la segunda porcion de senal que es representada en el dominio de rastreo, y en el que la unidad de rastreo de nivel de ruido (130) esta configurada para determinar la 20 informacion de nivel de ruido dependiendo de la informacion de primera porcion de senal que es representada en el dominio de rastreo y dependiendo de la informacion de segunda porcion de senal que es representada en el dominio de rastreo, en el que la informacion de nivel de ruido se representa en el dominio de rastreo, y una unidad de reconstruccion (140) para la reconstruction de una tercera porcion de senal de audio de la senal de audio dependiendo de la informacion de nivel de ruido, si una tercera trama de la pluralidad de tramas no es recibida 25 por la interfaz receptora (110) o si dicha tercera trama es recibida por la interfaz receptora (110) pero esta alterada.
  2. 2. Un aparato segun la revindication 1,
    en el que la primera porcion de senal de audio es representada en un dominio de tiempo como el primer dominio, en el que la unidad de transformada (120) esta configurada para transformar la segunda porcion de senal de audio o 30 el valor derivado de la segunda porcion de senal de audio de un dominio de excitation que es el segundo dominio al dominio de tiempo que es el dominio de rastreo,
    en el que la unidad de rastreo de nivel de ruido (130) esta configurada para recibir la informacion de primera porcion de senal que es representada en el dominio de tiempo como el dominio de rastreo, y
    en el que la unidad de rastreo de nivel de ruido (130) esta configurada para recibir la segunda porcion de senal que 35 es representada en el dominio de tiempo como el dominio de rastreo.
  3. 3. Un aparato segun la reivindicacion 1,
    en el que la primera porcion de senal de audio es representada en un dominio de excitacion como el primer dominio, en el que la unidad de transformada (120) esta configurada para transformar la segunda porcion de senal de audio o 40 el valor derivado de la segunda porcion de senal de audio de un dominio de tiempo que es el segundo dominio al dominio de excitacion que es el dominio de rastreo,
    en el que la unidad de rastreo de nivel de ruido (130) esta configurada para recibir la informacion de primera porcion de senal que es representada en el dominio de excitacion como el dominio de rastreo, y
    en el que la unidad de rastreo de nivel de ruido (130) esta configurada para recibir la segunda porcion de senal que 45 es representada en el dominio de excitacion como el dominio de rastreo.
  4. 4. Un aparato segun la reivindicacion 1,
    en el que la primera porcion de senal de audio se representa en un dominio de excitacion como el primer dominio, en el que la unidad de rastreo de nivel de ruido (130) esta configurada para recibir la informacion de primera porcion 50 de senal, en el que dicha informacion de primera porcion de senal se representa en el dominio FFT, que es el dominio de rastreo, y en el que dicha informacion de primera porcion de senal depende de dicha primera porcion de senal de audio que es representada en el dominio de excitacion,
    en el que la unidad de transformada (120) esta configurada para transformar la segunda porcion de senal de audio o el valor derivado de la segunda porcion de senal de audio de un dominio de tiempo que es el segundo dominio a un 55 dominio de FFT que es el dominio de rastreo, y en el que la unidad de rastreo de nivel de ruido (130) esta configurada para recibir la segunda porcion de senal de audio que es representada en el dominio FFT.
  5. 5. Un aparato segun una de las reivindicaciones precedentes,
    en el que el aparato comprende ademas una primera unidad de agregacion (150) para determinar un primer valor
    agregado dependiendo de la primera porcion de senal de audio,
    en el que el aparato comprende ademas una segunda unidad de agregacion (160) para determinar, dependiendo de la segunda porcion de senal de audio, un segundo valor agregado como el valor derivado de la segunda porcion de senal de audio,
    5 en el que la unidad de rastreo de nivel de ruido (130) esta configurada para recibir el primer valor agregado como la information de primera porcion de senal que es representada en el dominio de rastreo, en el que la unidad de rastreo de nivel de ruido (130) esta configurada para recibir el segundo valor agregado como la informacion de segunda porcion de senal que es representada en el dominio de rastreo, y en el que la unidad de rastreo de nivel de ruido (130) esta configurada para determinar la informacion de nivel de ruido dependiendo del primer valor agregado 10 que es representado en el dominio de rastreo y dependiendo del segundo valor agregado que es representado en el dominio de rastreo.
  6. 6. Un aparato segun la reivindicacion 5,
    en el que la primera unidad de agregacion (150) esta configurada para determinar el primer valor agregado de 15 manera que el primer valor agregado indique una media cuadratica de la primera porcion de senal de audio o de una senal derivada de la primera porcion de senal de audio, y
    en el que la segunda unidad de agregacion (160) esta configurada para determinar el segundo valor agregado de manera que el segundo valor agregado indique una media cuadratica de la segunda porcion de senal de audio o de una senal derivada de la segunda porcion de senal de audio.
    20
  7. 7. Un aparato segun una de las reivindicaciones precedentes, en el que la unidad de transformada (120) esta configurada para transformar el valor derivado de la segunda porcion de senal de audio del segundo dominio al dominio de rastreo aplicando un valor de ganancia sobre el valor derivado de la segunda porcion de senal de audio.
    25 8. Un aparato segun la reivindicacion 7,
    en el que el valor de ganancia indica una ganancia introducida por slntesis de codification predictiva lineal, o
    en el que el valor de ganancia indica una ganancia introducida por slntesis de codificacion predictiva lineal y
    desenfasis.
    30 9. Un aparato segun una de las reivindicaciones precedentes, en el que la unidad de rastreo de nivel de
    ruido (130) esta configurada para determinar la informacion de nivel de ruido aplicando un enfoque de estadlstica minima.
  8. 10. Un aparato segun una de las reivindicaciones precedentes,
    35 en el que la unidad de rastreo de nivel de ruido (130) esta configurada para determinar un nivel de ruido de confort como la informacion de nivel de ruido, y
    en el que la unidad de reconstruction (140) esta configurada para la reconstruction de la tercera porcion de senal de audio dependiendo de la informacion de nivel de ruido, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora (110) o si dicha tercera trama es recibida por la interfaz receptora (110) pero esta 40 alterada.
  9. 11. Un aparato segun la reivindicacion 9,
    en el que la unidad de rastreo de nivel de ruido (130) esta configurada para determinar un nivel de ruido de confort como la informacion de nivel de ruido derivada de un espectro de nivel de ruido, en el que dicho espectro de nivel de 45 ruido se obtiene aplicando el enfoque de estadlstica minima, y
    en el que la unidad de reconstruccion (140) esta configurada para la reconstruccion de la tercera porcion de senal de audio que depende de una pluralidad de coeficientes predictivos lineales, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora (110) o si dicha tercera trama es recibida por la interfaz receptora (110) pero esta alterada.
    50
  10. 12. Un aparato segun una de las reivindicaciones 1 a 9,
    en el que la unidad de rastreo de nivel de ruido (130) esta configurada para determinar una pluralidad de coeficientes de FFT que indican un nivel de ruido de confort como la informacion de nivel de ruido, y en el que la primera unidad de reconstruccion (140) esta configurada para la reconstruccion de la tercera porcion de 55 senal de audio dependiendo de un nivel de ruido de confort derivado a partir de dichos coeficientes de FFT, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora (140) o si dicha tercera trama es recibida por la interfaz receptora (110) pero esta alterada.
  11. 13. Un aparato segun una de las reivindicaciones precedentes, en el que la unidad de reconstruccion
    (140) esta configurada para la reconstruccion de la tercera porcion de senal de audio dependiendo de la informacion de nivel de ruido y dependiendo de la primera o la segunda porcion de senal de audio, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora (110) o si dicha tercera trama es recibida por la interfaz receptora (110) pero esta alterada.
    5
  12. 14. Un aparato segun la reivindicacion 13, en el que la unidad de reconstruccion (140) esta configurada
    para la reconstruccion de la tercera porcion de senal de audio mediante la atenuacion o la amplificacion de una senal derivada de la primera porcion de senal de audio o la segunda porcion de senal.
    10 15. Un aparato segun una de las reivindicaciones precedentes,
    en el que el aparato comprende ademas una unidad de prediccion de largo plazo (170) que comprende un bufer de retardo (180),
    en el que la unidad de prediccion de largo plazo (170) esta configurada para generar una senal procesada que depende de la primera o la segunda porcion de senal de audio, de depende de una entrada de bufer de retardo 15 (180) que esta almacenada en el bufer de retardo (180) y que depende de una ganancia de prediccion de largo plazo, y
    en el que la unidad de prediccion de largo plazo (170) esta configurada para desvanecer la ganancia de prediccion de largo plazo hacia cero, si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora (110) o si dicha tercera trama es recibida por la interfaz receptora (110) pero esta alterada.
    20
  13. 16. Un aparato segun la reivindicacion 15, en el que la unidad de prediccion de largo plazo (170) esta
    configurada para desvanecer la ganancia de prediccion de largo plazo hacia cero, en el que una velocidad con la que la ganancia de prediccion de largo plazo se desvanece hacia cero depende de un factor de desvanecimiento.
    25 17. Un aparato segun la reivindicacion 15 o 16, en el que la unidad de prediccion de largo plazo (170) esta
    configurada para actualizar la entrada del bufer de retardo (180) mediante el almacenamiento de la senal procesada generada en el bufer de retardo (180), si dicha tercera trama de la pluralidad de tramas no es recibida por la interfaz receptora (110) o si dicha tercera trama es recibida por la interfaz receptora (110) pero esta alterada.
    30 18. Un aparato segun una de las reivindicaciones precedentes,
    en el que la unidad de transformada (120) es una primera unidad de transformada (120), en el que la unidad de reconstruccion (140) es una primera unidad de reconstruccion (140),
    en el que el aparato comprende ademas una segunda unidad de transformada (121) y una segunda unidad de reconstruccion (141),
    35 en el que la segunda unidad de transformada (121) esta configurada para transformar la informacion de nivel de ruido del dominio de rastreo al segundo dominio, si una cuarta trama de la pluralidad de tramas no es recibida por la interfaz receptora (110) o si dicha cuarta trama es recibida por la interfaz receptora (110) pero esta alterada, y en el que la segunda unidad de reconstruccion (141) esta configurada para la reconstruccion de una cuarta porcion de senal de audio de la senal de audio dependiendo de la informacion de nivel de ruido que es representada en el 40 segundo dominio si dicha cuarta trama de la pluralidad de tramas no es recibida por la interfaz receptora (110) o si dicha cuarta trama es recibida por la interfaz receptora (110) pero esta alterada.
  14. 19. Un aparato segun la reivindicacion 18, en el que la segunda unidad de reconstruccion (141) esta
    configurada para la reconstruccion de la cuarta porcion de senal de audio dependiendo de la informacion de nivel de
    45 ruido y dependiendo de la segunda porcion de senal de audio.
  15. 20. Un aparato segun la reivindicacion 19, en el que la segunda unidad de reconstruccion (141) esta
    configurada para la reconstruccion de la cuarta porcion de senal de audio mediante la atenuacion o la amplificacion de la segunda porcion de senal de audio.
    50
  16. 21. Un metodo para la decodificacion de una senal de audio, que comprende:
    recibir una primera trama de una pluralidad de tramas, comprendiendo dicha primera trama una primera porcion de senal de audio de la senal de audio, estando dicha primera porcion de senal de audio representada en un primer dominio,
    55 recibir una segunda trama de la pluralidad de tramas, comprendiendo dicha segunda trama una segunda porcion de senal de audio de la senal de audio,
    transformar la segunda porcion de senal de audio o un valor o senal derivada de la segunda porcion de senal de audio de un segundo dominio a un dominio de rastreo para obtener una informacion de segunda porcion de senal, en el que el segundo dominio es diferente del primer dominio, en el que el dominio de rastreo es diferente del
    segundo dominio, y
    en el que el dominio de rastreo es igual o diferente del primer dominio,
    determinar la informacion de nivel de ruido dependiendo de la informacion de primera porcion de senal, que es representada en el dominio de rastreo, y dependiendo de la informacion de segunda porcion de senal que es 5 representada en el dominio de rastreo, en el que la informacion de primera porcion de senal depende de la primera porcion de senal de audio,
    reconstruir una tercera porcion de senal de audio de la senal de audio dependiendo de la informacion de nivel de ruido, si una tercera trama de la pluralidad de tramas no es recibida o si dicha tercera trama es recibida pero esta alterada.
    10
  17. 22. Un programa informatico adaptado para implementar el metodo de la reivindicacion 21 cuando se
    ejecuta en un ordenador o procesador de senales.
ES14732193.9T 2013-06-21 2014-06-23 Aparato y método para el desvanecimiento de señales mejorado para sistemas de codificación de audio cambiados durante el ocultamiento de errores Active ES2635027T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13173154 2013-06-21
EP13173154 2013-06-21
EP14166998 2014-05-05
EP14166998 2014-05-05
PCT/EP2014/063171 WO2014202784A1 (en) 2013-06-21 2014-06-23 Apparatus and method for improved signal fade out for switched audio coding systems during error concealment

Publications (1)

Publication Number Publication Date
ES2635027T3 true ES2635027T3 (es) 2017-10-02

Family

ID=50981527

Family Applications (5)

Application Number Title Priority Date Filing Date
ES14732196T Active ES2780696T3 (es) 2013-06-21 2014-06-23 Decodificación de audio con reconstrucción de tramas no recibidas o alteradas mediante el uso de TCX LTP
ES14739070.2T Active ES2635555T3 (es) 2013-06-21 2014-06-23 Aparato y método para el desvanecimiento de señales mejorado en diferentes dominios durante el ocultamiento de errores
ES14732193.9T Active ES2635027T3 (es) 2013-06-21 2014-06-23 Aparato y método para el desvanecimiento de señales mejorado para sistemas de codificación de audio cambiados durante el ocultamiento de errores
ES14732195.4T Active ES2639127T3 (es) 2013-06-21 2014-06-23 Aparato y procedimiento que realiza un desvanecimiento de un espectro MDCT a ruido blanco antes de la aplicación de FDNS
ES14732194.7T Active ES2644693T3 (es) 2013-06-21 2014-06-23 Aparato y método para generar una forma espectral adaptativa de ruido de confort

Family Applications Before (2)

Application Number Title Priority Date Filing Date
ES14732196T Active ES2780696T3 (es) 2013-06-21 2014-06-23 Decodificación de audio con reconstrucción de tramas no recibidas o alteradas mediante el uso de TCX LTP
ES14739070.2T Active ES2635555T3 (es) 2013-06-21 2014-06-23 Aparato y método para el desvanecimiento de señales mejorado en diferentes dominios durante el ocultamiento de errores

Family Applications After (2)

Application Number Title Priority Date Filing Date
ES14732195.4T Active ES2639127T3 (es) 2013-06-21 2014-06-23 Aparato y procedimiento que realiza un desvanecimiento de un espectro MDCT a ruido blanco antes de la aplicación de FDNS
ES14732194.7T Active ES2644693T3 (es) 2013-06-21 2014-06-23 Aparato y método para generar una forma espectral adaptativa de ruido de confort

Country Status (19)

Country Link
US (15) US9978377B2 (es)
EP (5) EP3011561B1 (es)
JP (5) JP6196375B2 (es)
KR (5) KR101790902B1 (es)
CN (9) CN110164459B (es)
AU (5) AU2014283196B2 (es)
BR (5) BR112015031177B1 (es)
CA (5) CA2916150C (es)
ES (5) ES2780696T3 (es)
HK (5) HK1224076A1 (es)
MX (5) MX355257B (es)
MY (5) MY182209A (es)
PL (5) PL3011557T3 (es)
PT (5) PT3011557T (es)
RU (5) RU2665279C2 (es)
SG (5) SG11201510510PA (es)
TW (5) TWI564884B (es)
WO (5) WO2014202790A1 (es)
ZA (1) ZA201600310B (es)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2916150C (en) * 2013-06-21 2019-06-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for tcx ltp
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
US10008214B2 (en) * 2015-09-11 2018-06-26 Electronics And Telecommunications Research Institute USAC audio signal encoding/decoding apparatus and method for digital radio services
MX2018003529A (es) 2015-09-25 2018-08-01 Fraunhofer Ges Forschung Codificador y metodo para codificar una se?al de audio con ruido de fondo reducido que utiliza codificacion predictiva lineal.
ES2874629T3 (es) * 2016-03-07 2021-11-05 Fraunhofer Ges Forschung Unidad de ocultación de error, decodificador de audio y método y programa informático relacionados que desvanecen una trama de audio ocultada según factores de amortiguamiento diferentes para bandas de frecuencia diferentes
MX2018010756A (es) * 2016-03-07 2019-01-14 Fraunhofer Ges Forschung Unidad de ocultamiento de error, decodificador de audio, y método relacionado y programa de computadora que usa características de una representación decodificada de una trama de audio decodificada apropiadamente.
KR102158743B1 (ko) * 2016-03-15 2020-09-22 한국전자통신연구원 자연어 음성인식의 성능향상을 위한 데이터 증강장치 및 방법
TWI602173B (zh) * 2016-10-21 2017-10-11 盛微先進科技股份有限公司 音訊處理方法與非暫時性電腦可讀媒體
CN108074586B (zh) * 2016-11-15 2021-02-12 电信科学技术研究院 一种语音问题的定位方法和装置
US10354667B2 (en) * 2017-03-22 2019-07-16 Immersion Networks, Inc. System and method for processing audio data
CN107123419A (zh) * 2017-05-18 2017-09-01 北京大生在线科技有限公司 Sphinx语速识别中背景降噪的优化方法
CN109427337B (zh) 2017-08-23 2021-03-30 华为技术有限公司 立体声信号编码时重建信号的方法和装置
EP3483884A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483886A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
US10650834B2 (en) 2018-01-10 2020-05-12 Savitech Corp. Audio processing method and non-transitory computer readable medium
EP3553777B1 (en) * 2018-04-09 2022-07-20 Dolby Laboratories Licensing Corporation Low-complexity packet loss concealment for transcoded audio signals
TWI657437B (zh) * 2018-05-25 2019-04-21 英屬開曼群島商睿能創意公司 電動載具以及播放、產生與其相關音頻訊號之方法
CN112384976A (zh) * 2018-07-12 2021-02-19 杜比国际公司 动态eq
CN109117807B (zh) * 2018-08-24 2020-07-21 广东石油化工学院 一种plc通信信号自适应时频峰值滤波方法及系统
US10763885B2 (en) 2018-11-06 2020-09-01 Stmicroelectronics S.R.L. Method of error concealment, and associated device
CN111402905B (zh) * 2018-12-28 2023-05-26 南京中感微电子有限公司 音频数据恢复方法、装置及蓝牙设备
KR102603621B1 (ko) * 2019-01-08 2023-11-16 엘지전자 주식회사 신호 처리 장치 및 이를 구비하는 영상표시장치
WO2020165263A2 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method selecting an error concealment mode, and encoder and encoding method
WO2020164751A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment
CN110265046B (zh) * 2019-07-25 2024-05-17 腾讯科技(深圳)有限公司 一种编码参数调控方法、装置、设备及存储介质
KR102653938B1 (ko) * 2019-12-02 2024-04-03 구글 엘엘씨 끊김없는 오디오 혼합을 위한 방법들, 시스템들 및 매체들
TWI789577B (zh) * 2020-04-01 2023-01-11 同響科技股份有限公司 音訊資料重建方法及系統
CN113747304B (zh) * 2021-08-25 2024-04-26 深圳市爱特康科技有限公司 一种新型的低音回放方法和装置
CN114582361B (zh) * 2022-04-29 2022-07-08 北京百瑞互联技术有限公司 基于生成对抗网络的高解析度音频编解码方法及系统

Family Cites Families (173)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4933973A (en) * 1988-02-29 1990-06-12 Itt Corporation Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
US5097507A (en) 1989-12-22 1992-03-17 General Electric Company Fading bit error protection for digital cellular multi-pulse speech coder
CA2010830C (en) 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
US5148487A (en) * 1990-02-26 1992-09-15 Matsushita Electric Industrial Co., Ltd. Audio subband encoded signal decoder
TW224191B (es) 1992-01-28 1994-05-21 Qualcomm Inc
US5271011A (en) 1992-03-16 1993-12-14 Scientific-Atlanta, Inc. Digital audio data muting system and method
SE501340C2 (sv) 1993-06-11 1995-01-23 Ericsson Telefon Ab L M Döljande av transmissionsfel i en talavkodare
US5615298A (en) 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
JP3328080B2 (ja) * 1994-11-22 2002-09-24 沖電気工業株式会社 コード励振線形予測復号器
KR970011728B1 (ko) 1994-12-21 1997-07-14 김광호 음향신호의 에러은닉방법 및 그 장치
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
SE9500858L (sv) * 1995-03-10 1996-09-11 Ericsson Telefon Ab L M Anordning och förfarande vid talöverföring och ett telekommunikationssystem omfattande dylik anordning
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
JP3522012B2 (ja) 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
JP3157116B2 (ja) * 1996-03-29 2001-04-16 三菱電機株式会社 音声符号化伝送システム
US6075974A (en) * 1996-11-20 2000-06-13 Qualcomm Inc. Method and apparatus for adjusting thresholds and measurements of received signals by anticipating power control commands yet to be executed
JP3649854B2 (ja) * 1997-05-09 2005-05-18 松下電器産業株式会社 音声符号化装置
EP0938781A2 (en) 1997-09-12 1999-09-01 Cellon France SAS Transmission system with improved reconstruction of missing parts
KR100335611B1 (ko) * 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
ATE302991T1 (de) 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
AU3372199A (en) * 1998-03-30 1999-10-18 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US20010014857A1 (en) * 1998-08-14 2001-08-16 Zifei Peter Wang A voice activity detector for packet voice network
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
FR2784218B1 (fr) * 1998-10-06 2000-12-08 Thomson Csf Procede de codage de la parole a bas debit
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6289309B1 (en) 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6661793B1 (en) * 1999-01-19 2003-12-09 Vocaltec Communications Ltd. Method and apparatus for reconstructing media
US6640209B1 (en) 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
US6377915B1 (en) 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
CN1129114C (zh) 1999-03-19 2003-11-26 索尼公司 附加信息嵌入方法和设备,以及附加信息解调方法和设备
US7117156B1 (en) * 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
WO2000063883A1 (en) * 1999-04-19 2000-10-26 At & T Corp. Method and apparatus for performing packet loss or frame erasure concealment
DE19921122C1 (de) 1999-05-07 2001-01-25 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verschleiern eines Fehlers in einem codierten Audiosignal und Verfahren und Vorrichtung zum Decodieren eines codierten Audiosignals
US6284551B1 (en) * 1999-06-14 2001-09-04 Hyundai Electronics Industries Co., Ltd. Capacitor and method for fabricating the same
US6604070B1 (en) 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
FI116643B (fi) 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US6826527B1 (en) * 1999-11-23 2004-11-30 Texas Instruments Incorporated Concealment of frame erasures and method
AU2094201A (en) * 1999-12-13 2001-06-18 Broadcom Corporation Voice gateway with downstream voice synchronization
GB2358558B (en) * 2000-01-18 2003-10-15 Mitel Corp Packet loss compensation method using injection of spectrally shaped noise
US6584438B1 (en) 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
FI115329B (fi) * 2000-05-08 2005-04-15 Nokia Corp Menetelmä ja järjestely lähdesignaalin kaistanleveyden vaihtamiseksi tietoliikenneyhteydessä, jossa on valmiudet useisiin kaistanleveyksiin
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
EP1199709A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Error Concealment in relation to decoding of encoded acoustic signals
US7031926B2 (en) 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
US7171355B1 (en) 2000-10-25 2007-01-30 Broadcom Corporation Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
US7113522B2 (en) 2001-01-24 2006-09-26 Qualcomm, Incorporated Enhanced conversion of wideband signals to narrowband signals
US7069208B2 (en) * 2001-01-24 2006-06-27 Nokia, Corp. System and method for concealment of data loss in digital audio transmission
FR2820227B1 (fr) * 2001-01-30 2003-04-18 France Telecom Procede et dispositif de reduction de bruit
US20040204935A1 (en) 2001-02-21 2004-10-14 Krishnasamy Anandakumar Adaptive voice playout in VOP
US6520762B2 (en) 2001-02-23 2003-02-18 Husky Injection Molding Systems, Ltd Injection unit
EP1235203B1 (en) * 2001-02-27 2009-08-12 Texas Instruments Incorporated Method for concealing erased speech frames and decoder therefor
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7379865B2 (en) 2001-10-26 2008-05-27 At&T Corp. System and methods for concealing errors in data transmission
CN100395817C (zh) * 2001-11-14 2008-06-18 松下电器产业株式会社 编码设备、解码设备和解码方法
CA2365203A1 (en) 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
CN100527225C (zh) * 2002-01-08 2009-08-12 迪里辛姆网络控股有限公司 基于celp的语音代码之间的代码转换方案
US20030162518A1 (en) 2002-02-22 2003-08-28 Baldwin Keith R. Rapid acquisition and tracking system for a wireless packet-based communication device
US7492703B2 (en) 2002-02-28 2009-02-17 Texas Instruments Incorporated Noise analysis in a communication system
JP2005520206A (ja) 2002-03-12 2005-07-07 ディリチウム ネットワークス ピーティーワイ リミテッド オーディオ・トランスコーダにおける適応コードブック・ピッチ・ラグ計算方法
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7174292B2 (en) * 2002-05-20 2007-02-06 Microsoft Corporation Method of determining uncertainty associated with acoustic distortion-based noise reduction
CA2388439A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP2004120619A (ja) * 2002-09-27 2004-04-15 Kddi Corp オーディオ情報復号装置
KR100486732B1 (ko) * 2003-02-19 2005-05-03 삼성전자주식회사 블럭제한된 트렐리스 부호화 양자화방법과 음성부호화시스템에있어서 이를 채용한 라인스펙트럼주파수 계수양자화방법 및 장치
US20040202935A1 (en) * 2003-04-08 2004-10-14 Jeremy Barker Cathode active material with increased alkali/metal content and method of making same
CN100546233C (zh) 2003-04-30 2009-09-30 诺基亚公司 用于支持多声道音频扩展的方法和设备
US7433815B2 (en) 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
US7224810B2 (en) 2003-09-12 2007-05-29 Spatializer Audio Laboratories, Inc. Noise reduction system
JP4497911B2 (ja) 2003-12-16 2010-07-07 キヤノン株式会社 信号検出装置および方法、ならびにプログラム
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
JP4744438B2 (ja) 2004-03-05 2011-08-10 パナソニック株式会社 エラー隠蔽装置およびエラー隠蔽方法
US7620546B2 (en) 2004-03-23 2009-11-17 Qnx Software Systems (Wavemakers), Inc. Isolating speech signals utilizing neural networks
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
US8725501B2 (en) 2004-07-20 2014-05-13 Panasonic Corporation Audio decoding device and compensation frame generation method
ATE476733T1 (de) 2004-09-16 2010-08-15 France Telecom Verfahren zum verarbeiten eines rauschbehafteten tonsignals und einrichtung zur implementierung des verfahrens
SG124307A1 (en) * 2005-01-20 2006-08-30 St Microelectronics Asia Method and system for lost packet concealment in high quality audio streaming applications
KR100612889B1 (ko) 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
US7930176B2 (en) 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
JP2008546012A (ja) 2005-05-27 2008-12-18 オーディエンス,インコーポレイテッド オーディオ信号の分解および修正のためのシステムおよび方法
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
KR100686174B1 (ko) * 2005-05-31 2007-02-26 엘지전자 주식회사 오디오 에러 은닉 방법
JP4536621B2 (ja) * 2005-08-10 2010-09-01 株式会社エヌ・ティ・ティ・ドコモ 復号装置、および復号方法
US7610197B2 (en) 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
CN101268506B (zh) * 2005-09-01 2011-08-03 艾利森电话股份有限公司 处理编码实时数据的设备和方法
US8620644B2 (en) 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
KR100717058B1 (ko) * 2005-11-28 2007-05-14 삼성전자주식회사 고주파 성분 복원 방법 및 그 장치
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US7457746B2 (en) 2006-03-20 2008-11-25 Mindspeed Technologies, Inc. Pitch prediction for packet loss concealment
US8798172B2 (en) * 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
US7610195B2 (en) * 2006-06-01 2009-10-27 Nokia Corporation Decoding of predictively coded data using buffer adaptation
CN1983909B (zh) 2006-06-08 2010-07-28 华为技术有限公司 一种丢帧隐藏装置和方法
WO2008007700A1 (fr) * 2006-07-12 2008-01-17 Panasonic Corporation Dispositif de décodage de son, dispositif de codage de son, et procédé de compensation de trame perdue
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
WO2008022181A2 (en) * 2006-08-15 2008-02-21 Broadcom Corporation Updating of decoder states after packet loss concealment
CN101366079B (zh) * 2006-08-15 2012-02-15 美国博通公司 用于子带预测编码的基于全带音频波形外插的包丢失隐藏
CN101155140A (zh) 2006-10-01 2008-04-02 华为技术有限公司 音频流错误隐藏的方法、装置和系统
US7877253B2 (en) * 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
EP2080194B1 (fr) 2006-10-20 2011-12-07 France Telecom Attenuation du survoisement, notamment pour la generation d'une excitation aupres d'un decodeur, en absence d'information
KR101292771B1 (ko) * 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
CN100578618C (zh) * 2006-12-04 2010-01-06 华为技术有限公司 一种解码方法及装置
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
US8688437B2 (en) * 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
US8275611B2 (en) 2007-01-18 2012-09-25 Stmicroelectronics Asia Pacific Pte., Ltd. Adaptive noise suppression for digital speech signals
KR20080075050A (ko) * 2007-02-10 2008-08-14 삼성전자주식회사 오류 프레임의 파라미터 갱신 방법 및 장치
GB0703275D0 (en) 2007-02-20 2007-03-28 Skype Ltd Method of estimating noise levels in a communication system
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
PL2118889T3 (pl) * 2007-03-05 2013-03-29 Ericsson Telefon Ab L M Sposób i sterownik do wygładzania stacjonarnego szumu tła
DE102007018484B4 (de) * 2007-03-20 2009-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Senden einer Folge von Datenpaketen und Decodierer und Vorrichtung zum Decodieren einer Folge von Datenpaketen
EP1973254B1 (en) * 2007-03-22 2009-07-15 Research In Motion Limited Device and method for improved lost frame concealment
US8014519B2 (en) 2007-04-02 2011-09-06 Microsoft Corporation Cross-correlation based echo canceller controllers
EP2381580A1 (en) 2007-04-13 2011-10-26 Global IP Solutions (GIPS) AB Adaptive, scalable packet loss recovery
JP5023780B2 (ja) * 2007-04-13 2012-09-12 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
US8005023B2 (en) 2007-06-14 2011-08-23 Microsoft Corporation Client-side echo cancellation for multi-party audio conferencing
CN101325537B (zh) * 2007-06-15 2012-04-04 华为技术有限公司 一种丢帧隐藏的方法和设备
US8489396B2 (en) 2007-07-25 2013-07-16 Qnx Software Systems Limited Noise reduction with integrated tonal noise reduction
US20090055171A1 (en) * 2007-08-20 2009-02-26 Broadcom Corporation Buzz reduction for low-complexity frame erasure concealment
US20090154726A1 (en) * 2007-08-22 2009-06-18 Step Labs Inc. System and Method for Noise Activity Detection
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
CN101141644B (zh) * 2007-10-17 2010-12-08 清华大学 编码集成系统和方法与解码集成系统和方法
JP5547081B2 (ja) * 2007-11-02 2014-07-09 華為技術有限公司 音声復号化方法及び装置
CN100585699C (zh) * 2007-11-02 2010-01-27 华为技术有限公司 一种音频解码的方法和装置
CN101430880A (zh) 2007-11-07 2009-05-13 华为技术有限公司 一种背景噪声的编解码方法和装置
DE102008009719A1 (de) 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
AU2009220321B2 (en) * 2008-03-03 2011-09-22 Intellectual Discovery Co., Ltd. Method and apparatus for processing audio signal
FR2929466A1 (fr) 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
EP2120412A1 (en) * 2008-05-14 2009-11-18 SIDSA (Semiconductores Investigación) Y Diseño SA System and transceiver for DSL communications based on single carrier modulation, with efficient vectoring, capacity approaching channel coding structure and preamble insertion for agile channel adaption
US20090312043A1 (en) 2008-06-13 2009-12-17 Silvus Technologies, Inc. Interference mitigation for devices with multiple receivers
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2144171B1 (en) * 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
ES2654433T3 (es) * 2008-07-11 2018-02-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de señal de audio, método para codificar una señal de audio y programa informático
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
MX2011000369A (es) * 2008-07-11 2011-07-29 Ten Forschung Ev Fraunhofer Codificador y decodificador de audio para codificar marcos de señales de audio muestreadas.
PL3002750T3 (pl) * 2008-07-11 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koder i dekoder audio do kodowania i dekodowania próbek audio
ES2592416T3 (es) * 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
WO2010032992A2 (ko) 2008-09-18 2010-03-25 한국전자통신연구원 Mdct기반의 코너와 이종의 코더간 변환에서의 인코딩 장치 및 디코딩 장치
KR101622950B1 (ko) 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
US8676573B2 (en) 2009-03-30 2014-03-18 Cambridge Silicon Radio Limited Error concealment
US8718804B2 (en) 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
US8908882B2 (en) * 2009-06-29 2014-12-09 Audience, Inc. Reparation of corrupted audio signals
KR101410312B1 (ko) * 2009-07-27 2014-06-27 연세대학교 산학협력단 오디오 신호 처리 방법 및 장치
ES2441069T3 (es) 2009-10-08 2014-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, procedimiento y programa de computación que usan un modelado de ruido en base a linealidad-predicción-codificación
CN102044241B (zh) 2009-10-15 2012-04-04 华为技术有限公司 一种实现通信系统中背景噪声的跟踪的方法和装置
WO2011044700A1 (en) 2009-10-15 2011-04-21 Voiceage Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
US9076439B2 (en) * 2009-10-23 2015-07-07 Broadcom Corporation Bit error management and mitigation for sub-band coding
KR101761629B1 (ko) * 2009-11-24 2017-07-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CN102081926B (zh) * 2009-11-27 2013-06-05 中兴通讯股份有限公司 格型矢量量化音频编解码方法和系统
CN101763859A (zh) 2009-12-16 2010-06-30 深圳华为通信技术有限公司 音频数据处理方法、装置和多点控制单元
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8428959B2 (en) * 2010-01-29 2013-04-23 Polycom, Inc. Audio packet loss concealment by transform interpolation
US8000968B1 (en) * 2011-04-26 2011-08-16 Huawei Technologies Co., Ltd. Method and apparatus for switching speech or audio signals
CN101937679B (zh) * 2010-07-05 2012-01-11 展讯通信(上海)有限公司 音频数据帧的错误掩盖方法及音频解码装置
CN101894558A (zh) * 2010-08-04 2010-11-24 华为技术有限公司 丢帧恢复方法、设备以及语音增强方法、设备和系统
EP2458585B1 (en) * 2010-11-29 2013-07-17 Nxp B.V. Error concealment for sub-band coded audio signals
KR20120080409A (ko) 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
US8983833B2 (en) * 2011-01-24 2015-03-17 Continental Automotive Systems, Inc. Method and apparatus for masking wind noise
BR112013020324B8 (pt) * 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
EP3067888B1 (en) * 2011-04-15 2017-05-31 Telefonaktiebolaget LM Ericsson (publ) Decoder for attenuation of signal regions reconstructed with low accuracy
TWI435138B (zh) 2011-06-20 2014-04-21 Largan Precision Co 影像拾取光學系統
JP5817366B2 (ja) 2011-09-12 2015-11-18 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
CN104011793B (zh) * 2011-10-21 2016-11-23 三星电子株式会社 帧错误隐藏方法和设备以及音频解码方法和设备
CN102750955B (zh) * 2012-07-20 2014-06-18 中国科学院自动化研究所 基于残差信号频谱重构的声码器
US9532139B1 (en) 2012-09-14 2016-12-27 Cirrus Logic, Inc. Dual-microphone frequency amplitude response self-calibration
US9280975B2 (en) 2012-09-24 2016-03-08 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus, and audio decoding method and apparatus
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
EP2757559A1 (en) 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
MX347080B (es) 2013-01-29 2017-04-11 Fraunhofer Ges Forschung Llenado con ruido sin informacion secundaria para celp (para codificadores tipo celp).
FR3004876A1 (fr) 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
CA2916150C (en) 2013-06-21 2019-06-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for tcx ltp
WO2015009903A2 (en) 2013-07-18 2015-01-22 Quitbit, Inc. Lighter and method for monitoring smoking behavior
US10210871B2 (en) * 2016-03-18 2019-02-19 Qualcomm Incorporated Audio processing for temporally mismatched signals
CN110556116B (zh) * 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置

Also Published As

Publication number Publication date
US10679632B2 (en) 2020-06-09
WO2014202788A1 (en) 2014-12-24
AU2014283198B2 (en) 2016-10-20
US20160104489A1 (en) 2016-04-14
EP3011559B1 (en) 2017-07-26
EP3011563B1 (en) 2019-12-25
ES2635555T3 (es) 2017-10-04
US11462221B2 (en) 2022-10-04
KR20160022363A (ko) 2016-02-29
TW201508739A (zh) 2015-03-01
TW201508737A (zh) 2015-03-01
ZA201600310B (en) 2018-05-30
CN105340007A (zh) 2016-02-17
US20200258529A1 (en) 2020-08-13
CN110265044A (zh) 2019-09-20
PL3011559T3 (pl) 2017-12-29
US20160104487A1 (en) 2016-04-14
US20180233153A1 (en) 2018-08-16
CN105340007B (zh) 2019-05-31
EP3011561A1 (en) 2016-04-27
AU2014283123A1 (en) 2016-02-04
PL3011561T3 (pl) 2017-10-31
JP2016532143A (ja) 2016-10-13
RU2666250C2 (ru) 2018-09-06
EP3011563A1 (en) 2016-04-27
KR20160021295A (ko) 2016-02-24
CN105378831B (zh) 2019-05-31
BR112015031177A2 (pt) 2017-07-25
HK1224424A1 (zh) 2017-08-18
JP6214071B2 (ja) 2017-10-18
US20160104488A1 (en) 2016-04-14
RU2658128C2 (ru) 2018-06-19
MY181026A (en) 2020-12-16
US9978376B2 (en) 2018-05-22
CN105359210B (zh) 2019-06-14
US20160111095A1 (en) 2016-04-21
HK1224076A1 (zh) 2017-08-11
ES2644693T3 (es) 2017-11-30
TWI575513B (zh) 2017-03-21
CN110164459A (zh) 2019-08-23
PT3011559T (pt) 2017-10-30
CA2914895A1 (en) 2014-12-24
US20180308495A1 (en) 2018-10-25
US10867613B2 (en) 2020-12-15
BR112015031343B1 (pt) 2021-12-14
US11776551B2 (en) 2023-10-03
CA2914869A1 (en) 2014-12-24
EP3011561B1 (en) 2017-05-03
MY182209A (en) 2021-01-18
US20200258530A1 (en) 2020-08-13
CA2914895C (en) 2018-06-12
BR112015031178A2 (pt) 2017-07-25
US10854208B2 (en) 2020-12-01
PL3011558T3 (pl) 2017-12-29
AU2014283196A1 (en) 2016-02-11
BR112015031343A2 (pt) 2017-07-25
SG11201510352YA (en) 2016-01-28
TWI587290B (zh) 2017-06-11
AU2014283196B2 (en) 2016-10-20
EP3011558A1 (en) 2016-04-27
CN105359210A (zh) 2016-02-24
CN110289005A (zh) 2019-09-27
KR101785227B1 (ko) 2017-10-12
SG11201510353RA (en) 2016-01-28
MX2015018024A (es) 2016-06-24
US10607614B2 (en) 2020-03-31
RU2016101605A (ru) 2017-07-26
AU2014283124B2 (en) 2016-10-20
CN110299147A (zh) 2019-10-01
TW201508738A (zh) 2015-03-01
CN105431903A (zh) 2016-03-23
US9978377B2 (en) 2018-05-22
CN105359209B (zh) 2019-06-14
PL3011563T3 (pl) 2020-06-29
ES2639127T3 (es) 2017-10-25
PT3011561T (pt) 2017-07-25
RU2665279C2 (ru) 2018-08-28
US20200312338A1 (en) 2020-10-01
SG11201510510PA (en) 2016-01-28
PT3011558T (pt) 2017-10-05
BR112015031178B1 (pt) 2022-03-22
US20210142809A1 (en) 2021-05-13
CA2915014A1 (en) 2014-12-24
PT3011557T (pt) 2017-07-25
BR112015031180A2 (pt) 2017-07-25
HK1224423A1 (zh) 2017-08-18
CA2914869C (en) 2018-06-05
TWI569262B (zh) 2017-02-01
KR101790901B1 (ko) 2017-10-26
CA2916150C (en) 2019-06-18
JP6201043B2 (ja) 2017-09-20
CN110289005B (zh) 2024-02-09
CN110164459B (zh) 2024-03-26
JP2016523381A (ja) 2016-08-08
US11501783B2 (en) 2022-11-15
WO2014202784A1 (en) 2014-12-24
SG11201510508QA (en) 2016-01-28
RU2675777C2 (ru) 2018-12-24
RU2676453C2 (ru) 2018-12-28
PL3011557T3 (pl) 2017-10-31
US20210098003A1 (en) 2021-04-01
AU2014283198A1 (en) 2016-02-11
RU2016101604A (ru) 2017-07-26
MY187034A (en) 2021-08-27
TWI553631B (zh) 2016-10-11
EP3011557B1 (en) 2017-05-03
EP3011559A1 (en) 2016-04-27
KR20160022364A (ko) 2016-02-29
MY170023A (en) 2019-06-25
MX355257B (es) 2018-04-11
SG11201510519RA (en) 2016-01-28
CA2913578C (en) 2018-05-22
US10672404B2 (en) 2020-06-02
CN110265044B (zh) 2023-09-12
JP6190052B2 (ja) 2017-08-30
MX351363B (es) 2017-10-11
AU2014283194A1 (en) 2016-02-04
CA2913578A1 (en) 2014-12-24
CN110299147B (zh) 2023-09-19
EP3011557A1 (en) 2016-04-27
TW201508740A (zh) 2015-03-01
KR101787296B1 (ko) 2017-10-18
KR20160022365A (ko) 2016-02-29
CA2916150A1 (en) 2014-12-24
CN105359209A (zh) 2016-02-24
CN105378831A (zh) 2016-03-02
RU2016101521A (ru) 2017-07-26
JP6360165B2 (ja) 2018-07-18
JP2016522453A (ja) 2016-07-28
KR101790902B1 (ko) 2017-10-26
RU2016101600A (ru) 2017-07-26
US9997163B2 (en) 2018-06-12
MX351577B (es) 2017-10-18
ES2780696T3 (es) 2020-08-26
HK1224425A1 (zh) 2017-08-18
RU2016101469A (ru) 2017-07-24
PT3011563T (pt) 2020-03-31
AU2014283124A1 (en) 2016-02-11
BR112015031606B1 (pt) 2021-12-14
JP6196375B2 (ja) 2017-09-13
BR112015031177B1 (pt) 2021-12-14
MY190900A (en) 2022-05-18
JP2016526704A (ja) 2016-09-05
BR112015031606A2 (pt) 2017-07-25
WO2014202786A1 (en) 2014-12-24
TW201508736A (zh) 2015-03-01
KR20160022886A (ko) 2016-03-02
US9916833B2 (en) 2018-03-13
WO2014202789A1 (en) 2014-12-24
BR112015031180B1 (pt) 2022-04-05
US9978378B2 (en) 2018-05-22
MX2015017126A (es) 2016-04-11
WO2014202790A1 (en) 2014-12-24
CA2915014C (en) 2020-03-31
MX351576B (es) 2017-10-18
US20180261230A1 (en) 2018-09-13
US11869514B2 (en) 2024-01-09
US20180268825A1 (en) 2018-09-20
AU2014283194B2 (en) 2016-10-20
KR101788484B1 (ko) 2017-10-19
HK1224009A1 (zh) 2017-08-11
JP2016527541A (ja) 2016-09-08
MX2015016892A (es) 2016-04-07
MX347233B (es) 2017-04-19
CN105431903B (zh) 2019-08-23
EP3011558B1 (en) 2017-07-26
AU2014283123B2 (en) 2016-10-20
TWI564884B (zh) 2017-01-01
US20160104497A1 (en) 2016-04-14
MX2015017261A (es) 2016-09-22
US20180151184A1 (en) 2018-05-31

Similar Documents

Publication Publication Date Title
ES2635027T3 (es) Aparato y método para el desvanecimiento de señales mejorado para sistemas de codificación de audio cambiados durante el ocultamiento de errores