ES2337137T3 - Mejoramiento de audio en dominio codificado. - Google Patents

Mejoramiento de audio en dominio codificado. Download PDF

Info

Publication number
ES2337137T3
ES2337137T3 ES04029839T ES04029839T ES2337137T3 ES 2337137 T3 ES2337137 T3 ES 2337137T3 ES 04029839 T ES04029839 T ES 04029839T ES 04029839 T ES04029839 T ES 04029839T ES 2337137 T3 ES2337137 T3 ES 2337137T3
Authority
ES
Spain
Prior art keywords
parameter
value
index
new
quad
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES04029839T
Other languages
English (en)
Inventor
Paivi Valve
Antti Pasanen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Application granted granted Critical
Publication of ES2337137T3 publication Critical patent/ES2337137T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

Un procedimiento de mejoramiento de una señal de audio codificada que comprende índices que representan parámetros de señales de audio de señales de audio que comprenden al menos un primer parámetro que representa una primera característica de la señal de audio y un segundo parámetro, comprendiendo el procedimiento las etapas de: determinar un valor actual de primer parámetro a partir de un índice correspondiente a un primer parámetro; ajustar el valor actual de primer parámetro con el fin de conseguir una primera característica mejorada, obteniendo de ese modo un valor mejorado de primer parámetro; determinar un valor actual de segundo parámetro a partir del índice correspondiente además a un segundo parámetro; y determinar un nuevo valor de índice a partir de una tabla que relaciona valores de índice con valores de primer parámetro y que relaciona los valores de índice con valores de segundo parámetro, de manera que un nuevo valor de primer parámetro correspondiente al nuevo valor de índice y un nuevo valor de segundo parámetro correspondiente al nuevo valor de índice se correspondan sustancialmente con el valor mejorado de primer parámetro y con el valor actual de segundo parámetro.

Description

Mejoramiento de audio en dominio codificado.
Campo de la invención
La presente invención se refiere al mejoramiento de voz y, en particular, a un procedimiento y a un aparato para mejorar una señal de audio codificada.
Antecedentes de la invención
La calidad de voz mejorada creada por los algoritmos DSP (procesamiento de señales digitales) de procesamiento de voz se ha utilizado para diferenciar proveedores de red. La transferencia a redes de paquetes o a redes con un funcionamiento libre en tándem (TFO) extendido o con un funcionamiento libre de transcodificador (TrFO) reducirá esta capacidad de diferenciar redes con algoritmos de procesamiento de voz tradicionales. Por lo tanto, los operadores que generalmente han sido responsables de mantener la calidad de voz para sus clientes están demandando algoritmos de procesamiento de voz que también se utilicen para la voz codificada.
TFO es una norma de voz que se utilizará en las redes GSM (sistema global de comunicaciones móviles) y en las redes 3G (tercera generación) evolucionadas de GSM. Está destinada a evitar la doble codificación/descodificación tradicional de voz en configuraciones de llamadas entre móviles. El principal inconveniente de una configuración en tándem es la degradación de la calidad de voz introducida por la doble transcodificación. Según las pruebas de escucha del ETSI, esta degradación es normalmente más apreciable cuando los códecs de voz funcionan a bajas velocidades. Además, un nivel de ruido de fondo más alto aumenta la degradación.
Cuando las conexiones de origen y destino utilizan el mismo códec de voz, es posible transmitir de manera transparente las tramas de voz recibidas desde la MS (estación móvil) origen hasta la MS destino sin activar las funciones de transcodificación en las redes origen y destino.
Las principales ventajas del funcionamiento libre en tándem son la mejora de la calidad de voz evitando la doble transcodificación en la red, posibles ahorros en los enlaces de transmisión entre PLMN (red móvil pública terrestre), que transportan voz comprimida compatible con un esquema de submultiplexión de 16 kbit/s o de 8 kbit/s, incluyendo transmisión por conmutación de paquetes, posibles ahorros en la potencia de procesamiento del equipo de red puesto que se omiten las funciones de transcodificación en las unidades de transcodificador, y una posible reducción en el retardo de transmisión de extremo a extremo.
En la configuración de llamada TFO, un dispositivo de transcodificador está presente físicamente en la trayectoria de la señal, pero las funciones de transcodificación se omiten. El dispositivo de transcodificación puede llevar a cabo funciones de control y de conversión de protocolos. Por otro lado, en el funcionamiento libre de transcodificador (TrFO), no hay ningún dispositivo de transcodificador físicamente presente y, por lo tanto, no se activa ninguna función de control o de conversión u otras funciones asociadas con el mismo.
El nivel de voz es un factor importante que afecta a la calidad de voz percibida. Normalmente, en el lado de red se utilizan algoritmos de control de nivel automático que ajustan el nivel de voz hasta un determinado nivel objetivo deseado incrementando el nivel de voz débil y reduciendo en cierto grado el nivel de voces muy altas.
Estos procedimientos no pueden utilizarse como tales en futuras redes de paquetes donde la voz se propaga en el formato codificado de extremo a extremo desde el dispositivo de transmisión hasta el dispositivo de recepción.
Actualmente, la voz codificada se descodifica en la red y el mejoramiento de voz se lleva a cabo con muestras PCM lineales utilizando procedimientos de mejoramiento de voz tradicionales. Después, la voz se codifica de nuevo y se transmite a la parte de recepción.
Sin embargo, por ejemplo, para el códec de voz AMR el control de nivel es más difícil en los modos inferiores debido a que la ganancia de libro de códigos fijo ya no puede cuantificarse de manera escalar sino que se cuantifica de manera vectorial junto con la ganancia de libro de códigos adaptativo.
Resumen de la invención
Un objeto de la invención es proporcionar un procedimiento y un aparato para mejorar una señal de audio codificada mediante los cuales se resuelvan los problemas descritos anteriormente y se obtenga un mejoramiento adicional de una señal de audio codificada.
Según un primer aspecto de la invención, este objeto se consigue mediante un aparato y un procedimiento de mejoramiento de una señal de audio codificada que comprende índices que representan parámetros de señales de audio que comprenden al menos un primer parámetro que representa una primera característica de la señal de audio y un segundo parámetro, lo que comprende:
\quad
determinar un valor actual de primer parámetro a partir de un índice correspondiente a un primer parámetro;
\quad
ajustar el valor actual de primer parámetro con el fin de conseguir una primera característica mejorada, obteniendo de ese modo un valor mejorado de primer parámetro;
\quad
determinar un valor actual de segundo parámetro a partir del índice correspondiente además a un segundo parámetro; y
\quad
determinar un nuevo valor de índice a partir de una tabla que relaciona valores de índice con valores de primer parámetro y que relaciona los valores de índice con valores de segundo parámetro, de manera que un nuevo valor de primer parámetro correspondiente al nuevo valor de índice y un nuevo valor de segundo parámetro correspondiente al nuevo valor de índice se correspondan sustancialmente con el valor mejorado de primer parámetro y con el valor actual de segundo parámetro.
\vskip1.000000\baselineskip
Según un segundo aspecto de la invención, este objeto se consigue mediante un aparato y un procedimiento de mejoramiento de una señal de audio codificada que comprende índices que representan parámetros de señales de audio que comprenden al menos un primer parámetro que representa una primera característica de la señal de audio y un parámetro de ruido de fondo, lo que comprende:
\quad
determinar un valor actual de primer parámetro a partir de un índice correspondiente a al menos un primer parámetro;
\quad
ajustar el valor actual de primer parámetro con el fin de conseguir una primera característica mejorada, obteniendo de ese modo un valor mejorado de primer parámetro;
\quad
determinar un nuevo valor de índice a partir de una tabla que relaciona valores de índice con al menos valores de primer parámetro, de manera que un nuevo valor de primer parámetro correspondiente al nuevo valor de índice se corresponda sustancialmente con el valor mejorado de primer parámetro;
\quad
detectar un valor actual de índice de parámetro de ruido de fondo; y
\quad
determinar un nuevo valor de índice de parámetro de ruido de fondo correspondiente a la primera característica mejorada.
\vskip1.000000\baselineskip
La invención también puede realizarse como un producto de programa informático que comprenda partes para llevar a cabo las etapas cuando el producto se ejecute en un ordenador.
Según una realización de la invención, una señal de audio codificada que comprende voz y/o ruido en un dominio codificado se mejora manipulando parámetros de ruido y/o de voz codificada de un códec de voz AMR (adaptativo a múltiples velocidades). Como resultado, puede obtenerse en la red un control de nivel adaptativo, un control de eco y una supresión de ruido incluso si la voz no se transforma en muestras PCM lineales, tal como es el caso de las redes TFO, TrFO y de futuras redes de paquetes.
Más específicamente, según una realización de la invención, se describe un procedimiento para controlar el nivel de la voz codificada AMR para todos los modos de 12,2 kbit/s, 10,2 kbit/s, 7,95 kbit/s, 7,40 kbit/s, 6,70 kbit/s, 5,90 kbit/s, 5,15 kbit/s y 4,75 kbit/s de los códec AMR. El nivel de la voz codificada se ajusta modificando uno de los parámetros de voz codificada, concretamente el índice de cuantificación del factor de ganancia de libro de códigos fijo en los modos de 12,2 kbit/s y 7,95 kbit/s. En el resto de modos, la ganancia de libro de códigos fijo se cuantifica conjuntamente de manera vectorial con la ganancia de libro de códigos adaptativo y, por lo tanto, el ajuste del nivel de la voz codificada requiere modificar tanto el factor de ganancia de libro de códigos fijo como la ganancia de libro de códigos adaptativo (índice colectivo).
Según la invención se obtiene un nuevo índice de ganancia de manera que el error entre la ganancia deseada y la ganancia efectiva generada se minimiza. El control de nivel propuesto no provoca artefactos audibles.
Por lo tanto, según la invención, el control de nivel está permitido también a velocidades binarias AMR inferiores (no solamente de 12,2 kbit/s y de 7,95 kbit/s). El control de nivel en el modo AMR de 12,2 kbit/s puede mejorarse teniendo en cuenta el control de nivel correspondiente requerido para el nivel de ruido aceptable.
\vskip1.000000\baselineskip
Breve descripción de los dibujos
La fig. 1 muestra un modelo simplificado de síntesis de voz en AMR.
La fig. 2 muestra el efecto de una operación DTX en un algoritmo de manipulación de ganancia con muestras de voz de niño con ruido.
\newpage
La fig. 3 muestra un diagrama que ilustra una respuesta de un libro de códigos adaptativo para una función escalonada.
La fig. 4 muestra una tabla de cuantificación de 32 niveles no lineal de un factor de ganancia de libro de códigos fijo en los modos de 12,2 kbit/s y de 7,95 kbit/s.
La fig. 5 muestra un diagrama que ilustra la diferencia entre niveles de cuantificación adyacentes en la tabla de cuantificación de la fig. 4.
La fig. 6 muestra una tabla de cuantificación vectorial para una ganancia de libro de códigos adaptativo y una ganancia de libro de códigos fijo en los modos de 10,2, 7,4 y 6,7 kbit/s.
La fig. 7 muestra una tabla de cuantificación vectorial para una ganancia de libro de códigos adaptativo y un factor de ganancia de libro de códigos fijo en los modos de 5,90 y 5,15 kbit/s.
La fig. 8 muestra un diagrama que ilustra un cambio en la ganancia de libro de códigos fijo cuando el factor de ganancia de libro de códigos fijo se modifica en una etapa de cuantificación.
Las fig. 9 y 10 muestran diagramas que ilustran niveles recuantificados del factor de ganancia de libro de códigos fijo.
La fig. 11 ilustra valores de términos 1 y 2 con muestras de voz de hombre.
La fig. 12 ilustra valores de términos 3 y 4 con muestras de voz de niño.
La fig. 13 muestra un diagrama de flujo que ilustra un procedimiento de mejoramiento de una señal de audio codificada según la invención.
La fig. 14 muestra un diagrama de bloques esquemático que ilustra un aparato para mejorar una señal de audio codificada según la presente invención.
La fig. 15 muestra un diagrama de bloques que ilustra el uso de ganancia fija.
La fig. 16 muestra un diagrama que ilustra una implementación a alto nivel de la invención en una pasarela multimedia.
\vskip1.000000\baselineskip
Descripción de las realizaciones preferidas
A continuación se describirá una realización de la presente invención con relación a una señal de audio codificada AMR que comprende voz y/o ruido. Sin embargo, la invención no está limitada a la codificación AMR y puede aplicarse a cualquier técnica de codificación de señales de audio que utilice índices correspondientes a parámetros de señales de audio. Por ejemplo, tales parámetros de señales de audio pueden controlar un nivel de voz sintetizada. Dicho de otro modo, la invención puede aplicarse a una técnica de codificación de señales de audio en la que un índice que indique un valor de un parámetro de señal de audio que controle una primera característica de la señal de audio se transmita como una señal de audio codificada, donde este índice también puede indicar un valor de un parámetro de señal de audio que controle otra característica de señal de audio tal como el tono de la voz sintetizada.
El códec de voz adaptativo a múltiples velocidades (AMR) se presenta en la extensión necesaria para ilustrar las realizaciones preferidas. Las referencias "3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; Mandatory Speech Codec speech processing functions; AMR speech codec; Transcoding functions (Release 4)" de 3GPP TS 26.090 V4.0.0 (2001-03) y "Digital speech coding for low bit rate communications systems", capítulo 6: 'Analysis-by-synthesis coding of speech,' páginas 174 a 214, John Wiley & Sons, Chichester,1994, Kondoz A. M. Universidad de Surrey, Reino Unido, contienen información adicional. El códec de voz adaptativo a múltiples velocidades (AMR) está basado en el modelo de codificación predictiva lineal excitada por código (CELP). Consiste en ocho códecs fuente, o modos de funcionamiento, con velocidades binarias de 12,2 10,2, 7,95, 7,40, 6,70, 5,90, 5,15 y 4,75 kbit/s. Los principios básicos de codificación y descodificación del códec AMR se explicarán brevemente a continuación. Además, las cuestiones relevantes para el control de ganancia de dominio de parámetro se describirán en mayor detalle.
\newpage
El proceso de codificación AMR comprende tres etapas principales:
Análisis LPC (codificación predictiva lineal):
\quad
Las correlaciones a corto plazo entre muestras de voz (formantes) se modelan y se eliminan mediante un filtro de décimo orden. En el códec AMR, los coeficientes LP se calculan utilizando el procedimiento de autocorrelación. Los coeficientes LP se transforman además en pares espectrales lineales (LSP) para fines de cuantificación y de interpolación utilizando la propiedad de los LSP que presenten una fuerte correlación entre subtramas adyacentes.
\vskip1.000000\baselineskip
Análisis de tono (predicción a largo plazo):
\quad
Las correlaciones a largo plazo entre muestras de voz (periodicidad de voz) se modelan y se eliminan mediante un filtro de tono. El desfase de tono se estima a partir de la señal de voz de entrada ponderada perceptivamente utilizando en primer lugar el procedimiento de bucle abierto menos caro computacionalmente. Después se estiman un desfase de tono y una ganancia g_{p} de tono más precisos mediante un análisis de bucle cerrado en torno a la estimación de desfase de tono de bucle abierto, permitiendo además desfases de tono fraccionarios. El filtro de síntesis de tono en AMR se implementa tal y como se muestra en la fig. 1 utilizando un enfoque de libro de códigos adaptativo. Es decir, el vector v(n) de libro de códigos adaptativo se calcula interpolando la anterior señal u(n) de excitación en el retardo k entero dado y en la fase (fracción) t:
5
donde b_{60} es un filtro de interpolación basado en una función sen(x)/x de ventana de Hamming.
Determinación de excitación óptima (búsqueda de excitación innovadora):
\quad
Tal y como se muestra en la fig. 1, la voz se sintetiza en el descodificador sumando entre sí vectores de libros de códigos adaptativos y fijos escalados apropiadamente e introduciéndola a través del filtro de síntesis a corto plazo. Una vez que se hayan obtenido los parámetros del filtro de síntesis LP y del filtro de síntesis de tono, la secuencia de excitación óptima en un libro de códigos se elige en el lado del codificador utilizando un procedimiento de búsqueda de análisis mediante síntesis en el que el error entre la voz original y la voz sintetizada se minimice según una medida de distorsión ponderada perceptivamente. Las secuencias de excitación innovadoras consisten en entre 10 y 2 (dependiendo del modo) impulsos distintos de cero de amplitud \pm 1. El procedimiento de búsqueda determina las ubicaciones de estos impulsos en la subtrama de 40 muestras, así como la ganancia g_{c} de libro de códigos fijo apropiada.
Los coeficientes de filtros LP de parámetros de modelo CELP, los parámetros de tono, es decir, el retardo y la ganancia del filtro de tono, y el vector de libro de códigos fijo y la ganancia de libro de códigos fijo se codifican para la transmisión con respecto a los índices LSP, índice de libro de códigos adaptativo (índice de tono) e índice de ganancia de libro de códigos adaptativo (tono), e índices de libro de códigos fijos e índice de factor de ganancia de libro de códigos fijo, respectivamente.
A continuación se explicará la cuantificación de la ganancia de libro de códigos fijo.
Para que resulte más eficaz, la cuantificación de ganancia de libro de códigos fijo se lleva a cabo utilizando predicción de media variable (MA) con coeficientes fijos. La predicción MA se lleva a cabo sobre la energía de innovación de la siguiente manera. Supóngase E(n) la energía de innovación eliminada media (en dB) en la subtrama n y que viene dada por:
6
donde N = 40 es el tamaño de subtrama, c(i) es la excitación de libro de códigos fijo y (en dB) es la media de la energía de innovación (una constante que depende del modo). La energía estimada viene dada por:
7
donde [b_{1} b_{2} b_{3} b_{4}] = [0,68 0,58 0,34 0,19] son los coeficientes de predicción MA, y es el error de predicción cuantificado en la subtrama k:
8
A continuación se calculará una ganancia estimada de libro de códigos fijo utilizando la energía estimada como en la ecuación (1.2) (sustituyendo E(n) por y g_{c} por. En primer lugar, la energía de innovación media viene dada por:
9
y, por lo tanto, la ganancia estimada viene dada por:
10
Un factor de corrección entre la ganancia g_{c} y la ganancia estimada viene dado por:
11
El error de predicción y el factor de corrección están relacionados de la siguiente manera:
12
En el descodificador, los parámetros de voz transmitidos se descodifican y la voz se sintetiza.
Descodificación de la ganancia de libro de códigos fijo
En caso de cualificación escalar (en los modos de 12,2 kbit/s y 7,95 kbit/s), el descodificador recibe un índice con relación a una tabla de cuantificación que proporciona el factor de corrección \hat{\gamma}_{gc} de ganancia cuantificada de libro de códigos fijo.
En caso de cuantificación vectorial (en todos los demás modos), el índice proporciona tanto la ganancia cuantificada \hat{g}_{p} de libro de códigos adaptativo como el factor de corrección \hat{\gamma}_{gc} de ganancia de libro de códigos fijo.
El factor de corrección de ganancia de libro de códigos fijo proporciona la ganancia de libro de códigos fijo de la misma manera que la descrita anteriormente. En primer lugar, la energía estimada viene dada por:
13
y, por lo tanto, la energía de innovación media viene dada por:
14
\newpage
La ganancia estimada viene dada por:
15
Y, finalmente, la ganancia cuantificada de libro de códigos fijo se obtiene mediante:
16
Existen algunas diferencias entre los modos AMR que son importantes con respecto al control de ganancia de dominio de parámetro, tal y como se indica a continuación.
En el modo de 12,2 kbit/s, el factor de corrección \hat{\gamma}_{gc} de ganancia de libro de códigos fijo se cuantifica de manera escalar con 5 bits (32 niveles de cuantificación). El factor de corrección \hat{\gamma}_{gc} se calcula utilizando un valor \upbar{E} de energía media \upbar{E} = 36 dB.
En el modo de 10,2 kbit/s, el factor de corrección \hat{\gamma}_{gc} de ganancia de libro de códigos fijo y la ganancia g_{p} de libro de códigos adaptativo se cuantifican conjuntamente de manera vectorial con 7 bits. El factor de corrección \hat{\gamma}_{gc} se calcula utilizando un valor de energía media \upbar{E} = 33 dB. Además, este modo incluye suavizar la ganancia de libro de códigos fijo. La ganancia de libro de códigos fijo utilizada para la síntesis en el descodificador se sustituye por un valor suavizado de las ganancias de libro de códigos fijo de las 5 subtramas anteriores. El suavizado se basa en una medida de la estacionalidad del espectro a corto plazo en el dominio LSP (par espectral lineal). El suavizado se lleva a cabo para evitar fluctuaciones no naturales en el contorno de energía.
En el modo de 7,95 kbit/s, el factor de corrección \hat{\gamma}_{gc} de ganancia de libro de códigos fijo se cuantifica de manera escalar con 5 bits, como en el modo de 12,2 kbit/s. El factor de corrección \hat{\gamma}_{gc} se calcula utilizando un valor de energía media \upbar{E} = 36 dB. Este modo incluye un procesamiento de antidispersión. Un procedimiento adaptativo de procesamiento posterior de antidispersión se aplica al vector c(n) de libro de códigos fijo para reducir los artefactos perceptivos que se originan a partir de la dispersión de los vectores algebraicos de libro de códigos fijo con solamente algunas muestras distintas de cero por respuesta de impulso. El procesamiento de antidispersión consiste en una convolución circular del vector de libro de códigos fijo con una de tres respuestas de impulso prealmacenadas. La selección de la respuesta de impulso se lleva a cabo de manera adaptativa a partir de las ganancias de libro de códigos adaptativo y fijo.
En el modo de 7,40 kbit/s, el factor de corrección \hat{\gamma}_{gc} de ganancia de libro de códigos fijo y la ganancia g_{p} de libro de códigos adaptativo se cuantifican conjuntamente de manera vectorial con 7 bits, como en el modo de 10,2 kbit/s. El factor de corrección \hat{\gamma}_{gc} se calcula utilizando un valor de energía media \upbar{E} = 30 dB.
En el modo de 6,70 kbit/s, el factor de corrección \hat{\gamma}_{gc} de ganancia de libro de códigos fijo y la ganancia g_{p} de libro de códigos adaptativo se cuantifican conjuntamente de manera vectorial con 7 bits, como en el modo de 10,2 kbit/s. El factor de corrección \hat{\gamma}_{gc} se calcula utilizando un valor de energía media \upbar{E} = 28,75 dB. Este modo incluye el suavizado de la ganancia de libro de códigos fijo y el procesamiento de antidispersión.
En los modos de 5,90 y 5,15 kbit/s, el factor de corrección \hat{\gamma}_{gc} de ganancia de libro de códigos fijo y la ganancia g_{p} de libro de códigos adaptativo se cuantifican conjuntamente de manera vectorial con 6 bits. El factor de corrección \hat{\gamma}_{gc} se calcula utilizando un valor de energía media \upbar{E} = 33 dB. El modo incluye el suavizado de la ganancia de libro de códigos fijo y el procesamiento de antidispersión.
En el modo de 4,75 kbit/s, el factor de corrección \hat{\gamma}_{gc} de ganancia de libro de códigos fijo y la ganancia g_{p} de libro de códigos adaptativo se cuantifican conjuntamente de manera vectorial solamente cada 10 ms mediante un único procedimiento descrito en el documento "3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; Mandatory Speech Codec speech processing functions; AMR speech codec; Transcoding functions (Release 4)", de 3GPP TS 26.090 V4.0.0 (2001-03). Este modo incluye el suavizado de la ganancia de libro de códigos fijo y el procesamiento de antidispersión.
Transmisión discontinua (DTX)
Durante una transmisión discontinua (DTX), solo se transmite al descodificador la información de ruido de fondo medio a intervalos regulares cuando la voz no está presente, tal y como se describe en el documento "3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; Mandatory Speech Codec speech processing functions; AMR speech codec; Comfort noise aspects (Release 4)", de 3GPP TS 26.092 V4.0.0 (2001-03). En el extremo lejano, el descodificador reconstruye el ruido de fondo según los parámetros de ruido transmitidos evitando de este modo discontinuidades extremadamente molestas en el ruido de fondo de la voz sintetizada.
Los parámetros de ruido aceptable, la información sobre el nivel y el espectro del ruido de fondo se codifican en una trama especial denominada como trama descriptora de silencio (SID) para la transmisión al lado de recepción.
Para fines de control de ganancia de dominio de parámetro, la información sobre el nivel del ruido de fondo resulta útil. Si el nivel de ganancia se ha ajustado solamente durante tramas de voz, el nivel de ruido de fondo cambiará bruscamente al principio y al final de ráfagas de solo ruido, tal y como se ilustra en la fig. 2. Los cambios de nivel en el ruido de fondo son muy molestos de manera subjetiva, véase el documento "Digital speech coding for low bit rate communications systems", página 336, John Wiley & Sons, Chichester, 1994, Kondoz A. M. Universidad de Surrey, Reino Unido. Cuanto más molestos, mayor será la amplificación o atenuación. Si el nivel de voz está ajustado, también tiene que ajustarse consecuentemente el nivel del ruido de fondo para impedir cualquier fluctuación en el nivel de ruido de fondo.
En el lado de transmisión, la energía de trama se calcula para cada trama marcada con VAD (detección de activad de voz) = 0 según la ecuación:
17
donde s(n) es la señal de voz de entrada filtrada paso alto de la trama i actual.
La energía logarítmica media se calcula mediante:
18
La energía de trama logarítmica media se cuantifica mediante un cuantificador algorítmico de 6 bits. Estos 6 bits para el índice de energía se transmiten en la trama SID.
A continuación se describirá el control de ganancia en el dominio de parámetro.
La ganancia g_{c} de libro de códigos fijo ajusta el nivel de la voz sintetizada en el código de voz AMR, tal y como puede observarse estudiando la ecuación (1.1) y el modelo de síntesis de voz mostrado en la fig. 1.
La ganancia g_{p} de libro de códigos adaptativo controla la periodicidad (tono) de la voz sintetizada, y está limitada entre [0, 1,2]. Tal y como se muestra en la fig. 1, un bucle de retroalimentación adaptativo también transmite el efecto de la ganancia de libro de códigos fijo a la derivación de libro de códigos adaptativo del modelo de síntesis, ajustando también de ese modo la parte sonora de la voz sintetizada.
La velocidad a la que se transmite el cambio en la ganancia de libro de códigos fijo a la derivación de libro de códigos adaptativo depende del retardo T de tono y de la ganancia g_{p} de tono, tal y como se ilustra en la fig. 3. Cuanto más largo sea el retardo de tono y más alta la ganancia de tono, más tardará el vector v(n) de libro de códigos adaptativo en estabilizarse (hasta alcanzar su nivel correspondiente).
Para señales de voz reales, la ganancia y el retardo de tono varían. Sin embargo, la simulación con un retardo y una ganancia de tono fijos intenta proporcionar una estimación aproximada de los límites con respecto al tiempo de estabilización del libro de códigos adaptativo después de un cambio en la ganancia de libro de códigos fijo. El retardo de tono está limitado en AMR entre [18, 143] muestras, tal como en el ejemplo, correspondientes a tonos bajos de hombre y a tonos altos de niño, respectivamente. Sin embargo, la ganancia de tono puede presentar valores entre [0, 1,2]. Naturalmente, para una ganancia de tono de cero no hay ningún retardo. Por otro lado, la ganancia de tono recibe valores de o superiores a 1 solamente en instantes de tiempo muy cortos para que el libro de códigos adaptativo no se vuelva inestable. Por lo tanto, el retardo máximo estimado está alrededor de algunos miles de muestras, en torno a medio segundo.
La fig. 3 muestra la respuesta del libro de códigos adaptativo con respecto a una función escalonada (cambio repentino en g_{c}) en función del retardo T de tono (desfase k entero en la ecuación (1.1)) y de la ganancia g_{p} de tono. La salida del libro de códigos fijo escalado, g_{c}*c(n), cambia de 0 a 0,3 en un instante de tiempo de 0 muestras. La salida del libro de códigos adaptativo (y, por tanto, también la señal de excitación u(n)) alcanza su nivel correspondiente después de 108 a 5430 muestras para los retardos T de tono y las ganancias g_{p} de tono del ejemplo.
En el modo de mayor velocidad binaria, 12,2 kbit/s, el factor de corrección \hat{\gamma}_{gc} de ganancia de libro de códigos fijo se cuantifica de manera escalar con 5 bits, proporcionando 32 niveles de cuantificación, tal y como se muestra en la fig. 4. La cuantificación es no lineal. Las etapas de cuantificación se muestran en la fig. 5. La etapa de cuantificación está entre 1,2 dB y 2,3 dB.
La misma tabla de cuantificación se utiliza en el modo de 7,95 kb/s. En todos los demás modos, el factor de ganancia de libro de códigos fijo se cuantifica conjuntamente de manera vectorial con la ganancia de libro de códigos adaptativo. Estas tablas de cuantificación se muestran en las fig. 6 y 7.
El modo más bajo, de 4,75 kbit/s, utiliza cuantificación vectorial de una sola manera. En el modo de 4,75 kbit/s, las ganancias g_{p} de libro de códigos adaptativo y los factores de corrección \hat{\gamma}_{gc} se cuantifican conjuntamente de manera vectorial cada 10 ms con 6 bits, es decir, dos ganancias de libro de códigos de dos tramas y dos factores de corrección se cuantifican conjuntamente de manera vectorial.
La fig. 5 muestra una diferencia entre niveles de cuantificación adyacentes en la tabla de cuantificación del factor de ganancia \hat{\gamma}_{gc} de libro de códigos fijo en los modos de 12,2 kbit/s y 7,95 kbit/s. La tabla de cuantificación es aproximadamente lineal entre los índices 5 y 28. La etapa de cuantificación en ese intervalo es de 1,2 dB.
La fig. 6 muestra la tabla de cuantificación vectorial para la ganancia de libro de códigos adaptativo y el factor de ganancia de libro de códigos fijo en los modos de 10,2, 7,4 y 6,7 kbit/s. La tabla se muestra de manera que un valor de índice proporcione tanto el factor de ganancia de libro de códigos fijo y la ganancia de libro de códigos adaptativo (cuantificada conjuntamente) correspondiente. Tal y como puede observarse en la fig. 6, hay aproximadamente 16 niveles que pueden escogerse para la ganancia de libro de códigos fijo mientras que la ganancia de libro de códigos adaptativo permanece en gran medida fija.
La fig. 7 muestra la tabla de cuantificación vectorial para la ganancia de libro de códigos adaptativo y el factor de ganancia de libro de códigos fijo en los modos de 5,90 y 5,15 kbit/s. Nuevamente, la tabla se muestra de manera que un valor de índice proporcione tanto el factor de ganancia de libro de códigos fijo como la ganancia de libro de códigos adaptativo (cuantificada conjuntamente) correspondiente.
Como se ha explicado anteriormente, el control de nivel de voz en el dominio de parámetro debe tener lugar ajustando la ganancia de libro de códigos fijo. De manera más específica, el factor de corrección \hat{\gamma}_{gc} de ganancia cuantificada de libro de códigos fijo está ajustado, el cual es uno de los parámetros de voz transmitidos al extremo lejano.
A continuación se mostrará la relación entre la amplificación del factor de corrección de ganancia de libro de códigos fijo y la amplificación de la ganancia de libro de códigos fijo. Tal y como ya se ha mostrado en las ecuaciones (1.11) y (1.12), la ganancia de libro de códigos fijo se define como:
19
Si el factor de corrección \hat{\gamma}_{gc} (n) de ganancia de libro de códigos fijo se amplifica por \beta, en la subtrama n, y se mantiene invariable al menos durante las siguientes cuatro subtramas, la nueva ganancia cuantificada de libro de códigos fijo pasa a ser:
20
En la siguiente subtrama, n+1, la nueva ganancia de libro de códigos fijo pasa a ser:
21
210
De la misma manera, en las siguientes subtramas, n+2,..., n+4, la ganancia amplificada de libro de códigos fijo pasa a ser:
22
Puesto que los coeficientes de predicción se proporcionaron como
23
la ganancia de libro de códigos fijo se estabiliza después de cinco subtramas en un valor:
24
Dicho de otro modo, la multiplicación del factor de ganancia de libro de códigos fijo por \beta da como resultado la multiplicación de la ganancia de libro de códigos fijo (y, por lo tanto, también de la voz sintetizada) por \beta^{2,79}, suponiendo que \beta se mantiene constante al menos durante las siguientes cuatro tramas.
Por lo tanto, por ejemplo en los modos AMR de 12,2 kbit/s y 7,95 kbit/s, el cambio mínimo para el factor de ganancia de libro de códigos fijo (la etapa de cuantificación mínima) de \pm 1,2 dB da como resultado un cambio de \pm 3,4 dB en la ganancia de libro de códigos fijo y, por lo tanto, en la señal de voz sintetizada, tal y como se muestra a continuación.
25
Este cambio de \pm 3,4 dB en el nivel de voz sintetizada tiene lugar gradualmente, tal y como se ilustra en la fig. 8.
La fig. 8 muestra un cambio en la ganancia de libro de códigos fijo (AMR de 12,2 kbit/s), cuando el factor de ganancia de libro de códigos fijo cambia en una etapa de cuantificación (en el intervalo de cuantificación lineal) primero de manera ascendente en la subtrama 6 y después de manera descendente en la subtrama 16. La amplificación (o atenuación) en 1,2 dB del factor de ganancia de libro de códigos fijo amplifica (o reduce) gradualmente la ganancia de libro de códigos fijo en 3,4 dB durante 5 tramas (200 muestras).
Por consiguiente, el control de ganancia de nivel de parámetro de la voz codificada puede llevarse a cabo modificando el valor de índice del factor de ganancia de libro de códigos fijo. Es decir, el valor de índice en el flujo de bits se sustituye por un nuevo valor que proporciona la amplificación/atenuación deseada. Los valores de ganancia correspondientes a los cambios de índice para el modo AMR de 12,2 kbit/s se enumeran en la siguiente tabla.
TABLA I Valores de ganancia de nivel de parámetro para AMR de 12,2 kbit/s
26
A continuación se describirá una búsqueda del índice correcto para el cambio deseado en la ganancia global teniendo en cuenta la naturaleza no lineal de la cuantificación de factor de ganancia de libro de códigos fijo.
El nuevo índice de cuantificación de factor de ganancia de libro de códigos fijo correspondiente a la amplificación/atenuación deseada de la señal de voz se obtiene minimizando el error:
27
donde \hat{\gamma}^{anterior}_{gc} y \hat{\gamma}^{anterior}_{gc} son el anterior y el nuevo factor de corrección de ganancia de libro de códigos fijo y \beta es el multiplicador deseado: \beta = \Deltaj, j[... -4, -3,..., 0,..., +3, +4,...], \Delta = etapa de cuantificación mínima (1,15 en AMR de 12,2 kbit/s). Debe observarse que la señal de voz se amplifica/atenúa con \beta^{2,79}.
La fig. 9 muestra los niveles recuantificados para los casos de una amplificación de señal de +3,4, +6,8, +10,2, +13,6 y +17,0 dB conseguida con el anterior procedimiento de minimización de error. La fig. 10 muestra también los niveles de cuantificación en casos de atenuación de señal. Ambas figuras muestran los niveles de cuantificación para el modo AMR de 12,2 kbit/s.
En la fig. 9, la curva más baja muestra los niveles de cuantificación originales del factor de ganancia de libro de códigos fijo. La segunda curva más baja muestra los niveles recuantificados del factor de ganancia de libro de códigos fijo en el caso de una amplificación de nivel de señal de +3,4 dB, y las curvas siguientes muestran los niveles recuantificados del factor de ganancia de libro de códigos fijo en casos de una amplificación de nivel de señal de +6,8, +10,2, +13,6 y +17 dB, respectivamente.
\newpage
La fig. 10 muestra niveles recuantificados del factor de ganancia de libro de códigos fijo en los casos de una amplificación de nivel de señal de -17, -13,6,..., -3,4, 0, +3,4,..., +13,6, +17 dB. La curva central muestra los niveles de cuantificación originales del factor de ganancia de libro de códigos fijo.
En los modos AMR de 10,2 kbit/s, 7,40 kbit/s, 6,70 kbit/s, 5,90 kbit/s, 5,15 kbit/s y 4,75 kbit/s, la ecuación 2.12 se sustituye por:
28
donde la ponderación es \geq 1, y g_{p\_nueva} y g_{p\_anterior} son la nueva y la anterior ganancia de libro de códigos adaptativo, respectivamente.
Dicho de otro modo, en los modos de 12,2 kbit/s y 7,95 kbit/s, el nuevo índice de factor de ganancia de libro de código fijo se obtiene como el índice que minimiza el error dado en la ecuación (2.12). En los modos de 10,2 kbit/s, 7,40 kbit/s, 6,70 kbit/s, 5,90 kbit/s, 5,15 kbit/s y 4,75 kbit/s, el nuevo índice colectivo del factor de ganancia de libro de códigos fijo cuantificado vectorialmente y de la ganancia adaptativa se obtiene como el índice que minimiza el error dado en la ecuación (2.13). La justificación de la ecuación (2.13) es poder modificar el factor de ganancia de libro de códigos fijo sin introducir un error audible con relación a la ganancia de libro de códigos adaptativo. La fig. 6 muestra los factores de ganancia de libro de códigos fijo cuantificados vectorialmente y las ganancias de libro de códigos adaptativo a diferentes valores de índice. En la fig. 6 puede observarse que existe la posibilidad de modificar el factor de ganancia de libro de código fijo sin tener que modificar excesivamente la ganancia de libro de códigos adaptativo.
Tal y como se ha mencionado anteriormente, en el modo de 4,75 kbit/s, las ganancias g_{p} de libro de códigos adaptativo y los factores de corrección \hat{\gamma}_{gc} se cuantifican conjuntamente de manera vectorial cada 10 ms con 6 bits, es decir, dos ganancias de libro de códigos de dos subtramas y dos factores de corrección se cuantifican conjuntamente de manera vectorial. La búsqueda de libros de códigos se realiza minimizando una suma ponderada del criterio de error para cada una de las dos subtramas. El valor por defecto de los factores de ponderación es 1. Si la energía de la segunda subtrama es superior al doble de la energía de la primera trama, la ponderación de la primera subtrama se fija a 2. Si la energía de la primera subtrama es superior a cuatro veces la energía de la segunda subtrama, la ponderación de la segunda subtrama se fija a 2. A pesar de estas diferencias, el modo de 4,75 kbit/s puede procesarse con el esquema de cuantificación vectorial descrito anteriormente.
Por lo tanto, según la realización descrita anteriormente, un nuevo índice de ganancia (nuevo valor de índice) que minimiza el error entre la ganancia \beta \cdot \hat{\gamma}^{anterior}_{gc} deseada (valor mejorado de primer parámetro) y la ganancia \hat{\gamma}^{nuevo}_{gc} efectiva generada (nuevo valor de primer parámetro) según la ecuación (2.12) o (2.13), se determina según las tablas de cuantificación para los modos respectivos. El nuevo factor de corrección de ganancia de libro de códigos fijo (y la nueva ganancia de libro de códigos adaptativo en caso de modos distintos a 12,2 kbit/s y 7,95 kbit/s) corresponden al nuevo índice de ganancia determinado. El anterior índice de ganancia (valor actual de índice) que representa el anterior factor de corrección \hat{\gamma}^{anterior}_{gc} de ganancia de libro de códigos fijo (valor actual de primer parámetro) (y la anterior ganancia g_{p_anterior} de libro de códigos adaptativo (valor actual de segundo parámetro) en caso de modos distintos a 12,2 kbit/s y 7,95 kbit/s) se sustituye entonces por el nuevo índice de ganancia.
A continuación se describirán procedimientos alternativos para proporcionar una precisión de ganancia mejorada. En primer lugar se ilustra cómo se formula la ganancia deseada total en caso de que la ganancia no permanezca constante durante cinco subtramas consecutivas.
Tal y como se ha descrito anteriormente, en el códec AMR, la ganancia de libro de códigos fijo se codifica utilizando el factor de corrección \gamma_{gc} de ganancia de libro de códigos fijo. El factor de corrección de ganancia se utiliza para escalar la ganancia g'_{c} estimada de libro de códigos fijo para obtener la ganancia g_{c} de libro de códigos fijo, es decir,
\vskip1.000000\baselineskip
29
La ganancia de libro de códigos fijo se estima de la siguiente manera:
\vskip1.000000\baselineskip
30
donde \upbar{E} es un valor de energía dependiente del modo (en dB) y E_{1} es la energía de excitación de libro de códigos fijo (en dB).
\newpage
Para obtener una ganancia \alpha de señal global deseada, el factor de corrección cuantificado de libro de códigos fijo tiene que multiplicarse por una ganancia \beta de factor de corrección. Las ganancias de factor de corrección generadas se denotan con, \hat{\beta}(n-i), i > 0. Amplificando el factor de corrección \hat{\gamma}_{gc}(n) de libro de códigos fijo con, \beta(n) en una subtrama n, la nueva ganancia cuantificada de libro de códigos fijo se convierte en: (obsérvese que la predicción g'_{c} depende del historial de las ganancias de corrección, tal y como se muestra en la ecuación 2.14)
31
Por lo tanto, una nueva predicción, que se obtiene utilizando las ganancias de factor generadas, puede escribirse como
32
Además,
\vskip1.000000\baselineskip
33
es decir, la ganancia de factor de corrección objetivo para la presente subtrama puede escribirse como
34
Si \hat{\beta}(n) se mantiene constante, la ganancia global se estabiliza después de cinco subtramas en un valor
35
ya que los coeficientes de predicción se proporcionaron como b = [1, 0,68, 0,58, 0,34, 0,19].
A continuación se describirá una primera alternativa de la manipulación de ganancia descrita anteriormente, primera alternativa que se denomina como minimización de error de sintetización (procedimiento de sintetización).
El algoritmo según el procedimiento de sintetización sigue en la medida de lo posible los criterios de error original dados para la cuantificación escalar como
36
donde E_{SQ} es el error de cuantificación de libro de códigos fijo y g_{c} es la ganancia objetivo de libro de códigos fijo. Tal y como se ha mencionado anteriormente, la finalidad es escalar la ganancia de libro de códigos fijo con la ganancia total deseada g^{nueva}_{c} = \alpha\hat{g}_{c}. Por lo tanto, para los fines de CDALC (control de nivel automático de dominio codificado), el objetivo debe escalarse mediante la ganancia deseada, es decir,
37
En la cuantificación vectorial, la ganancia g_{p} de tono y el factor de \hat{\gamma}_{gc} corrección de libro de códigos fijo se cuantifican conjuntamente. En el codificador AMR, el índice de cuantificación vectorial se obtiene minimizando el error de cuantificación E_{VQ} definido como
38
donde x, y y z son un vector objetivo, un vector de libro de códigos adaptativo filtrado por LP y ponderado, y un vector de libro de códigos fijo filtrado por LP y ponderado, respectivamente. El criterio de error es realmente una norma del error ponderado perceptivamente entre el objetivo y la voz sintetizada. Siguiendo el procedimiento de la cuantificación escalar, el vector objetivo se sustituye por la versión escalada, es decir
\vskip1.000000\baselineskip
39
A continuación se describirá el procedimiento de sintetización para la cuantificación escalar.
La derivación del criterio de minimización se inicia a partir de la ecuación 3.2 utilizada en el codificador AMR y dada como:
\vskip1.000000\baselineskip
40
Desafortunadamente, no hay acceso directo a g_{c}, aunque puede aproximarse mediante g_{c} \approx \hat{\gamma}_{gc} g'_{c} y, por lo tanto, el primer criterio de error CDALC para la cuantificación escalar puede escribirse como
41
donde \hat{\beta}(n-i) es la ganancia de factor de corrección generada para la subtrama (n-i), es decir,
42
Este criterio de error es sencillo de evaluar y solamente tiene que descodificarse el factor de corrección de libro de códigos fijo. Además, cuatro ganancias de factor de corrección generadas anteriormente tienen que guardarse en memoria.
A continuación se describirá el procedimiento de sintetización para la cuantificación vectorial.
Para el caso de cuantificación vectorial, el criterio de error utilizado en el codificador AMR es más complicado ya que se utilizan los filtros de síntesis. Al no haber acceso directo al objetivo x, éste se aproxima mediante \hat{g}_{p} y + \hat{g}_{c} z. Por tanto, la minimización de error con CDALC se convierte en:
43
Además de descodificar las ganancias, ambos vectores de libro de códigos tienen que descodificarse y filtrarse con el filtro de síntesis LP. Por lo tanto, los parámetros de filtro de síntesis LP tienen que descodificarse. Esto significa que básicamente todos los parámetros tienen que descodificarse. En el codificador AMR, los vectores de libro de códigos también se ponderan mediante un filtro de ponderación específico, pero esto no se ha realizado para este criterio de error CDALC.
A continuación se describirá una segunda alternativa de la manipulación de ganancia, segunda alternativa que se denomina como minimización de error de cuantificación con memoria (procedimiento de memoria).
Este criterio minimiza el error de cuantificación teniendo en cuanta al mismo tiempo el historial de los factores de corrección anteriores. En caso de cuantificación escalar, el criterio de error es el mismo que en la primera alternativa, es decir, la función de error que va a minimizarse será la misma que en la ecuación 3.4. Pero para la cuantificación vectorial, la función de error se vuelve un poco más fácil de evaluar.
Cuantificación vectorial
Empezando a partir de la función de error obtenida para la primera alternativa y proporcionada en la ecuación 3.5, la minimización del error de la suma de dos componentes requerirá descodificar los vectores y y z. Prácticamente, esto significa que tiene que descodificarse toda la señal. En lugar de minimizar la norma del vector de error, el error puede aproximarse mediante la suma de dos componentes de error (lo que sería el caso si ambos vectores y y z fueran paralelos entre sí), concretamente el error de ganancia de tono y el error de ganancia de libro de códigos fijo. Combinando estos componentes utilizando la norma euclídea, los nuevos criterios de error pueden escribirse como:
44
La suma de la ecuación anterior (ecuación 3.5) se divide en dos componentes. Sin embargo, los vectores de libro de códigos sintetizados todavía están presentes en el término 45 de escalamiento de error de ganancia de tono. Debido a la síntesis, el término de escalamiento de error de ganancia de tono es difícil de calcular. Si se calcula, será más eficaz utilizar el criterio de minimización de error de sintetización descrito en la primera alternativa. Para eliminar el proceso de síntesis, el término 46 se sustituye por la ponderación w_{gp} de error de ganancia de tono constante. La ponderación de error de ganancia de tono tiene que elegirse cuidadosamente. Si la ponderación se elige demasiado grande, el nivel de señal no cambiará en absoluto, ya que el error más bajo se obtiene eligiendo g^{nueva}_{p} = g_{p}. Por otro lado, una ponderación pequeña garantizará la ganancia \alpha de libro de códigos deseada, pero no dará garantías para g_{p}, es decir,
47
Este algoritmo que utiliza una ponderación de ganancia de tono fija requiere descodificar (encontrando un valor correspondiente al índice de cuantificación recibido) tanto la ganancia de tono como el factor de corrección (\hat{\gamma}_{gc}) y también reconstruir la predicción g'_{c} de ganancia de libro de códigos fijo. Para poder construir la predicción, el vector de libro de códigos fijo tiene que descodificarse. Además, el desfase de tono entero es necesario para el suavizado del tono de la excitación de libro de códigos fijo. La energía de la excitación de libro de código fijo es necesaria para la predicción (véase la ecuación 3.1). Si fuera necesario, la predicción puede incluirse en la ponderación fija, es decir, 48. Después, no hay necesidad de descodificar el vector de libro de códigos fijo. Presumiblemente, esto no afectaría demasiado al rendimiento. Por otro lado, la energía de la excitación de libro de códigos fijo puede estimarse ya que es fija en gran medida. Esto permite la creación de una predicción sin descodificar el vector de libro de códigos fijo.
El intervalo de los términos 49 y 50 se muestra en las fig. 11 y 12, con muestras de voz de hombre y de niño utilizando el modo AMR de 12,2 kbit/s. El valor depende en gran medida de la energía de la señal. Por lo tanto, será beneficioso hacer que la ponderación w_{gp} de error de ganancia de tono sea adaptativa en lugar de utilizar un valor constante. Por ejemplo, el valor puede determinarse utilizando energía de señal de tiempo reducido.
La fig. 13 muestra un diagrama de flujo que ilustra de manera genérica el procedimiento de mejorar una señal de audio codificada que comprende voz codificada y/o ruido codificado según la invención. La señal de audio codificada comprende índices que representan parámetros de voz y/o parámetros de ruido que comprenden al menos un primer parámetro para ajustar una primera característica de la señal de audio, tal como el nivel de voz sintetizada y/o ruido.
En la etapa S1 de la fig. 13, un valor actual de primer parámetro se determina a partir de un índice correspondiente a al menos el primer parámetro, por ejemplo, el factor de corrección \hat{\gamma}_{gc} de ganancia de libro de códigos fijo. En la etapa S2 se ajusta el valor actual de primer parámetro, por ejemplo, multiplicado por a, con el fin de conseguir una primera característica mejorada, obteniendo de ese modo un valor mejorado de primer parámetro \alpha \cdot \hat{\gamma}^{anterior}_{gc}. Finalmente, en la etapa S3, un nuevo valor de índice se determina a partir de una tabla que relaciona valores de índice con al menos valores de primer parámetro, por ejemplo una tabla de cuantificación, de manera que un nuevo valor de primer parámetro correspondiente al nuevo valor de índice se corresponda sustancialmente con el valor mejorado de primer parámetro.
Según la realización descrita anteriormente se busca un nuevo valor de índice para \alpha \cdot \hat{\gamma}^{anterior}_{gc} de manera que la ecuación | \alpha \cdot \hat{\gamma}^{anterior}_{gc} - \hat{\gamma}^{nuevo}_{gc} | se minimice, siendo \hat{\gamma}^{nuevo}_{gc} el nuevo valor de primer parámetro correspondiente al nuevo valor de índice buscado.
Además, según la presente invención, un valor actual de segundo parámetro puede determinarse a partir del índice correspondiente además a un segundo parámetro tal como la ganancia de libro de códigos adaptativo que controla una segunda característica de voz. En este caso, el nuevo valor de índice se determina a partir de la tabla que relaciona además los valores de índice con valores de segundo parámetro, por ejemplo, una tabla de cuantificación vectorial, de manera que un nuevo valor de segundo parámetro correspondiente al nuevo valor de índice se corresponda sustancialmente con el valor actual de segundo parámetro.
Según la realización descrita anteriormente se busca un nuevo valor de índice para \alpha \cdot \hat{\gamma}^{anterior}_{gc} y g_{p\_anterior} de manera que la ecuación | \alpha \cdot \hat{\gamma}^{anterior}_{gc} - \hat{\gamma}^{nuevo}_{gc} | + ponderación \cdot | g_{p\_nueva} - g_{p\_anterior} | se minimice. g_{p\_nueva} es el nuevo valor de segundo parámetro según el nuevo valor de índice.
"Ponderación" puede ser \geq 1 para que el nuevo valor de índice se determine a partir de la tabla de manera que la correspondencia sustancial con el valor actual de segundo parámetro tenga precedencia.
La fig. 14 muestra un diagrama de bloques esquemático que ilustra un aparato 100 para mejorar una señal de audio codificada según la invención. El aparato recibe una señal de audio codificada que comprende índices que representan parámetros de voz y/o de ruido que comprenden al menos un primer parámetro para ajustar una primera característica de la señal de audio. El aparato comprende un bloque 11 de determinación de valor de parámetro para determinar un valor actual de primer parámetro a partir de un índice correspondiente a al menos el primer parámetro, un bloque 12 de ajuste para ajustar el valor actual de primer parámetro con el fin de conseguir una primera característica mejorada, obteniendo de ese modo un valor mejorado de primer parámetro, y un bloque 13 de determinación de valor de índice para determinar un nuevo valor de índice a partir de una tabla que relaciona valores de índice con al menos valores de primer parámetro, de manera que un nuevo valor de primer parámetro correspondiente al nuevo valor de índice se corresponda sustancialmente con el valor mejorado de primer parámetro.
El bloque 11 de determinación de valor de parámetro puede determinar además un valor actual de segundo parámetro a partir del índice correspondiente además a un segundo parámetro, y el bloque 13 de determinación de valor de índice puede determinar entonces el nuevo valor de índice a partir de la tabla que relaciona además los valores de índice con valores de segundo parámetro, de manera que un nuevo valor de segundo parámetro correspondiente al nuevo valor de índice se corresponda sustancialmente con el valor actual de segundo parámetro. Por lo tanto, el valor de índice se optimiza simultáneamente tanto para el primer como para el segundo parámetro.
El bloque 13 de determinación de valor de índice puede determinar el nuevo valor de índice a partir de la tabla de manera que la correspondencia sustancial con el valor actual de segundo parámetro tenga precedencia.
El aparato 100 puede incluir además medios de sustitución para sustituir un valor actual del índice correspondiente al al menos primer parámetro por el nuevo valor de índice determinado, y transmitir voz codificada mejorada que contenga el nuevo valor de índice.
Haciendo referencia a las fig. 13 y 14, el valor de primer parámetro puede ser el valor de parámetro de nivel de ruido de fondo que se ha determinado y ajustado y para el que se ha determinado un nuevo valor de índice para ajustar el nivel de ruido de fondo.
Como alternativa, el valor de segundo parámetro puede ser el parámetro de nivel de ruido de fondo cuyo valor de índice se determina según el nivel de voz ajustado.
Tal y como se ha mencionado anteriormente, la manipulación de nivel de voz requiere manipular además el parámetro de nivel de ruido de fondo durante las pausas de voz en DTX.
Según el códec AMR, el parámetro de nivel de ruido de fondo, la energía de trama logarítmica media, se cuantifican con 6 bits. El nivel de ruido aceptable puede ajustarse modificando el valor de índice de energía. El nivel puede ajustarse en 1,5 dB, por lo que es posible encontrar un nivel de ruido aceptable adecuado correspondiente al cambio del nivel de voz.
Los parámetros de ruido aceptable evaluados (el vector f^{promedio} de parámetro LSF (frecuencia espectral lineal) promedio y la energía de trama logarítmica media) en^{media}_{log} se codifican en una trama especial, denominada trama descriptora de silencio (SID) para la transmisión al lado de recepción. Los parámetros proporcionan información relacionada con el nivel (en^{media}_{log}) y con el espectro (f^{promedio}) del ruido de fondo. Pueden encontrarse más detalles en el documento "3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; Mandatory Speech Codec speech processing functions; AMR speech codec; Source controlled rate operation (Release 6)" de 3GPP TS 26.093 V4.0.0 (2001-03).
La energía de trama se calcula para cada trama marcada con un detector de actividad de voz VAD = 0 según la ecuación:
\vskip1.000000\baselineskip
51
\vskip1.000000\baselineskip
donde x es la señal de voz de entrada filtrada por HP de la trama i actual. La energía logarítmica media, que se transmitirá, se calcula mediante:
\vskip1.000000\baselineskip
52
\vskip1.000000\baselineskip
La energía logarítmica media se cuantifica mediante un cuantificador algorítmico de 6 bits. La cuantificación se lleva a cabo utilizando una función de cuantificación, tal y como se define en el documento "AMR Floating-point Speech Codec C-source" de 3GPP TS 26.104 V4.1.0 2001-06,
\vskip1.000000\baselineskip
53
\vskip1.000000\baselineskip
donde el valor del índice está limitado al intervalo [0...63], es decir, en un intervalo de 6 bits.
\newpage
El índice puede calcularse utilizando un logaritmo de base 10 de la siguiente manera:
\vskip1.000000\baselineskip
54
\vskip1.000000\baselineskip
donde 10 log_{10} en^{media}(i) es la energía en decibelios. Por lo tanto, se muestra que una etapa de cuantificación corresponde a aproximadamente 1,5 dB.
A continuación se describirá el ajuste de ganancia de los parámetros de ruido aceptable.
Puesto que se transmite un parámetro de energía, la energía de señal puede manipularse directamente modificando los parámetros de energía. Tal y como se ha mostrado anteriormente, una etapa de cuantificación es igual a 1,5 dB. Suponiendo que cada una de las 8 tramas de un intervalo de actualización SID se escalarán por \alpha, el nuevo índice puede obtenerse de la siguiente manera
55
Puesto que el índice anterior fue
56
\vskip1.000000\baselineskip
el nuevo índice puede aproximarse como
57
Haciendo referencia de nuevo a las fig. 13 y 14, un valor de parámetro que va a ajustarse puede ser el valor de parámetro de ruido aceptable. Por consiguiente, un nuevo valor de índice índice^{nuevo} se determina tal y como se ha mencionado anteriormente. Dicho de otro modo, puede detectarse un valor índice actual de índice de parámetro de ruido de fondo, y un nuevo valor índice^{nuevo} de índice de parámetro de ruido de fondo puede determinarse sumando \llcorner{4log_{2} \ \alpha}\lrcorner al valor índice actual de índice de parámetro de ruido de fondo, donde \alpha corresponde al mejoramiento de la primera característica representada por el primer parámetro de voz.
El nivel de la señal de voz sintetizada puede ajustarse manipulando el índice de factor de ganancia de libro de códigos fijo, tal y como se ha mostrado anteriormente. Aunque es una medida de error de predicción, el índice de factor de ganancia de libro de códigos fijo no revela el nivel de la señal de voz. Por lo tanto, para controlar la manipulación de ganancia, es decir, para determinar si el nivel debe modificarse, el nivel de señal de voz debe estimarse en primer lugar.
\newpage
En TFO, el sexto o séptimo MSB de las muestras de voz PCM (no comprimidas) se transmite al extremo lejano sin modificarse para facilitar una interrupción TFO uniforme. Este sexto o séptimo MSB puede utilizarse para estimar el nivel de voz.
Si estas muestras de voz PCM no están disponibles, la señal de voz codificada debe descodificarse al menos parcialmente (no siendo necesario un filtrado posterior) para estimar el nivel de voz.
Como alternativa, existe la posibilidad de utilizar una ganancia fija, evitando de ese modo una descodificación completa. La fig. 15 muestra un diagrama de bloques que ilustra un esquema con la posibilidad de utilizar una ganancia constante en la manipulación de ganancia descrita anteriormente. En este caso no se requiere descodificar las señales PCM de la señal de códec para utilizar las señales PCM en la estimación de ganancia (es decir, la estimación de nivel de voz). La voz puede codificarse, por ejemplo, con códecs de voz AMR, AMR-WB (banda ancha de AMR), GSM FR, GSM EFR y GSM HR.
La fig. 16 muestra un ejemplo de implementación a alto nivel de la presente invención en una MGW (pasarela multimedia) de la arquitectura de red 3G. Por ejemplo, la presente invención puede implementarse en un DSP (procesador de señales digitales) de la MGW. Sin embargo, debe observarse que la implementación de la invención no está limitada a una MGW.
Tal y como se muestra en la fig. 16, la voz codificada se introduce en la MGW. La voz codificada comprende al menos un índice correspondiente a un valor de un parámetro de voz que ajusta el nivel de voz sintetizada. Este índice también puede indicar un valor de otro parámetro de voz que quede afectado por el parámetro de voz para ajustar el nivel de voz sintetizada. Por ejemplo, este otro parámetro de voz ajusta la periodicidad o tono de la voz sintetizada.
En un VED (dispositivo de mejoramiento de voz) mostrado en la fig. 16, el índice se controla para ajustar el nivel de la voz a un nivel deseado. Un nuevo índice que indica valores de los parámetros de voz que afectan al nivel de la voz, tal como el factor de ganancia de libro códigos fijo y la ganancia de libro de códigos adaptativo, se determina minimizando un error entre el nivel deseado y el nivel efectivo generado. Como resultado se obtiene el nuevo índice que índica valores de los parámetros de voz que generan el nivel de voz deseado. El índice original se sustituye por el nuevo índice y la voz codificada mejorada se transmite.
Debe entenderse que la descodificación parcial de la voz mostrada en la fig. 16 se refiere a medios de control para determinar un nivel de voz actual para decidir si el nivel debe ajustarse.
Las realizaciones descritas anteriormente de la presente invención no solo pueden utilizarse en el propio control de nivel, sino además en la supresión de ruido y control de eco (procesamiento no lineal) en el dominio codificado. La supresión de ruido puede utilizar la técnica anterior, por ejemplo, ajustando el nivel de ruido aceptable durante las pausas de voz. El control de eco puede utilizar la técnica anterior, por ejemplo, atenuando la señal de voz durante ráfagas de eco.
La presente invención no pretende limitarse solamente a la comunicación de voz TFO y TrFO y a la comunicación de voz a través de redes de conmutación de paquetes sino que, en cambio, comprende el mejoramiento de señales de audio codificadas en general. La invención puede aplicarse además en el mejoramiento de señales de audio codificadas relacionadas, por ejemplo, con aplicaciones de flujo continuo de audio/voz/multimedia y a aplicaciones MMS (servicio de mensajería multimedia).
Debe entenderse que la descripción anterior sirve para ilustrar la invención y no debe considerarse que limita la invención. A los expertos en la técnica se les pueden ocurrir diversas modificaciones y aplicaciones sin apartarse del alcance de la invención definida por las reivindicaciones adjuntas.

Claims (15)

1. Un procedimiento de mejoramiento de una señal de audio codificada que comprende índices que representan parámetros de señales de audio de señales de audio que comprenden al menos un primer parámetro que representa una primera característica de la señal de audio y un segundo parámetro, comprendiendo el procedimiento las etapas de:
\quad
determinar un valor actual de primer parámetro a partir de un índice correspondiente a un primer parámetro;
\quad
ajustar el valor actual de primer parámetro con el fin de conseguir una primera característica mejorada, obteniendo de ese modo un valor mejorado de primer parámetro;
\quad
determinar un valor actual de segundo parámetro a partir del índice correspondiente además a un segundo parámetro; y
\quad
determinar un nuevo valor de índice a partir de una tabla que relaciona valores de índice con valores de primer parámetro y que relaciona los valores de índice con valores de segundo parámetro, de manera que un nuevo valor de primer parámetro correspondiente al nuevo valor de índice y un nuevo valor de segundo parámetro correspondiente al nuevo valor de índice se correspondan sustancialmente con el valor mejorado de primer parámetro y con el valor actual de segundo parámetro.
\vskip1.000000\baselineskip
2. Un procedimiento de mejoramiento de una señal de audio codificada que comprende índices que representan parámetros de señales de audio que comprenden al menos un primer parámetro que representa una primera característica de la señal de audio y un parámetro de ruido de fondo, comprendiendo el procedimiento las etapas de:
\quad
determinar un valor actual de primer parámetro a partir de un índice correspondiente a al menos un primer parámetro;
\quad
ajustar el valor actual de primer parámetro con el fin de conseguir una primera característica mejorada, obteniendo de ese modo un valor mejorado de primer parámetro;
\quad
determinar un nuevo valor de índice a partir de una tabla que relaciona valores de índice con al menos valores de primer parámetro, de manera que un nuevo valor de primer parámetro correspondiente al nuevo valor de índice se corresponda sustancialmente con el valor mejorado de primer parámetro;
\quad
detectar un valor actual de índice de parámetro de ruido de fondo; y
\quad
determinar un nuevo valor de índice de parámetro de ruido de fondo correspondiente a la primera característica mejorada.
\vskip1.000000\baselineskip
3. El procedimiento según la reivindicación 1, que comprende además la etapa de:
\quad
sustituir un valor actual del índice correspondiente a al menos el primer parámetro por el nuevo valor de índice determinado.
4. El procedimiento según la reivindicación 1, que comprende además las etapas de:
\quad
detectar un valor actual de índice de parámetro de ruido de fondo; y
\quad
determinar un nuevo valor de índice de parámetro de ruido de fondo correspondiente a la primera característica mejorada.
5. El procedimiento según la reivindicación 1, que comprende además la etapa de determinar el nuevo valor de índice a partir de la tabla de manera que una correspondencia sustancial del valor actual de segundo parámetro tenga precedencia.
6. El procedimiento según la reivindicación 2, que comprende además las etapas de:
\quad
sustituir un valor actual del índice correspondiente al primer parámetro por el nuevo valor de índice determinado.
7. Un aparato para mejorar una señal de audio codificada que comprende índices que representan parámetros de señales de audio que comprenden al menos un primer parámetro que representa una primera característica de la señal de audio y un segundo parámetro, comprendiendo el aparato:
\quad
medios de determinación de valor de parámetro para determinar un valor actual de primer parámetro a partir de un índice correspondiente a un primer parámetro y para determinar un valor actual de segundo parámetro a partir del índice correspondiente además a un segundo parámetro;
\quad
medios de ajuste para ajustar el valor actual de primer parámetro con el fin de conseguir una primera característica mejorada, obteniendo de ese modo un valor mejorado de primer parámetro; y
\quad
medios de determinación de valor de índice para determinar un nuevo valor de índice a partir de una tabla que relaciona valores de índice con valores de primer parámetro y que relaciona los valores de índice con valores de segundo parámetro, donde un nuevo valor de primer parámetro correspondiente al nuevo valor de índice y un nuevo valor de segundo parámetro correspondiente al nuevo valor de índice se corresponden sustancialmente con el valor mejorado de primer parámetro y con el valor actual de segundo parámetro.
\vskip1.000000\baselineskip
8. Un aparato para mejorar una señal de audio codificada que comprende índices que representan parámetros de señales de audio que comprenden al menos un primer parámetro que representa una primera característica de la señal de audio y un parámetro de ruido de fondo, comprendiendo el aparato:
\quad
medios de determinación de valor de parámetro para determinar un valor actual de primer parámetro a partir de un índice correspondiente a al menos un primer parámetro;
\quad
medios de ajuste para ajustar el valor actual de primer parámetro con el fin de conseguir una primera característica mejorada, obteniendo de ese modo un valor mejorado de primer parámetro;
\quad
medios de determinación de valor de índice para determinar un nuevo valor de índice a partir de una tabla que relaciona valores de índice con al menos valores de primer parámetro, de manera que un nuevo valor de primer parámetro correspondiente al nuevo valor de índice se corresponda sustancialmente con el valor mejorado de primer parámetro;
\quad
medios de detección para detectar un valor actual de índice de parámetro de ruido de fondo; y
\quad
medios de determinación para determinar un nuevo valor de índice de parámetro de ruido de fondo correspondiente a la primera característica mejorada.
\vskip1.000000\baselineskip
9. El aparato según la reivindicación 7, que comprende además:
\quad
medios de sustitución para sustituir un valor actual del índice correspondiente a al menos el primer parámetro por el nuevo valor de índice determinado.
10. El aparato según la reivindicación 7, que comprende además:
\quad
medios de detección para detectar un valor actual de índice de parámetro de ruido de fondo; y
\quad
medios de determinación para determinar un nuevo valor de índice de parámetro de ruido de fondo correspondiente a la primera característica mejorada.
\vskip1.000000\baselineskip
11. El aparato según la reivindicación 7, en el que los medios de determinación de valor de índice están configurados para determinar el nuevo valor de índice a partir de la tabla de manera que una correspondencia sustancial del valor actual de segundo parámetro tenga precedencia.
12. El aparato según la reivindicación 8, que comprende además:
\quad
medios de sustitución para sustituir un valor actual del índice correspondiente al primer parámetro por el nuevo valor de índice determinado.
13. Un producto de programa de ordenador que comprende partes adaptadas para llevar a cabo las etapas del procedimiento según una cualquiera de las reivindicaciones 1 a 6 cuando el producto se ejecuta en un ordenador.
14. El producto de programa de ordenador según la reivindicación 13, en el que dicho producto de programa de ordenador puede cargarse directamente en la memoria interna del ordenador.
15. Un medio legible por ordenador en el que está almacenado el producto de programa de ordenador según la reivindicación 13.
ES04029839T 2003-12-18 2004-12-16 Mejoramiento de audio en dominio codificado. Active ES2337137T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP03029182 2003-12-18
EP03029182 2003-12-18
US10/803,103 US7613607B2 (en) 2003-12-18 2004-03-18 Audio enhancement in coded domain
US803103 2004-03-18

Publications (1)

Publication Number Publication Date
ES2337137T3 true ES2337137T3 (es) 2010-04-21

Family

ID=34673578

Family Applications (1)

Application Number Title Priority Date Filing Date
ES04029839T Active ES2337137T3 (es) 2003-12-18 2004-12-16 Mejoramiento de audio en dominio codificado.

Country Status (4)

Country Link
US (1) US7613607B2 (es)
AT (1) ATE456128T1 (es)
DE (1) DE602004025193D1 (es)
ES (1) ES2337137T3 (es)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1796083B1 (en) * 2000-04-24 2009-01-07 Qualcomm Incorporated Method and apparatus for predictively quantizing voiced speech
US10004110B2 (en) * 2004-09-09 2018-06-19 Interoperability Technologies Group Llc Method and system for communication system interoperability
US8010353B2 (en) * 2005-01-14 2011-08-30 Panasonic Corporation Audio switching device and audio switching method that vary a degree of change in mixing ratio of mixing narrow-band speech signal and wide-band speech signal
US8874437B2 (en) * 2005-03-28 2014-10-28 Tellabs Operations, Inc. Method and apparatus for modifying an encoded signal for voice quality enhancement
US20060217971A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for modifying an encoded signal
US20060215683A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for voice quality enhancement
US20070160154A1 (en) * 2005-03-28 2007-07-12 Sukkar Rafid A Method and apparatus for injecting comfort noise in a communications signal
US20060217970A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for noise reduction
US20060217983A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for injecting comfort noise in a communications system
US20060217988A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for adaptive level control
US20060217972A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for modifying an encoded signal
US20060217969A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for echo suppression
US7596491B1 (en) * 2005-04-19 2009-09-29 Texas Instruments Incorporated Layered CELP system and method
US9058812B2 (en) * 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
KR20080047443A (ko) * 2005-10-14 2008-05-28 마츠시타 덴끼 산교 가부시키가이샤 변환 부호화 장치 및 변환 부호화 방법
WO2007064256A2 (en) * 2005-11-30 2007-06-07 Telefonaktiebolaget Lm Ericsson (Publ) Efficient speech stream conversion
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
CN101548319B (zh) * 2006-12-13 2012-06-20 松下电器产业株式会社 后置滤波器以及滤波方法
DE602007010836D1 (de) * 2007-01-18 2011-01-05 Ericsson Telefon Ab L M Technik zur steuerung der codec-auswahl entlang einem komplexen anrufpfad
US20080181392A1 (en) * 2007-01-31 2008-07-31 Mohammad Reza Zad-Issa Echo cancellation and noise suppression calibration in telephony devices
US20080274705A1 (en) * 2007-05-02 2008-11-06 Mohammad Reza Zad-Issa Automatic tuning of telephony devices
WO2009066959A1 (en) * 2007-11-21 2009-05-28 Lg Electronics Inc. A method and an apparatus for processing a signal
US8554551B2 (en) 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context replacement by audio level
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
US20120029926A1 (en) 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
US9026434B2 (en) * 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
WO2014032738A1 (en) * 2012-09-03 2014-03-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for providing an informed multichannel speech presence probability estimation
MX371425B (es) * 2013-06-21 2020-01-29 Fraunhofer Ges Forschung Aparato y metodo para la ocultacion mejorada del libro de codigo adaptativo en la ocultacion similar a acelp mediante la utilizacion de una estimacion mejorada del retardo de tono.
US9384746B2 (en) * 2013-10-14 2016-07-05 Qualcomm Incorporated Systems and methods of energy-scaled signal processing
CN110246510B (zh) * 2019-06-24 2021-04-06 电子科技大学 一种基于RefineNet的端到端语音增强方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI116642B (fi) 1998-02-09 2006-01-13 Nokia Corp Puheparametrien käsittelymenetelmä, puhekoodauksen käsittely-yksikkö ja verkkoelementti
EP1190494A1 (en) 1999-07-02 2002-03-27 Tellabs Operations, Inc. Coded domain adaptive level control of compressed speech
JP4639441B2 (ja) 1999-09-01 2011-02-23 ソニー株式会社 ディジタル信号処理装置および処理方法、並びにディジタル信号記録装置および記録方法
SE521693C3 (sv) * 2001-03-30 2004-02-04 Ericsson Telefon Ab L M En metod och anordning för brusundertryckning
US7272555B2 (en) * 2001-09-13 2007-09-18 Industrial Technology Research Institute Fine granularity scalability speech coding for multi-pulses CELP-based algorithm
WO2003098598A1 (en) 2002-05-13 2003-11-27 Conexant Systems, Inc. Transcoding of speech in a packet network environment
US20040243404A1 (en) * 2003-05-30 2004-12-02 Juergen Cezanne Method and apparatus for improving voice quality of encoded speech signals in a network
US20050071154A1 (en) * 2003-09-30 2005-03-31 Walter Etter Method and apparatus for estimating noise in speech signals

Also Published As

Publication number Publication date
DE602004025193D1 (de) 2010-03-11
ATE456128T1 (de) 2010-02-15
US20050137864A1 (en) 2005-06-23
US7613607B2 (en) 2009-11-03

Similar Documents

Publication Publication Date Title
ES2337137T3 (es) Mejoramiento de audio en dominio codificado.
JP4698593B2 (ja) 音声復号化装置および音声復号化方法
JP3566652B2 (ja) 広帯域信号の効率的な符号化のための聴覚重み付け装置および方法
ES2318820T3 (es) Procedimiento y aparatos de cuantificacion predictiva del habla de voces.
KR100805983B1 (ko) 가변율 음성 코더에서 프레임 소거를 보상하는 방법
JP4495209B2 (ja) 符号化済みマルチチャンネルオーディオ信号に基づくモノオーディオ信号の合成
CA2428888C (en) Method and system for comfort noise generation in speech communication
JP4846712B2 (ja) スケーラブル復号化装置およびスケーラブル復号化方法
ES2690252T3 (es) Ajuste de ganancia temporal basado en la característica de señal de banda alta
KR20010024869A (ko) 적응 포스트필터를 포함하는 디코딩 방법 및 시스템
JP2008171017A (ja) 減少レート、可変レートの音声分析合成を実行する方法及び装置
JP3955179B2 (ja) 音声符号化装置、音声復号化装置、およびこれらの方法
JPH04233600A (ja) 32Kb/sワイドバンド音声の低遅延コード励起線型予測符号化
US7606702B2 (en) Speech decoder, speech decoding method, program and storage media to improve voice clarity by emphasizing voice tract characteristics using estimated formants
US6424942B1 (en) Methods and arrangements in a telecommunications system
TW201212005A (en) Decoding device, encoding device, and methods of the same
US20100106490A1 (en) Method and Speech Encoder with Length Adjustment of DTX Hangover Period
JP2003504669A (ja) 符号化領域雑音制御
EP1544848B1 (en) Audio enhancement in coded domain
US20050071154A1 (en) Method and apparatus for estimating noise in speech signals
US7584096B2 (en) Method and apparatus for encoding speech
JP4135242B2 (ja) 受信装置及び方法、通信装置及び方法
JP4135240B2 (ja) 受信装置及び方法、通信装置及び方法
CN100369108C (zh) 编码域中的音频增强的方法和设备
Choudhary et al. Study and performance of amr codecs for gsm