ES2337137T3 - Mejoramiento de audio en dominio codificado. - Google Patents
Mejoramiento de audio en dominio codificado. Download PDFInfo
- Publication number
- ES2337137T3 ES2337137T3 ES04029839T ES04029839T ES2337137T3 ES 2337137 T3 ES2337137 T3 ES 2337137T3 ES 04029839 T ES04029839 T ES 04029839T ES 04029839 T ES04029839 T ES 04029839T ES 2337137 T3 ES2337137 T3 ES 2337137T3
- Authority
- ES
- Spain
- Prior art keywords
- parameter
- value
- index
- new
- quad
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006872 improvement Effects 0.000 title description 7
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000005236 sound signal Effects 0.000 claims abstract description 37
- 238000001514 detection method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 3
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000011002 quantification Methods 0.000 description 54
- 230000003044 adaptive effect Effects 0.000 description 51
- 239000013598 vector Substances 0.000 description 49
- 238000012937 correction Methods 0.000 description 38
- 230000006870 function Effects 0.000 description 20
- 238000003786 synthesis reaction Methods 0.000 description 18
- 230000015572 biosynthetic process Effects 0.000 description 17
- 230000008859 change Effects 0.000 description 13
- 230000005284 excitation Effects 0.000 description 11
- 230000003321 amplification Effects 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 10
- 238000003199 nucleic acid amplification method Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000009499 grossing Methods 0.000 description 7
- IVEKVTHFAJJKGA-BQBZGAKWSA-N (2s)-2-amino-5-[[(2r)-1-ethoxy-1-oxo-3-sulfanylpropan-2-yl]amino]-5-oxopentanoic acid Chemical compound CCOC(=O)[C@H](CS)NC(=O)CC[C@H](N)C(O)=O IVEKVTHFAJJKGA-BQBZGAKWSA-N 0.000 description 6
- 238000010130 dispersion processing Methods 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000009795 derivation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 241000819038 Chichester Species 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereo-Broadcasting Methods (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
Un procedimiento de mejoramiento de una señal de audio codificada que comprende índices que representan parámetros de señales de audio de señales de audio que comprenden al menos un primer parámetro que representa una primera característica de la señal de audio y un segundo parámetro, comprendiendo el procedimiento las etapas de: determinar un valor actual de primer parámetro a partir de un índice correspondiente a un primer parámetro; ajustar el valor actual de primer parámetro con el fin de conseguir una primera característica mejorada, obteniendo de ese modo un valor mejorado de primer parámetro; determinar un valor actual de segundo parámetro a partir del índice correspondiente además a un segundo parámetro; y determinar un nuevo valor de índice a partir de una tabla que relaciona valores de índice con valores de primer parámetro y que relaciona los valores de índice con valores de segundo parámetro, de manera que un nuevo valor de primer parámetro correspondiente al nuevo valor de índice y un nuevo valor de segundo parámetro correspondiente al nuevo valor de índice se correspondan sustancialmente con el valor mejorado de primer parámetro y con el valor actual de segundo parámetro.
Description
Mejoramiento de audio en dominio codificado.
La presente invención se refiere al mejoramiento
de voz y, en particular, a un procedimiento y a un aparato para
mejorar una señal de audio codificada.
La calidad de voz mejorada creada por los
algoritmos DSP (procesamiento de señales digitales) de procesamiento
de voz se ha utilizado para diferenciar proveedores de red. La
transferencia a redes de paquetes o a redes con un funcionamiento
libre en tándem (TFO) extendido o con un funcionamiento libre de
transcodificador (TrFO) reducirá esta capacidad de diferenciar
redes con algoritmos de procesamiento de voz tradicionales. Por lo
tanto, los operadores que generalmente han sido responsables de
mantener la calidad de voz para sus clientes están demandando
algoritmos de procesamiento de voz que también se utilicen para la
voz codificada.
TFO es una norma de voz que se utilizará en las
redes GSM (sistema global de comunicaciones móviles) y en las redes
3G (tercera generación) evolucionadas de GSM. Está destinada a
evitar la doble codificación/descodificación tradicional de voz en
configuraciones de llamadas entre móviles. El principal
inconveniente de una configuración en tándem es la degradación de
la calidad de voz introducida por la doble transcodificación. Según
las pruebas de escucha del ETSI, esta degradación es normalmente
más apreciable cuando los códecs de voz funcionan a bajas
velocidades. Además, un nivel de ruido de fondo más alto aumenta la
degradación.
Cuando las conexiones de origen y destino
utilizan el mismo códec de voz, es posible transmitir de manera
transparente las tramas de voz recibidas desde la MS (estación
móvil) origen hasta la MS destino sin activar las funciones de
transcodificación en las redes origen y destino.
Las principales ventajas del funcionamiento
libre en tándem son la mejora de la calidad de voz evitando la
doble transcodificación en la red, posibles ahorros en los enlaces
de transmisión entre PLMN (red móvil pública terrestre), que
transportan voz comprimida compatible con un esquema de
submultiplexión de 16 kbit/s o de 8 kbit/s, incluyendo transmisión
por conmutación de paquetes, posibles ahorros en la potencia de
procesamiento del equipo de red puesto que se omiten las funciones
de transcodificación en las unidades de transcodificador, y una
posible reducción en el retardo de transmisión de extremo a
extremo.
En la configuración de llamada TFO, un
dispositivo de transcodificador está presente físicamente en la
trayectoria de la señal, pero las funciones de transcodificación se
omiten. El dispositivo de transcodificación puede llevar a cabo
funciones de control y de conversión de protocolos. Por otro lado,
en el funcionamiento libre de transcodificador (TrFO), no hay
ningún dispositivo de transcodificador físicamente presente y, por
lo tanto, no se activa ninguna función de control o de conversión u
otras funciones asociadas con el mismo.
El nivel de voz es un factor importante que
afecta a la calidad de voz percibida. Normalmente, en el lado de
red se utilizan algoritmos de control de nivel automático que
ajustan el nivel de voz hasta un determinado nivel objetivo deseado
incrementando el nivel de voz débil y reduciendo en cierto grado el
nivel de voces muy altas.
Estos procedimientos no pueden utilizarse como
tales en futuras redes de paquetes donde la voz se propaga en el
formato codificado de extremo a extremo desde el dispositivo de
transmisión hasta el dispositivo de recepción.
Actualmente, la voz codificada se descodifica en
la red y el mejoramiento de voz se lleva a cabo con muestras PCM
lineales utilizando procedimientos de mejoramiento de voz
tradicionales. Después, la voz se codifica de nuevo y se transmite
a la parte de recepción.
Sin embargo, por ejemplo, para el códec de voz
AMR el control de nivel es más difícil en los modos inferiores
debido a que la ganancia de libro de códigos fijo ya no puede
cuantificarse de manera escalar sino que se cuantifica de manera
vectorial junto con la ganancia de libro de códigos adaptativo.
Un objeto de la invención es proporcionar un
procedimiento y un aparato para mejorar una señal de audio
codificada mediante los cuales se resuelvan los problemas descritos
anteriormente y se obtenga un mejoramiento adicional de una señal
de audio codificada.
Según un primer aspecto de la invención, este
objeto se consigue mediante un aparato y un procedimiento de
mejoramiento de una señal de audio codificada que comprende índices
que representan parámetros de señales de audio que comprenden al
menos un primer parámetro que representa una primera característica
de la señal de audio y un segundo parámetro, lo que comprende:
- \quad
- determinar un valor actual de primer parámetro a partir de un índice correspondiente a un primer parámetro;
- \quad
- ajustar el valor actual de primer parámetro con el fin de conseguir una primera característica mejorada, obteniendo de ese modo un valor mejorado de primer parámetro;
- \quad
- determinar un valor actual de segundo parámetro a partir del índice correspondiente además a un segundo parámetro; y
- \quad
- determinar un nuevo valor de índice a partir de una tabla que relaciona valores de índice con valores de primer parámetro y que relaciona los valores de índice con valores de segundo parámetro, de manera que un nuevo valor de primer parámetro correspondiente al nuevo valor de índice y un nuevo valor de segundo parámetro correspondiente al nuevo valor de índice se correspondan sustancialmente con el valor mejorado de primer parámetro y con el valor actual de segundo parámetro.
\vskip1.000000\baselineskip
Según un segundo aspecto de la invención, este
objeto se consigue mediante un aparato y un procedimiento de
mejoramiento de una señal de audio codificada que comprende índices
que representan parámetros de señales de audio que comprenden al
menos un primer parámetro que representa una primera característica
de la señal de audio y un parámetro de ruido de fondo, lo que
comprende:
- \quad
- determinar un valor actual de primer parámetro a partir de un índice correspondiente a al menos un primer parámetro;
- \quad
- ajustar el valor actual de primer parámetro con el fin de conseguir una primera característica mejorada, obteniendo de ese modo un valor mejorado de primer parámetro;
- \quad
- determinar un nuevo valor de índice a partir de una tabla que relaciona valores de índice con al menos valores de primer parámetro, de manera que un nuevo valor de primer parámetro correspondiente al nuevo valor de índice se corresponda sustancialmente con el valor mejorado de primer parámetro;
- \quad
- detectar un valor actual de índice de parámetro de ruido de fondo; y
- \quad
- determinar un nuevo valor de índice de parámetro de ruido de fondo correspondiente a la primera característica mejorada.
\vskip1.000000\baselineskip
La invención también puede realizarse como un
producto de programa informático que comprenda partes para llevar a
cabo las etapas cuando el producto se ejecute en un ordenador.
Según una realización de la invención, una señal
de audio codificada que comprende voz y/o ruido en un dominio
codificado se mejora manipulando parámetros de ruido y/o de voz
codificada de un códec de voz AMR (adaptativo a múltiples
velocidades). Como resultado, puede obtenerse en la red un control
de nivel adaptativo, un control de eco y una supresión de ruido
incluso si la voz no se transforma en muestras PCM lineales, tal
como es el caso de las redes TFO, TrFO y de futuras redes de
paquetes.
Más específicamente, según una realización de la
invención, se describe un procedimiento para controlar el nivel de
la voz codificada AMR para todos los modos de 12,2 kbit/s, 10,2
kbit/s, 7,95 kbit/s, 7,40 kbit/s, 6,70 kbit/s, 5,90 kbit/s, 5,15
kbit/s y 4,75 kbit/s de los códec AMR. El nivel de la voz codificada
se ajusta modificando uno de los parámetros de voz codificada,
concretamente el índice de cuantificación del factor de ganancia de
libro de códigos fijo en los modos de 12,2 kbit/s y 7,95 kbit/s. En
el resto de modos, la ganancia de libro de códigos fijo se
cuantifica conjuntamente de manera vectorial con la ganancia de
libro de códigos adaptativo y, por lo tanto, el ajuste del nivel de
la voz codificada requiere modificar tanto el factor de ganancia de
libro de códigos fijo como la ganancia de libro de códigos
adaptativo (índice colectivo).
Según la invención se obtiene un nuevo índice de
ganancia de manera que el error entre la ganancia deseada y la
ganancia efectiva generada se minimiza. El control de nivel
propuesto no provoca artefactos audibles.
Por lo tanto, según la invención, el control de
nivel está permitido también a velocidades binarias AMR inferiores
(no solamente de 12,2 kbit/s y de 7,95 kbit/s). El control de nivel
en el modo AMR de 12,2 kbit/s puede mejorarse teniendo en cuenta el
control de nivel correspondiente requerido para el nivel de ruido
aceptable.
\vskip1.000000\baselineskip
La fig. 1 muestra un modelo simplificado de
síntesis de voz en AMR.
La fig. 2 muestra el efecto de una operación DTX
en un algoritmo de manipulación de ganancia con muestras de voz de
niño con ruido.
\newpage
La fig. 3 muestra un diagrama que ilustra una
respuesta de un libro de códigos adaptativo para una función
escalonada.
La fig. 4 muestra una tabla de cuantificación de
32 niveles no lineal de un factor de ganancia de libro de códigos
fijo en los modos de 12,2 kbit/s y de 7,95 kbit/s.
La fig. 5 muestra un diagrama que ilustra la
diferencia entre niveles de cuantificación adyacentes en la tabla
de cuantificación de la fig. 4.
La fig. 6 muestra una tabla de cuantificación
vectorial para una ganancia de libro de códigos adaptativo y una
ganancia de libro de códigos fijo en los modos de 10,2, 7,4 y 6,7
kbit/s.
La fig. 7 muestra una tabla de cuantificación
vectorial para una ganancia de libro de códigos adaptativo y un
factor de ganancia de libro de códigos fijo en los modos de 5,90 y
5,15 kbit/s.
La fig. 8 muestra un diagrama que ilustra un
cambio en la ganancia de libro de códigos fijo cuando el factor de
ganancia de libro de códigos fijo se modifica en una etapa de
cuantificación.
Las fig. 9 y 10 muestran diagramas que ilustran
niveles recuantificados del factor de ganancia de libro de códigos
fijo.
La fig. 11 ilustra valores de términos
1 y 2 con muestras de voz de
hombre.
La fig. 12 ilustra valores de términos
3 y 4 con muestras de voz de niño.
La fig. 13 muestra un diagrama de flujo que
ilustra un procedimiento de mejoramiento de una señal de audio
codificada según la invención.
La fig. 14 muestra un diagrama de bloques
esquemático que ilustra un aparato para mejorar una señal de audio
codificada según la presente invención.
La fig. 15 muestra un diagrama de bloques que
ilustra el uso de ganancia fija.
La fig. 16 muestra un diagrama que ilustra una
implementación a alto nivel de la invención en una pasarela
multimedia.
\vskip1.000000\baselineskip
A continuación se describirá una realización de
la presente invención con relación a una señal de audio codificada
AMR que comprende voz y/o ruido. Sin embargo, la invención no está
limitada a la codificación AMR y puede aplicarse a cualquier
técnica de codificación de señales de audio que utilice índices
correspondientes a parámetros de señales de audio. Por ejemplo,
tales parámetros de señales de audio pueden controlar un nivel de
voz sintetizada. Dicho de otro modo, la invención puede aplicarse a
una técnica de codificación de señales de audio en la que un índice
que indique un valor de un parámetro de señal de audio que controle
una primera característica de la señal de audio se transmita como
una señal de audio codificada, donde este índice también puede
indicar un valor de un parámetro de señal de audio que controle
otra característica de señal de audio tal como el tono de la voz
sintetizada.
El códec de voz adaptativo a múltiples
velocidades (AMR) se presenta en la extensión necesaria para
ilustrar las realizaciones preferidas. Las referencias "3rd
Generation Partnership Project; Technical Specification Group
Services and System Aspects; Mandatory Speech Codec speech
processing functions; AMR speech codec; Transcoding functions
(Release 4)" de 3GPP TS 26.090 V4.0.0
(2001-03) y "Digital speech coding for low bit
rate communications systems", capítulo 6:
'Analysis-by-synthesis coding of
speech,' páginas 174 a 214, John Wiley & Sons,
Chichester,1994, Kondoz A. M. Universidad de Surrey, Reino Unido,
contienen información adicional. El códec de voz adaptativo a
múltiples velocidades (AMR) está basado en el modelo de codificación
predictiva lineal excitada por código (CELP). Consiste en ocho
códecs fuente, o modos de funcionamiento, con velocidades binarias
de 12,2 10,2, 7,95, 7,40, 6,70, 5,90, 5,15 y 4,75 kbit/s. Los
principios básicos de codificación y descodificación del códec AMR
se explicarán brevemente a continuación. Además, las cuestiones
relevantes para el control de ganancia de dominio de parámetro se
describirán en mayor detalle.
\newpage
El proceso de codificación AMR comprende tres
etapas principales:
- \quad
- Las correlaciones a corto plazo entre muestras de voz (formantes) se modelan y se eliminan mediante un filtro de décimo orden. En el códec AMR, los coeficientes LP se calculan utilizando el procedimiento de autocorrelación. Los coeficientes LP se transforman además en pares espectrales lineales (LSP) para fines de cuantificación y de interpolación utilizando la propiedad de los LSP que presenten una fuerte correlación entre subtramas adyacentes.
\vskip1.000000\baselineskip
- \quad
- Las correlaciones a largo plazo entre muestras de voz (periodicidad de voz) se modelan y se eliminan mediante un filtro de tono. El desfase de tono se estima a partir de la señal de voz de entrada ponderada perceptivamente utilizando en primer lugar el procedimiento de bucle abierto menos caro computacionalmente. Después se estiman un desfase de tono y una ganancia g_{p} de tono más precisos mediante un análisis de bucle cerrado en torno a la estimación de desfase de tono de bucle abierto, permitiendo además desfases de tono fraccionarios. El filtro de síntesis de tono en AMR se implementa tal y como se muestra en la fig. 1 utilizando un enfoque de libro de códigos adaptativo. Es decir, el vector v(n) de libro de códigos adaptativo se calcula interpolando la anterior señal u(n) de excitación en el retardo k entero dado y en la fase (fracción) t:
donde b_{60} es un filtro
de interpolación basado en una función sen(x)/x de ventana de
Hamming.
- \quad
- Tal y como se muestra en la fig. 1, la voz se sintetiza en el descodificador sumando entre sí vectores de libros de códigos adaptativos y fijos escalados apropiadamente e introduciéndola a través del filtro de síntesis a corto plazo. Una vez que se hayan obtenido los parámetros del filtro de síntesis LP y del filtro de síntesis de tono, la secuencia de excitación óptima en un libro de códigos se elige en el lado del codificador utilizando un procedimiento de búsqueda de análisis mediante síntesis en el que el error entre la voz original y la voz sintetizada se minimice según una medida de distorsión ponderada perceptivamente. Las secuencias de excitación innovadoras consisten en entre 10 y 2 (dependiendo del modo) impulsos distintos de cero de amplitud \pm 1. El procedimiento de búsqueda determina las ubicaciones de estos impulsos en la subtrama de 40 muestras, así como la ganancia g_{c} de libro de códigos fijo apropiada.
Los coeficientes de filtros LP de parámetros de
modelo CELP, los parámetros de tono, es decir, el retardo y la
ganancia del filtro de tono, y el vector de libro de códigos fijo y
la ganancia de libro de códigos fijo se codifican para la
transmisión con respecto a los índices LSP, índice de libro de
códigos adaptativo (índice de tono) e índice de ganancia de libro
de códigos adaptativo (tono), e índices de libro de códigos fijos e
índice de factor de ganancia de libro de códigos fijo,
respectivamente.
A continuación se explicará la cuantificación de
la ganancia de libro de códigos fijo.
Para que resulte más eficaz, la cuantificación
de ganancia de libro de códigos fijo se lleva a cabo utilizando
predicción de media variable (MA) con coeficientes fijos. La
predicción MA se lleva a cabo sobre la energía de innovación de la
siguiente manera. Supóngase E(n) la energía de
innovación eliminada media (en dB) en la subtrama n y que
viene dada por:
donde N = 40 es el tamaño de
subtrama, c(i) es la excitación de libro de códigos
fijo y (en dB) es la media de la energía de innovación (una
constante que depende del modo). La energía estimada viene dada
por:
donde [b_{1}
b_{2} b_{3} b_{4}] = [0,68 0,58 0,34
0,19] son los coeficientes de predicción MA, y es el error de
predicción cuantificado en la subtrama
k:
A continuación se calculará una ganancia
estimada de libro de códigos fijo utilizando la energía estimada
como en la ecuación (1.2) (sustituyendo E(n) por y
g_{c} por. En primer lugar, la energía de innovación media
viene dada por:
y, por lo tanto, la ganancia
estimada viene dada
por:
Un factor de corrección entre la ganancia
g_{c} y la ganancia estimada viene dado por:
El error de predicción y el factor de corrección
están relacionados de la siguiente manera:
En el descodificador, los parámetros de voz
transmitidos se descodifican y la voz se sintetiza.
En caso de cualificación escalar (en los modos
de 12,2 kbit/s y 7,95 kbit/s), el descodificador recibe un índice
con relación a una tabla de cuantificación que proporciona el factor
de corrección \hat{\gamma}_{gc} de ganancia cuantificada de
libro de códigos fijo.
En caso de cuantificación vectorial (en todos
los demás modos), el índice proporciona tanto la ganancia
cuantificada \hat{g}_{p} de libro de códigos adaptativo como el
factor de corrección \hat{\gamma}_{gc} de ganancia de libro de
códigos fijo.
El factor de corrección de ganancia de libro de
códigos fijo proporciona la ganancia de libro de códigos fijo de la
misma manera que la descrita anteriormente. En primer lugar, la
energía estimada viene dada por:
y, por lo tanto, la energía de
innovación media viene dada
por:
\newpage
La ganancia estimada viene dada por:
Y, finalmente, la ganancia cuantificada de libro
de códigos fijo se obtiene mediante:
Existen algunas diferencias entre los modos AMR
que son importantes con respecto al control de ganancia de dominio
de parámetro, tal y como se indica a continuación.
En el modo de 12,2 kbit/s, el factor de
corrección \hat{\gamma}_{gc} de ganancia de libro de códigos
fijo se cuantifica de manera escalar con 5 bits (32 niveles de
cuantificación). El factor de corrección \hat{\gamma}_{gc} se
calcula utilizando un valor \upbar{E} de energía media \upbar{E}
= 36 dB.
En el modo de 10,2 kbit/s, el factor de
corrección \hat{\gamma}_{gc} de ganancia de libro de códigos
fijo y la ganancia g_{p} de libro de códigos adaptativo se
cuantifican conjuntamente de manera vectorial con 7 bits. El factor
de corrección \hat{\gamma}_{gc} se calcula utilizando un valor
de energía media \upbar{E} = 33 dB. Además, este modo incluye
suavizar la ganancia de libro de códigos fijo. La ganancia de libro
de códigos fijo utilizada para la síntesis en el descodificador se
sustituye por un valor suavizado de las ganancias de libro de
códigos fijo de las 5 subtramas anteriores. El suavizado se basa en
una medida de la estacionalidad del espectro a corto plazo en el
dominio LSP (par espectral lineal). El suavizado se lleva a cabo
para evitar fluctuaciones no naturales en el contorno de
energía.
En el modo de 7,95 kbit/s, el factor de
corrección \hat{\gamma}_{gc} de ganancia de libro de códigos
fijo se cuantifica de manera escalar con 5 bits, como en el modo de
12,2 kbit/s. El factor de corrección \hat{\gamma}_{gc} se
calcula utilizando un valor de energía media \upbar{E} = 36 dB.
Este modo incluye un procesamiento de antidispersión. Un
procedimiento adaptativo de procesamiento posterior de
antidispersión se aplica al vector c(n) de libro de
códigos fijo para reducir los artefactos perceptivos que se
originan a partir de la dispersión de los vectores algebraicos de
libro de códigos fijo con solamente algunas muestras distintas de
cero por respuesta de impulso. El procesamiento de antidispersión
consiste en una convolución circular del vector de libro de códigos
fijo con una de tres respuestas de impulso prealmacenadas. La
selección de la respuesta de impulso se lleva a cabo de manera
adaptativa a partir de las ganancias de libro de códigos adaptativo
y fijo.
En el modo de 7,40 kbit/s, el factor de
corrección \hat{\gamma}_{gc} de ganancia de libro de códigos
fijo y la ganancia g_{p} de libro de códigos adaptativo se
cuantifican conjuntamente de manera vectorial con 7 bits, como en el
modo de 10,2 kbit/s. El factor de corrección \hat{\gamma}_{gc}
se calcula utilizando un valor de energía media \upbar{E} = 30
dB.
En el modo de 6,70 kbit/s, el factor de
corrección \hat{\gamma}_{gc} de ganancia de libro de códigos
fijo y la ganancia g_{p} de libro de códigos adaptativo se
cuantifican conjuntamente de manera vectorial con 7 bits, como en el
modo de 10,2 kbit/s. El factor de corrección \hat{\gamma}_{gc}
se calcula utilizando un valor de energía media \upbar{E} = 28,75
dB. Este modo incluye el suavizado de la ganancia de libro de
códigos fijo y el procesamiento de antidispersión.
En los modos de 5,90 y 5,15 kbit/s, el factor de
corrección \hat{\gamma}_{gc} de ganancia de libro de códigos
fijo y la ganancia g_{p} de libro de códigos adaptativo se
cuantifican conjuntamente de manera vectorial con 6 bits. El factor
de corrección \hat{\gamma}_{gc} se calcula utilizando un valor
de energía media \upbar{E} = 33 dB. El modo incluye el suavizado
de la ganancia de libro de códigos fijo y el procesamiento de
antidispersión.
En el modo de 4,75 kbit/s, el factor de
corrección \hat{\gamma}_{gc} de ganancia de libro de códigos
fijo y la ganancia g_{p} de libro de códigos adaptativo se
cuantifican conjuntamente de manera vectorial solamente cada 10 ms
mediante un único procedimiento descrito en el documento "3rd
Generation Partnership Project; Technical Specification Group
Services and System Aspects; Mandatory Speech Codec speech
processing functions; AMR speech codec; Transcoding functions
(Release 4)", de 3GPP TS 26.090 V4.0.0
(2001-03). Este modo incluye el suavizado de la
ganancia de libro de códigos fijo y el procesamiento de
antidispersión.
Durante una transmisión discontinua (DTX), solo
se transmite al descodificador la información de ruido de fondo
medio a intervalos regulares cuando la voz no está presente, tal y
como se describe en el documento "3rd Generation Partnership
Project; Technical Specification Group Services and System Aspects;
Mandatory Speech Codec speech processing functions; AMR speech
codec; Comfort noise aspects (Release 4)", de 3GPP TS 26.092
V4.0.0 (2001-03). En el extremo lejano, el
descodificador reconstruye el ruido de fondo según los parámetros
de ruido transmitidos evitando de este modo discontinuidades
extremadamente molestas en el ruido de fondo de la voz
sintetizada.
Los parámetros de ruido aceptable, la
información sobre el nivel y el espectro del ruido de fondo se
codifican en una trama especial denominada como trama descriptora
de silencio (SID) para la transmisión al lado de recepción.
Para fines de control de ganancia de dominio de
parámetro, la información sobre el nivel del ruido de fondo resulta
útil. Si el nivel de ganancia se ha ajustado solamente durante
tramas de voz, el nivel de ruido de fondo cambiará bruscamente al
principio y al final de ráfagas de solo ruido, tal y como se ilustra
en la fig. 2. Los cambios de nivel en el ruido de fondo son muy
molestos de manera subjetiva, véase el documento "Digital
speech coding for low bit rate communications systems",
página 336, John Wiley & Sons, Chichester, 1994, Kondoz A. M.
Universidad de Surrey, Reino Unido. Cuanto más molestos, mayor será
la amplificación o atenuación. Si el nivel de voz está ajustado,
también tiene que ajustarse consecuentemente el nivel del ruido de
fondo para impedir cualquier fluctuación en el nivel de ruido de
fondo.
En el lado de transmisión, la energía de trama
se calcula para cada trama marcada con VAD (detección de activad de
voz) = 0 según la ecuación:
donde s(n) es la
señal de voz de entrada filtrada paso alto de la trama i
actual.
La energía logarítmica media se calcula
mediante:
La energía de trama logarítmica media se
cuantifica mediante un cuantificador algorítmico de 6 bits. Estos 6
bits para el índice de energía se transmiten en la trama SID.
A continuación se describirá el control de
ganancia en el dominio de parámetro.
La ganancia g_{c} de libro de códigos
fijo ajusta el nivel de la voz sintetizada en el código de voz AMR,
tal y como puede observarse estudiando la ecuación (1.1) y el modelo
de síntesis de voz mostrado en la fig. 1.
La ganancia g_{p} de libro de códigos
adaptativo controla la periodicidad (tono) de la voz sintetizada, y
está limitada entre [0, 1,2]. Tal y como se muestra en la fig. 1, un
bucle de retroalimentación adaptativo también transmite el efecto
de la ganancia de libro de códigos fijo a la derivación de libro de
códigos adaptativo del modelo de síntesis, ajustando también de ese
modo la parte sonora de la voz sintetizada.
La velocidad a la que se transmite el cambio en
la ganancia de libro de códigos fijo a la derivación de libro de
códigos adaptativo depende del retardo T de tono y de la
ganancia g_{p} de tono, tal y como se ilustra en la fig.
3. Cuanto más largo sea el retardo de tono y más alta la ganancia de
tono, más tardará el vector v(n) de libro de códigos
adaptativo en estabilizarse (hasta alcanzar su nivel
correspondiente).
Para señales de voz reales, la ganancia y el
retardo de tono varían. Sin embargo, la simulación con un retardo y
una ganancia de tono fijos intenta proporcionar una estimación
aproximada de los límites con respecto al tiempo de estabilización
del libro de códigos adaptativo después de un cambio en la ganancia
de libro de códigos fijo. El retardo de tono está limitado en AMR
entre [18, 143] muestras, tal como en el ejemplo, correspondientes
a tonos bajos de hombre y a tonos altos de niño, respectivamente.
Sin embargo, la ganancia de tono puede presentar valores entre [0,
1,2]. Naturalmente, para una ganancia de tono de cero no hay ningún
retardo. Por otro lado, la ganancia de tono recibe valores de o
superiores a 1 solamente en instantes de tiempo muy cortos para que
el libro de códigos adaptativo no se vuelva inestable. Por lo tanto,
el retardo máximo estimado está alrededor de algunos miles de
muestras, en torno a medio segundo.
La fig. 3 muestra la respuesta del libro de
códigos adaptativo con respecto a una función escalonada (cambio
repentino en g_{c}) en función del retardo T de tono
(desfase k entero en la ecuación (1.1)) y de la ganancia
g_{p} de tono. La salida del libro de códigos fijo
escalado, g_{c}*c(n), cambia de 0 a 0,3 en
un instante de tiempo de 0 muestras. La salida del libro de códigos
adaptativo (y, por tanto, también la señal de excitación
u(n)) alcanza su nivel correspondiente después de 108
a 5430 muestras para los retardos T de tono y las ganancias
g_{p} de tono del ejemplo.
En el modo de mayor velocidad binaria, 12,2
kbit/s, el factor de corrección \hat{\gamma}_{gc} de ganancia de
libro de códigos fijo se cuantifica de manera escalar con 5 bits,
proporcionando 32 niveles de cuantificación, tal y como se muestra
en la fig. 4. La cuantificación es no lineal. Las etapas de
cuantificación se muestran en la fig. 5. La etapa de cuantificación
está entre 1,2 dB y 2,3 dB.
La misma tabla de cuantificación se utiliza en
el modo de 7,95 kb/s. En todos los demás modos, el factor de
ganancia de libro de códigos fijo se cuantifica conjuntamente de
manera vectorial con la ganancia de libro de códigos adaptativo.
Estas tablas de cuantificación se muestran en las fig. 6 y 7.
El modo más bajo, de 4,75 kbit/s, utiliza
cuantificación vectorial de una sola manera. En el modo de 4,75
kbit/s, las ganancias g_{p} de libro de códigos adaptativo
y los factores de corrección \hat{\gamma}_{gc} se cuantifican
conjuntamente de manera vectorial cada 10 ms con 6 bits, es decir,
dos ganancias de libro de códigos de dos tramas y dos factores de
corrección se cuantifican conjuntamente de manera vectorial.
La fig. 5 muestra una diferencia entre niveles
de cuantificación adyacentes en la tabla de cuantificación del
factor de ganancia \hat{\gamma}_{gc} de libro de códigos fijo en
los modos de 12,2 kbit/s y 7,95 kbit/s. La tabla de cuantificación
es aproximadamente lineal entre los índices 5 y 28. La etapa de
cuantificación en ese intervalo es de 1,2 dB.
La fig. 6 muestra la tabla de cuantificación
vectorial para la ganancia de libro de códigos adaptativo y el
factor de ganancia de libro de códigos fijo en los modos de 10,2,
7,4 y 6,7 kbit/s. La tabla se muestra de manera que un valor de
índice proporcione tanto el factor de ganancia de libro de códigos
fijo y la ganancia de libro de códigos adaptativo (cuantificada
conjuntamente) correspondiente. Tal y como puede observarse en la
fig. 6, hay aproximadamente 16 niveles que pueden escogerse para la
ganancia de libro de códigos fijo mientras que la ganancia de libro
de códigos adaptativo permanece en gran medida fija.
La fig. 7 muestra la tabla de cuantificación
vectorial para la ganancia de libro de códigos adaptativo y el
factor de ganancia de libro de códigos fijo en los modos de 5,90 y
5,15 kbit/s. Nuevamente, la tabla se muestra de manera que un valor
de índice proporcione tanto el factor de ganancia de libro de
códigos fijo como la ganancia de libro de códigos adaptativo
(cuantificada conjuntamente) correspondiente.
Como se ha explicado anteriormente, el control
de nivel de voz en el dominio de parámetro debe tener lugar
ajustando la ganancia de libro de códigos fijo. De manera más
específica, el factor de corrección \hat{\gamma}_{gc} de
ganancia cuantificada de libro de códigos fijo está ajustado, el
cual es uno de los parámetros de voz transmitidos al extremo
lejano.
A continuación se mostrará la relación entre la
amplificación del factor de corrección de ganancia de libro de
códigos fijo y la amplificación de la ganancia de libro de códigos
fijo. Tal y como ya se ha mostrado en las ecuaciones (1.11) y
(1.12), la ganancia de libro de códigos fijo se define como:
Si el factor de corrección \hat{\gamma}_{gc}
(n) de ganancia de libro de códigos fijo se amplifica por
\beta, en la subtrama n, y se mantiene invariable al menos
durante las siguientes cuatro subtramas, la nueva ganancia
cuantificada de libro de códigos fijo pasa a ser:
En la siguiente subtrama, n+1, la nueva
ganancia de libro de códigos fijo pasa a ser:
De la misma manera, en las siguientes subtramas,
n+2,..., n+4, la ganancia amplificada de libro de
códigos fijo pasa a ser:
Puesto que los coeficientes de predicción se
proporcionaron como
la ganancia de libro de códigos
fijo se estabiliza después de cinco subtramas en un
valor:
Dicho de otro modo, la multiplicación del factor
de ganancia de libro de códigos fijo por \beta da como resultado
la multiplicación de la ganancia de libro de códigos fijo (y, por lo
tanto, también de la voz sintetizada) por \beta^{2,79},
suponiendo que \beta se mantiene constante al menos durante las
siguientes cuatro tramas.
Por lo tanto, por ejemplo en los modos AMR de
12,2 kbit/s y 7,95 kbit/s, el cambio mínimo para el factor de
ganancia de libro de códigos fijo (la etapa de cuantificación
mínima) de \pm 1,2 dB da como resultado un cambio de \pm 3,4 dB
en la ganancia de libro de códigos fijo y, por lo tanto, en la señal
de voz sintetizada, tal y como se muestra a continuación.
Este cambio de \pm 3,4 dB en el nivel de voz
sintetizada tiene lugar gradualmente, tal y como se ilustra en la
fig. 8.
La fig. 8 muestra un cambio en la ganancia de
libro de códigos fijo (AMR de 12,2 kbit/s), cuando el factor de
ganancia de libro de códigos fijo cambia en una etapa de
cuantificación (en el intervalo de cuantificación lineal) primero
de manera ascendente en la subtrama 6 y después de manera
descendente en la subtrama 16. La amplificación (o atenuación) en
1,2 dB del factor de ganancia de libro de códigos fijo amplifica (o
reduce) gradualmente la ganancia de libro de códigos fijo en 3,4 dB
durante 5 tramas (200 muestras).
Por consiguiente, el control de ganancia de
nivel de parámetro de la voz codificada puede llevarse a cabo
modificando el valor de índice del factor de ganancia de libro de
códigos fijo. Es decir, el valor de índice en el flujo de bits se
sustituye por un nuevo valor que proporciona la
amplificación/atenuación deseada. Los valores de ganancia
correspondientes a los cambios de índice para el modo AMR de 12,2
kbit/s se enumeran en la siguiente tabla.
A continuación se describirá una búsqueda del
índice correcto para el cambio deseado en la ganancia global
teniendo en cuenta la naturaleza no lineal de la cuantificación de
factor de ganancia de libro de códigos fijo.
El nuevo índice de cuantificación de factor de
ganancia de libro de códigos fijo correspondiente a la
amplificación/atenuación deseada de la señal de voz se obtiene
minimizando el error:
donde
\hat{\gamma}^{anterior}_{gc} y \hat{\gamma}^{anterior}_{gc}
son el anterior y el nuevo factor de corrección de ganancia de libro
de códigos fijo y \beta es el multiplicador deseado: \beta =
\Deltaj, j[... -4, -3,..., 0,..., +3, +4,...], \Delta =
etapa de cuantificación mínima (1,15 en AMR de 12,2 kbit/s). Debe
observarse que la señal de voz se amplifica/atenúa con
\beta^{2,79}.
La fig. 9 muestra los niveles recuantificados
para los casos de una amplificación de señal de +3,4, +6,8, +10,2,
+13,6 y +17,0 dB conseguida con el anterior procedimiento de
minimización de error. La fig. 10 muestra también los niveles de
cuantificación en casos de atenuación de señal. Ambas figuras
muestran los niveles de cuantificación para el modo AMR de 12,2
kbit/s.
En la fig. 9, la curva más baja muestra los
niveles de cuantificación originales del factor de ganancia de
libro de códigos fijo. La segunda curva más baja muestra los niveles
recuantificados del factor de ganancia de libro de códigos fijo en
el caso de una amplificación de nivel de señal de +3,4 dB, y las
curvas siguientes muestran los niveles recuantificados del factor
de ganancia de libro de códigos fijo en casos de una amplificación
de nivel de señal de +6,8, +10,2, +13,6 y +17 dB,
respectivamente.
\newpage
La fig. 10 muestra niveles recuantificados del
factor de ganancia de libro de códigos fijo en los casos de una
amplificación de nivel de señal de -17, -13,6,..., -3,4, 0,
+3,4,..., +13,6, +17 dB. La curva central muestra los niveles de
cuantificación originales del factor de ganancia de libro de códigos
fijo.
En los modos AMR de 10,2 kbit/s, 7,40 kbit/s,
6,70 kbit/s, 5,90 kbit/s, 5,15 kbit/s y 4,75 kbit/s, la ecuación
2.12 se sustituye por:
donde la ponderación es \geq 1, y
g_{p\_nueva} y g_{p\_anterior} son la nueva y la
anterior ganancia de libro de códigos adaptativo,
respectivamente.
Dicho de otro modo, en los modos de 12,2 kbit/s
y 7,95 kbit/s, el nuevo índice de factor de ganancia de libro de
código fijo se obtiene como el índice que minimiza el error dado en
la ecuación (2.12). En los modos de 10,2 kbit/s, 7,40 kbit/s, 6,70
kbit/s, 5,90 kbit/s, 5,15 kbit/s y 4,75 kbit/s, el nuevo índice
colectivo del factor de ganancia de libro de códigos fijo
cuantificado vectorialmente y de la ganancia adaptativa se obtiene
como el índice que minimiza el error dado en la ecuación (2.13). La
justificación de la ecuación (2.13) es poder modificar el factor de
ganancia de libro de códigos fijo sin introducir un error audible
con relación a la ganancia de libro de códigos adaptativo. La fig.
6 muestra los factores de ganancia de libro de códigos fijo
cuantificados vectorialmente y las ganancias de libro de códigos
adaptativo a diferentes valores de índice. En la fig. 6 puede
observarse que existe la posibilidad de modificar el factor de
ganancia de libro de código fijo sin tener que modificar
excesivamente la ganancia de libro de códigos adaptativo.
Tal y como se ha mencionado anteriormente, en el
modo de 4,75 kbit/s, las ganancias g_{p} de libro de
códigos adaptativo y los factores de corrección \hat{\gamma}_{gc}
se cuantifican conjuntamente de manera vectorial cada 10 ms con 6
bits, es decir, dos ganancias de libro de códigos de dos subtramas y
dos factores de corrección se cuantifican conjuntamente de manera
vectorial. La búsqueda de libros de códigos se realiza minimizando
una suma ponderada del criterio de error para cada una de las dos
subtramas. El valor por defecto de los factores de ponderación es
1. Si la energía de la segunda subtrama es superior al doble de la
energía de la primera trama, la ponderación de la primera subtrama
se fija a 2. Si la energía de la primera subtrama es superior a
cuatro veces la energía de la segunda subtrama, la ponderación de
la segunda subtrama se fija a 2. A pesar de estas diferencias, el
modo de 4,75 kbit/s puede procesarse con el esquema de
cuantificación vectorial descrito anteriormente.
Por lo tanto, según la realización descrita
anteriormente, un nuevo índice de ganancia (nuevo valor de índice)
que minimiza el error entre la ganancia \beta \cdot
\hat{\gamma}^{anterior}_{gc} deseada (valor mejorado de primer
parámetro) y la ganancia \hat{\gamma}^{nuevo}_{gc} efectiva
generada (nuevo valor de primer parámetro) según la ecuación (2.12)
o (2.13), se determina según las tablas de cuantificación para los
modos respectivos. El nuevo factor de corrección de ganancia de
libro de códigos fijo (y la nueva ganancia de libro de códigos
adaptativo en caso de modos distintos a 12,2 kbit/s y 7,95 kbit/s)
corresponden al nuevo índice de ganancia determinado. El anterior
índice de ganancia (valor actual de índice) que representa el
anterior factor de corrección \hat{\gamma}^{anterior}_{gc} de
ganancia de libro de códigos fijo (valor actual de primer
parámetro) (y la anterior ganancia g_{p_anterior} de libro
de códigos adaptativo (valor actual de segundo parámetro) en caso
de modos distintos a 12,2 kbit/s y 7,95 kbit/s) se sustituye
entonces por el nuevo índice de ganancia.
A continuación se describirán procedimientos
alternativos para proporcionar una precisión de ganancia mejorada.
En primer lugar se ilustra cómo se formula la ganancia deseada total
en caso de que la ganancia no permanezca constante durante cinco
subtramas consecutivas.
Tal y como se ha descrito anteriormente, en el
códec AMR, la ganancia de libro de códigos fijo se codifica
utilizando el factor de corrección \gamma_{gc} de ganancia de
libro de códigos fijo. El factor de corrección de ganancia se
utiliza para escalar la ganancia g'_{c} estimada de libro
de códigos fijo para obtener la ganancia g_{c} de libro de
códigos fijo, es decir,
\vskip1.000000\baselineskip
La ganancia de libro de códigos fijo se estima
de la siguiente manera:
\vskip1.000000\baselineskip
donde \upbar{E} es un valor de
energía dependiente del modo (en dB) y E_{1} es la energía
de excitación de libro de códigos fijo (en
dB).
\newpage
Para obtener una ganancia \alpha de señal
global deseada, el factor de corrección cuantificado de libro de
códigos fijo tiene que multiplicarse por una ganancia \beta de
factor de corrección. Las ganancias de factor de corrección
generadas se denotan con, \hat{\beta}(n-i),
i > 0. Amplificando el factor de corrección
\hat{\gamma}_{gc}(n) de libro de códigos fijo con,
\beta(n) en una subtrama n, la nueva ganancia
cuantificada de libro de códigos fijo se convierte en: (obsérvese
que la predicción g'_{c} depende del historial de las
ganancias de corrección, tal y como se muestra en la ecuación
2.14)
Por lo tanto, una nueva predicción, que se
obtiene utilizando las ganancias de factor generadas, puede
escribirse como
Además,
\vskip1.000000\baselineskip
es decir, la ganancia de factor de
corrección objetivo para la presente subtrama puede escribirse
como
Si \hat{\beta}(n) se mantiene
constante, la ganancia global se estabiliza después de cinco
subtramas en un valor
ya que los coeficientes de
predicción se proporcionaron como b = [1, 0,68, 0,58, 0,34,
0,19].
A continuación se describirá una primera
alternativa de la manipulación de ganancia descrita anteriormente,
primera alternativa que se denomina como minimización de error de
sintetización (procedimiento de sintetización).
El algoritmo según el procedimiento de
sintetización sigue en la medida de lo posible los criterios de
error original dados para la cuantificación escalar como
donde E_{SQ} es el error
de cuantificación de libro de códigos fijo y g_{c} es la
ganancia objetivo de libro de códigos fijo. Tal y como se ha
mencionado anteriormente, la finalidad es escalar la ganancia de
libro de códigos fijo con la ganancia total deseada
g^{nueva}_{c} = \alpha\hat{g}_{c}. Por lo tanto, para
los fines de CDALC (control de nivel automático de dominio
codificado), el objetivo debe escalarse mediante la ganancia
deseada, es
decir,
En la cuantificación vectorial, la ganancia
g_{p} de tono y el factor de \hat{\gamma}_{gc}
corrección de libro de códigos fijo se cuantifican conjuntamente.
En el codificador AMR, el índice de cuantificación vectorial se
obtiene minimizando el error de cuantificación E_{VQ}
definido como
donde x, y y z
son un vector objetivo, un vector de libro de códigos adaptativo
filtrado por LP y ponderado, y un vector de libro de códigos fijo
filtrado por LP y ponderado, respectivamente. El criterio de error
es realmente una norma del error ponderado perceptivamente entre el
objetivo y la voz sintetizada. Siguiendo el procedimiento de la
cuantificación escalar, el vector objetivo se sustituye por la
versión escalada, es
decir
\vskip1.000000\baselineskip
A continuación se describirá el procedimiento de
sintetización para la cuantificación escalar.
La derivación del criterio de minimización se
inicia a partir de la ecuación 3.2 utilizada en el codificador AMR
y dada como:
\vskip1.000000\baselineskip
Desafortunadamente, no hay acceso directo a
g_{c}, aunque puede aproximarse mediante g_{c}
\approx \hat{\gamma}_{gc} g'_{c} y, por lo tanto, el
primer criterio de error CDALC para la cuantificación escalar puede
escribirse como
donde
\hat{\beta}(n-i) es la ganancia de factor
de corrección generada para la subtrama
(n-i), es
decir,
Este criterio de error es sencillo de evaluar y
solamente tiene que descodificarse el factor de corrección de libro
de códigos fijo. Además, cuatro ganancias de factor de corrección
generadas anteriormente tienen que guardarse en memoria.
A continuación se describirá el procedimiento de
sintetización para la cuantificación vectorial.
Para el caso de cuantificación vectorial, el
criterio de error utilizado en el codificador AMR es más complicado
ya que se utilizan los filtros de síntesis. Al no haber acceso
directo al objetivo x, éste se aproxima mediante
\hat{g}_{p} y + \hat{g}_{c} z. Por tanto, la
minimización de error con CDALC se convierte en:
Además de descodificar las ganancias, ambos
vectores de libro de códigos tienen que descodificarse y filtrarse
con el filtro de síntesis LP. Por lo tanto, los parámetros de filtro
de síntesis LP tienen que descodificarse. Esto significa que
básicamente todos los parámetros tienen que descodificarse. En el
codificador AMR, los vectores de libro de códigos también se
ponderan mediante un filtro de ponderación específico, pero esto no
se ha realizado para este criterio de error CDALC.
A continuación se describirá una segunda
alternativa de la manipulación de ganancia, segunda alternativa que
se denomina como minimización de error de cuantificación con memoria
(procedimiento de memoria).
Este criterio minimiza el error de
cuantificación teniendo en cuanta al mismo tiempo el historial de
los factores de corrección anteriores. En caso de cuantificación
escalar, el criterio de error es el mismo que en la primera
alternativa, es decir, la función de error que va a minimizarse será
la misma que en la ecuación 3.4. Pero para la cuantificación
vectorial, la función de error se vuelve un poco más fácil de
evaluar.
Empezando a partir de la función de error
obtenida para la primera alternativa y proporcionada en la ecuación
3.5, la minimización del error de la suma de dos componentes
requerirá descodificar los vectores y y z.
Prácticamente, esto significa que tiene que descodificarse toda la
señal. En lugar de minimizar la norma del vector de error, el error
puede aproximarse mediante la suma de dos componentes de error (lo
que sería el caso si ambos vectores y y z fueran
paralelos entre sí), concretamente el error de ganancia de tono y el
error de ganancia de libro de códigos fijo. Combinando estos
componentes utilizando la norma euclídea, los nuevos criterios de
error pueden escribirse como:
La suma de la ecuación anterior (ecuación 3.5)
se divide en dos componentes. Sin embargo, los vectores de libro de
códigos sintetizados todavía están presentes en el término
45 de escalamiento de error de ganancia de tono.
Debido a la síntesis, el término de escalamiento de error de
ganancia de tono es difícil de calcular. Si se calcula, será más
eficaz utilizar el criterio de minimización de error de
sintetización descrito en la primera alternativa. Para eliminar el
proceso de síntesis, el término 46 se sustituye por
la ponderación w_{gp} de error de ganancia de tono
constante. La ponderación de error de ganancia de tono tiene que
elegirse cuidadosamente. Si la ponderación se elige demasiado
grande, el nivel de señal no cambiará en absoluto, ya que el error
más bajo se obtiene eligiendo g^{nueva}_{p} =
g_{p}. Por otro lado, una ponderación pequeña garantizará
la ganancia \alpha de libro de códigos deseada, pero no dará
garantías para g_{p}, es decir,
Este algoritmo que utiliza una ponderación de
ganancia de tono fija requiere descodificar (encontrando un valor
correspondiente al índice de cuantificación recibido) tanto la
ganancia de tono como el factor de corrección
(\hat{\gamma}_{gc}) y también reconstruir la predicción
g'_{c} de ganancia de libro de códigos fijo. Para poder
construir la predicción, el vector de libro de códigos fijo tiene
que descodificarse. Además, el desfase de tono entero es necesario
para el suavizado del tono de la excitación de libro de códigos
fijo. La energía de la excitación de libro de código fijo es
necesaria para la predicción (véase la ecuación 3.1). Si fuera
necesario, la predicción puede incluirse en la ponderación fija, es
decir, 48 . Después, no hay necesidad de descodificar
el vector de libro de códigos fijo. Presumiblemente, esto no
afectaría demasiado al rendimiento. Por otro lado, la energía de la
excitación de libro de códigos fijo puede estimarse ya que es fija
en gran medida. Esto permite la creación de una predicción sin
descodificar el vector de libro de códigos fijo.
El intervalo de los términos 49 y
50 se muestra en las fig. 11 y 12, con muestras de
voz de hombre y de niño utilizando el modo AMR de 12,2 kbit/s. El
valor depende en gran medida de la energía de la señal. Por lo
tanto, será beneficioso hacer que la ponderación w_{gp} de
error de ganancia de tono sea adaptativa en lugar de utilizar un
valor constante. Por ejemplo, el valor puede determinarse
utilizando energía de señal de tiempo reducido.
La fig. 13 muestra un diagrama de flujo que
ilustra de manera genérica el procedimiento de mejorar una señal de
audio codificada que comprende voz codificada y/o ruido codificado
según la invención. La señal de audio codificada comprende índices
que representan parámetros de voz y/o parámetros de ruido que
comprenden al menos un primer parámetro para ajustar una primera
característica de la señal de audio, tal como el nivel de voz
sintetizada y/o ruido.
En la etapa S1 de la fig. 13, un valor actual de
primer parámetro se determina a partir de un índice correspondiente
a al menos el primer parámetro, por ejemplo, el factor de corrección
\hat{\gamma}_{gc} de ganancia de libro de códigos fijo. En la
etapa S2 se ajusta el valor actual de primer parámetro, por ejemplo,
multiplicado por a, con el fin de conseguir una primera
característica mejorada, obteniendo de ese modo un valor mejorado de
primer parámetro \alpha \cdot \hat{\gamma}^{anterior}_{gc}.
Finalmente, en la etapa S3, un nuevo valor de índice se determina a
partir de una tabla que relaciona valores de índice con al menos
valores de primer parámetro, por ejemplo una tabla de
cuantificación, de manera que un nuevo valor de primer parámetro
correspondiente al nuevo valor de índice se corresponda
sustancialmente con el valor mejorado de primer parámetro.
Según la realización descrita anteriormente se
busca un nuevo valor de índice para \alpha \cdot
\hat{\gamma}^{anterior}_{gc} de manera que la ecuación |
\alpha \cdot \hat{\gamma}^{anterior}_{gc} -
\hat{\gamma}^{nuevo}_{gc} | se minimice, siendo
\hat{\gamma}^{nuevo}_{gc} el nuevo valor de primer parámetro
correspondiente al nuevo valor de índice buscado.
Además, según la presente invención, un valor
actual de segundo parámetro puede determinarse a partir del índice
correspondiente además a un segundo parámetro tal como la ganancia
de libro de códigos adaptativo que controla una segunda
característica de voz. En este caso, el nuevo valor de índice se
determina a partir de la tabla que relaciona además los valores de
índice con valores de segundo parámetro, por ejemplo, una tabla de
cuantificación vectorial, de manera que un nuevo valor de segundo
parámetro correspondiente al nuevo valor de índice se corresponda
sustancialmente con el valor actual de segundo parámetro.
Según la realización descrita anteriormente se
busca un nuevo valor de índice para \alpha \cdot
\hat{\gamma}^{anterior}_{gc} y g_{p\_anterior} de
manera que la ecuación | \alpha \cdot
\hat{\gamma}^{anterior}_{gc} - \hat{\gamma}^{nuevo}_{gc}
| + ponderación \cdot | g_{p\_nueva} -
g_{p\_anterior} | se minimice. g_{p\_nueva} es
el nuevo valor de segundo parámetro según el nuevo valor de
índice.
"Ponderación" puede ser \geq 1
para que el nuevo valor de índice se determine a partir de la tabla
de manera que la correspondencia sustancial con el valor actual de
segundo parámetro tenga precedencia.
La fig. 14 muestra un diagrama de bloques
esquemático que ilustra un aparato 100 para mejorar una señal de
audio codificada según la invención. El aparato recibe una señal de
audio codificada que comprende índices que representan parámetros
de voz y/o de ruido que comprenden al menos un primer parámetro para
ajustar una primera característica de la señal de audio. El aparato
comprende un bloque 11 de determinación de valor de parámetro para
determinar un valor actual de primer parámetro a partir de un índice
correspondiente a al menos el primer parámetro, un bloque 12 de
ajuste para ajustar el valor actual de primer parámetro con el fin
de conseguir una primera característica mejorada, obteniendo de ese
modo un valor mejorado de primer parámetro, y un bloque 13 de
determinación de valor de índice para determinar un nuevo valor de
índice a partir de una tabla que relaciona valores de índice con al
menos valores de primer parámetro, de manera que un nuevo valor de
primer parámetro correspondiente al nuevo valor de índice se
corresponda sustancialmente con el valor mejorado de primer
parámetro.
El bloque 11 de determinación de valor de
parámetro puede determinar además un valor actual de segundo
parámetro a partir del índice correspondiente además a un segundo
parámetro, y el bloque 13 de determinación de valor de índice puede
determinar entonces el nuevo valor de índice a partir de la tabla
que relaciona además los valores de índice con valores de segundo
parámetro, de manera que un nuevo valor de segundo parámetro
correspondiente al nuevo valor de índice se corresponda
sustancialmente con el valor actual de segundo parámetro. Por lo
tanto, el valor de índice se optimiza simultáneamente tanto para el
primer como para el segundo parámetro.
El bloque 13 de determinación de valor de índice
puede determinar el nuevo valor de índice a partir de la tabla de
manera que la correspondencia sustancial con el valor actual de
segundo parámetro tenga precedencia.
El aparato 100 puede incluir además medios de
sustitución para sustituir un valor actual del índice
correspondiente al al menos primer parámetro por el nuevo valor de
índice determinado, y transmitir voz codificada mejorada que
contenga el nuevo valor de índice.
Haciendo referencia a las fig. 13 y 14, el valor
de primer parámetro puede ser el valor de parámetro de nivel de
ruido de fondo que se ha determinado y ajustado y para el que se ha
determinado un nuevo valor de índice para ajustar el nivel de ruido
de fondo.
Como alternativa, el valor de segundo parámetro
puede ser el parámetro de nivel de ruido de fondo cuyo valor de
índice se determina según el nivel de voz ajustado.
Tal y como se ha mencionado anteriormente, la
manipulación de nivel de voz requiere manipular además el parámetro
de nivel de ruido de fondo durante las pausas de voz en DTX.
Según el códec AMR, el parámetro de nivel de
ruido de fondo, la energía de trama logarítmica media, se
cuantifican con 6 bits. El nivel de ruido aceptable puede ajustarse
modificando el valor de índice de energía. El nivel puede ajustarse
en 1,5 dB, por lo que es posible encontrar un nivel de ruido
aceptable adecuado correspondiente al cambio del nivel de voz.
Los parámetros de ruido aceptable evaluados (el
vector f^{promedio} de parámetro LSF (frecuencia espectral
lineal) promedio y la energía de trama logarítmica media)
en^{media}_{log} se codifican en una trama especial,
denominada trama descriptora de silencio (SID) para la transmisión
al lado de recepción. Los parámetros proporcionan información
relacionada con el nivel (en^{media}_{log}) y con el
espectro (f^{promedio}) del ruido de fondo. Pueden
encontrarse más detalles en el documento "3rd Generation
Partnership Project; Technical Specification Group Services and
System Aspects; Mandatory Speech Codec speech processing functions;
AMR speech codec; Source controlled rate operation (Release
6)" de 3GPP TS 26.093 V4.0.0 (2001-03).
La energía de trama se calcula para cada trama
marcada con un detector de actividad de voz VAD = 0 según la
ecuación:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde x es la señal de voz
de entrada filtrada por HP de la trama i actual. La energía
logarítmica media, que se transmitirá, se calcula
mediante:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
La energía logarítmica media se cuantifica
mediante un cuantificador algorítmico de 6 bits. La cuantificación
se lleva a cabo utilizando una función de cuantificación, tal y como
se define en el documento "AMR Floating-point
Speech Codec C-source" de 3GPP TS 26.104
V4.1.0 2001-06,
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde el valor del índice está
limitado al intervalo [0...63], es decir, en un intervalo de 6
bits.
\newpage
El índice puede calcularse utilizando un
logaritmo de base 10 de la siguiente manera:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde 10 log_{10}
en^{media}(i) es la energía en decibelios. Por lo
tanto, se muestra que una etapa de cuantificación corresponde a
aproximadamente 1,5
dB.
A continuación se describirá el ajuste de
ganancia de los parámetros de ruido aceptable.
Puesto que se transmite un parámetro de energía,
la energía de señal puede manipularse directamente modificando los
parámetros de energía. Tal y como se ha mostrado anteriormente, una
etapa de cuantificación es igual a 1,5 dB. Suponiendo que cada una
de las 8 tramas de un intervalo de actualización SID se escalarán
por \alpha, el nuevo índice puede obtenerse de la siguiente
manera
Puesto que el índice anterior fue
\vskip1.000000\baselineskip
el nuevo índice puede aproximarse
como
Haciendo referencia de nuevo a las fig. 13 y 14,
un valor de parámetro que va a ajustarse puede ser el valor de
parámetro de ruido aceptable. Por consiguiente, un nuevo valor de
índice índice^{nuevo} se determina tal y como se ha
mencionado anteriormente. Dicho de otro modo, puede detectarse un
valor índice actual de índice de parámetro de ruido de
fondo, y un nuevo valor índice^{nuevo} de índice de
parámetro de ruido de fondo puede determinarse sumando
\llcorner{4log_{2} \ \alpha}\lrcorner al valor índice
actual de índice de parámetro de ruido de fondo, donde \alpha
corresponde al mejoramiento de la primera característica
representada por el primer parámetro de voz.
El nivel de la señal de voz sintetizada puede
ajustarse manipulando el índice de factor de ganancia de libro de
códigos fijo, tal y como se ha mostrado anteriormente. Aunque es una
medida de error de predicción, el índice de factor de ganancia de
libro de códigos fijo no revela el nivel de la señal de voz. Por lo
tanto, para controlar la manipulación de ganancia, es decir, para
determinar si el nivel debe modificarse, el nivel de señal de voz
debe estimarse en primer lugar.
\newpage
En TFO, el sexto o séptimo MSB de las muestras
de voz PCM (no comprimidas) se transmite al extremo lejano sin
modificarse para facilitar una interrupción TFO uniforme. Este sexto
o séptimo MSB puede utilizarse para estimar el nivel de voz.
Si estas muestras de voz PCM no están
disponibles, la señal de voz codificada debe descodificarse al menos
parcialmente (no siendo necesario un filtrado posterior) para
estimar el nivel de voz.
Como alternativa, existe la posibilidad de
utilizar una ganancia fija, evitando de ese modo una descodificación
completa. La fig. 15 muestra un diagrama de bloques que ilustra un
esquema con la posibilidad de utilizar una ganancia constante en la
manipulación de ganancia descrita anteriormente. En este caso no se
requiere descodificar las señales PCM de la señal de códec para
utilizar las señales PCM en la estimación de ganancia (es decir, la
estimación de nivel de voz). La voz puede codificarse, por ejemplo,
con códecs de voz AMR, AMR-WB (banda ancha de AMR),
GSM FR, GSM EFR y GSM HR.
La fig. 16 muestra un ejemplo de implementación
a alto nivel de la presente invención en una MGW (pasarela
multimedia) de la arquitectura de red 3G. Por ejemplo, la presente
invención puede implementarse en un DSP (procesador de señales
digitales) de la MGW. Sin embargo, debe observarse que la
implementación de la invención no está limitada a una MGW.
Tal y como se muestra en la fig. 16, la voz
codificada se introduce en la MGW. La voz codificada comprende al
menos un índice correspondiente a un valor de un parámetro de voz
que ajusta el nivel de voz sintetizada. Este índice también puede
indicar un valor de otro parámetro de voz que quede afectado por el
parámetro de voz para ajustar el nivel de voz sintetizada. Por
ejemplo, este otro parámetro de voz ajusta la periodicidad o tono
de la voz sintetizada.
En un VED (dispositivo de mejoramiento de voz)
mostrado en la fig. 16, el índice se controla para ajustar el nivel
de la voz a un nivel deseado. Un nuevo índice que indica valores de
los parámetros de voz que afectan al nivel de la voz, tal como el
factor de ganancia de libro códigos fijo y la ganancia de libro de
códigos adaptativo, se determina minimizando un error entre el
nivel deseado y el nivel efectivo generado. Como resultado se
obtiene el nuevo índice que índica valores de los parámetros de voz
que generan el nivel de voz deseado. El índice original se
sustituye por el nuevo índice y la voz codificada mejorada se
transmite.
Debe entenderse que la descodificación parcial
de la voz mostrada en la fig. 16 se refiere a medios de control
para determinar un nivel de voz actual para decidir si el nivel debe
ajustarse.
Las realizaciones descritas anteriormente de la
presente invención no solo pueden utilizarse en el propio control
de nivel, sino además en la supresión de ruido y control de eco
(procesamiento no lineal) en el dominio codificado. La supresión de
ruido puede utilizar la técnica anterior, por ejemplo, ajustando el
nivel de ruido aceptable durante las pausas de voz. El control de
eco puede utilizar la técnica anterior, por ejemplo, atenuando la
señal de voz durante ráfagas de eco.
La presente invención no pretende limitarse
solamente a la comunicación de voz TFO y TrFO y a la comunicación
de voz a través de redes de conmutación de paquetes sino que, en
cambio, comprende el mejoramiento de señales de audio codificadas
en general. La invención puede aplicarse además en el mejoramiento
de señales de audio codificadas relacionadas, por ejemplo, con
aplicaciones de flujo continuo de audio/voz/multimedia y a
aplicaciones MMS (servicio de mensajería multimedia).
Debe entenderse que la descripción anterior
sirve para ilustrar la invención y no debe considerarse que limita
la invención. A los expertos en la técnica se les pueden ocurrir
diversas modificaciones y aplicaciones sin apartarse del alcance de
la invención definida por las reivindicaciones adjuntas.
Claims (15)
1. Un procedimiento de mejoramiento de una señal
de audio codificada que comprende índices que representan
parámetros de señales de audio de señales de audio que comprenden al
menos un primer parámetro que representa una primera característica
de la señal de audio y un segundo parámetro, comprendiendo el
procedimiento las etapas de:
- \quad
- determinar un valor actual de primer parámetro a partir de un índice correspondiente a un primer parámetro;
- \quad
- ajustar el valor actual de primer parámetro con el fin de conseguir una primera característica mejorada, obteniendo de ese modo un valor mejorado de primer parámetro;
- \quad
- determinar un valor actual de segundo parámetro a partir del índice correspondiente además a un segundo parámetro; y
- \quad
- determinar un nuevo valor de índice a partir de una tabla que relaciona valores de índice con valores de primer parámetro y que relaciona los valores de índice con valores de segundo parámetro, de manera que un nuevo valor de primer parámetro correspondiente al nuevo valor de índice y un nuevo valor de segundo parámetro correspondiente al nuevo valor de índice se correspondan sustancialmente con el valor mejorado de primer parámetro y con el valor actual de segundo parámetro.
\vskip1.000000\baselineskip
2. Un procedimiento de mejoramiento de una señal
de audio codificada que comprende índices que representan
parámetros de señales de audio que comprenden al menos un primer
parámetro que representa una primera característica de la señal de
audio y un parámetro de ruido de fondo, comprendiendo el
procedimiento las etapas de:
- \quad
- determinar un valor actual de primer parámetro a partir de un índice correspondiente a al menos un primer parámetro;
- \quad
- ajustar el valor actual de primer parámetro con el fin de conseguir una primera característica mejorada, obteniendo de ese modo un valor mejorado de primer parámetro;
- \quad
- determinar un nuevo valor de índice a partir de una tabla que relaciona valores de índice con al menos valores de primer parámetro, de manera que un nuevo valor de primer parámetro correspondiente al nuevo valor de índice se corresponda sustancialmente con el valor mejorado de primer parámetro;
- \quad
- detectar un valor actual de índice de parámetro de ruido de fondo; y
- \quad
- determinar un nuevo valor de índice de parámetro de ruido de fondo correspondiente a la primera característica mejorada.
\vskip1.000000\baselineskip
3. El procedimiento según la reivindicación 1,
que comprende además la etapa de:
- \quad
- sustituir un valor actual del índice correspondiente a al menos el primer parámetro por el nuevo valor de índice determinado.
4. El procedimiento según la reivindicación 1,
que comprende además las etapas de:
- \quad
- detectar un valor actual de índice de parámetro de ruido de fondo; y
- \quad
- determinar un nuevo valor de índice de parámetro de ruido de fondo correspondiente a la primera característica mejorada.
5. El procedimiento según la reivindicación 1,
que comprende además la etapa de determinar el nuevo valor de
índice a partir de la tabla de manera que una correspondencia
sustancial del valor actual de segundo parámetro tenga
precedencia.
6. El procedimiento según la reivindicación 2,
que comprende además las etapas de:
- \quad
- sustituir un valor actual del índice correspondiente al primer parámetro por el nuevo valor de índice determinado.
7. Un aparato para mejorar una señal de audio
codificada que comprende índices que representan parámetros de
señales de audio que comprenden al menos un primer parámetro que
representa una primera característica de la señal de audio y un
segundo parámetro, comprendiendo el aparato:
- \quad
- medios de determinación de valor de parámetro para determinar un valor actual de primer parámetro a partir de un índice correspondiente a un primer parámetro y para determinar un valor actual de segundo parámetro a partir del índice correspondiente además a un segundo parámetro;
- \quad
- medios de ajuste para ajustar el valor actual de primer parámetro con el fin de conseguir una primera característica mejorada, obteniendo de ese modo un valor mejorado de primer parámetro; y
- \quad
- medios de determinación de valor de índice para determinar un nuevo valor de índice a partir de una tabla que relaciona valores de índice con valores de primer parámetro y que relaciona los valores de índice con valores de segundo parámetro, donde un nuevo valor de primer parámetro correspondiente al nuevo valor de índice y un nuevo valor de segundo parámetro correspondiente al nuevo valor de índice se corresponden sustancialmente con el valor mejorado de primer parámetro y con el valor actual de segundo parámetro.
\vskip1.000000\baselineskip
8. Un aparato para mejorar una señal de audio
codificada que comprende índices que representan parámetros de
señales de audio que comprenden al menos un primer parámetro que
representa una primera característica de la señal de audio y un
parámetro de ruido de fondo, comprendiendo el aparato:
- \quad
- medios de determinación de valor de parámetro para determinar un valor actual de primer parámetro a partir de un índice correspondiente a al menos un primer parámetro;
- \quad
- medios de ajuste para ajustar el valor actual de primer parámetro con el fin de conseguir una primera característica mejorada, obteniendo de ese modo un valor mejorado de primer parámetro;
- \quad
- medios de determinación de valor de índice para determinar un nuevo valor de índice a partir de una tabla que relaciona valores de índice con al menos valores de primer parámetro, de manera que un nuevo valor de primer parámetro correspondiente al nuevo valor de índice se corresponda sustancialmente con el valor mejorado de primer parámetro;
- \quad
- medios de detección para detectar un valor actual de índice de parámetro de ruido de fondo; y
- \quad
- medios de determinación para determinar un nuevo valor de índice de parámetro de ruido de fondo correspondiente a la primera característica mejorada.
\vskip1.000000\baselineskip
9. El aparato según la reivindicación 7, que
comprende además:
- \quad
- medios de sustitución para sustituir un valor actual del índice correspondiente a al menos el primer parámetro por el nuevo valor de índice determinado.
10. El aparato según la reivindicación 7, que
comprende además:
- \quad
- medios de detección para detectar un valor actual de índice de parámetro de ruido de fondo; y
- \quad
- medios de determinación para determinar un nuevo valor de índice de parámetro de ruido de fondo correspondiente a la primera característica mejorada.
\vskip1.000000\baselineskip
11. El aparato según la reivindicación 7, en el
que los medios de determinación de valor de índice están
configurados para determinar el nuevo valor de índice a partir de la
tabla de manera que una correspondencia sustancial del valor actual
de segundo parámetro tenga precedencia.
12. El aparato según la reivindicación 8, que
comprende además:
- \quad
- medios de sustitución para sustituir un valor actual del índice correspondiente al primer parámetro por el nuevo valor de índice determinado.
13. Un producto de programa de ordenador que
comprende partes adaptadas para llevar a cabo las etapas del
procedimiento según una cualquiera de las reivindicaciones 1 a 6
cuando el producto se ejecuta en un ordenador.
14. El producto de programa de ordenador según
la reivindicación 13, en el que dicho producto de programa de
ordenador puede cargarse directamente en la memoria interna del
ordenador.
15. Un medio legible por ordenador en el que
está almacenado el producto de programa de ordenador según la
reivindicación 13.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03029182 | 2003-12-18 | ||
EP03029182 | 2003-12-18 | ||
US10/803,103 US7613607B2 (en) | 2003-12-18 | 2004-03-18 | Audio enhancement in coded domain |
US803103 | 2004-03-18 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2337137T3 true ES2337137T3 (es) | 2010-04-21 |
Family
ID=34673578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES04029839T Active ES2337137T3 (es) | 2003-12-18 | 2004-12-16 | Mejoramiento de audio en dominio codificado. |
Country Status (4)
Country | Link |
---|---|
US (1) | US7613607B2 (es) |
AT (1) | ATE456128T1 (es) |
DE (1) | DE602004025193D1 (es) |
ES (1) | ES2337137T3 (es) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1796083B1 (en) * | 2000-04-24 | 2009-01-07 | Qualcomm Incorporated | Method and apparatus for predictively quantizing voiced speech |
US10004110B2 (en) * | 2004-09-09 | 2018-06-19 | Interoperability Technologies Group Llc | Method and system for communication system interoperability |
US8010353B2 (en) * | 2005-01-14 | 2011-08-30 | Panasonic Corporation | Audio switching device and audio switching method that vary a degree of change in mixing ratio of mixing narrow-band speech signal and wide-band speech signal |
US8874437B2 (en) * | 2005-03-28 | 2014-10-28 | Tellabs Operations, Inc. | Method and apparatus for modifying an encoded signal for voice quality enhancement |
US20060217971A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for modifying an encoded signal |
US20060215683A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for voice quality enhancement |
US20070160154A1 (en) * | 2005-03-28 | 2007-07-12 | Sukkar Rafid A | Method and apparatus for injecting comfort noise in a communications signal |
US20060217970A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for noise reduction |
US20060217983A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for injecting comfort noise in a communications system |
US20060217988A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for adaptive level control |
US20060217972A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for modifying an encoded signal |
US20060217969A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for echo suppression |
US7596491B1 (en) * | 2005-04-19 | 2009-09-29 | Texas Instruments Incorporated | Layered CELP system and method |
US9058812B2 (en) * | 2005-07-27 | 2015-06-16 | Google Technology Holdings LLC | Method and system for coding an information signal using pitch delay contour adjustment |
KR20080047443A (ko) * | 2005-10-14 | 2008-05-28 | 마츠시타 덴끼 산교 가부시키가이샤 | 변환 부호화 장치 및 변환 부호화 방법 |
WO2007064256A2 (en) * | 2005-11-30 | 2007-06-07 | Telefonaktiebolaget Lm Ericsson (Publ) | Efficient speech stream conversion |
US9454974B2 (en) * | 2006-07-31 | 2016-09-27 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor limiting |
CN101548319B (zh) * | 2006-12-13 | 2012-06-20 | 松下电器产业株式会社 | 后置滤波器以及滤波方法 |
DE602007010836D1 (de) * | 2007-01-18 | 2011-01-05 | Ericsson Telefon Ab L M | Technik zur steuerung der codec-auswahl entlang einem komplexen anrufpfad |
US20080181392A1 (en) * | 2007-01-31 | 2008-07-31 | Mohammad Reza Zad-Issa | Echo cancellation and noise suppression calibration in telephony devices |
US20080274705A1 (en) * | 2007-05-02 | 2008-11-06 | Mohammad Reza Zad-Issa | Automatic tuning of telephony devices |
WO2009066959A1 (en) * | 2007-11-21 | 2009-05-28 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
US8554551B2 (en) | 2008-01-28 | 2013-10-08 | Qualcomm Incorporated | Systems, methods, and apparatus for context replacement by audio level |
CN101335000B (zh) * | 2008-03-26 | 2010-04-21 | 华为技术有限公司 | 编码的方法及装置 |
US20120029926A1 (en) | 2010-07-30 | 2012-02-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals |
US9208792B2 (en) | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
US9026434B2 (en) * | 2011-04-11 | 2015-05-05 | Samsung Electronic Co., Ltd. | Frame erasure concealment for a multi rate speech and audio codec |
WO2014032738A1 (en) * | 2012-09-03 | 2014-03-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for providing an informed multichannel speech presence probability estimation |
MX371425B (es) * | 2013-06-21 | 2020-01-29 | Fraunhofer Ges Forschung | Aparato y metodo para la ocultacion mejorada del libro de codigo adaptativo en la ocultacion similar a acelp mediante la utilizacion de una estimacion mejorada del retardo de tono. |
US9384746B2 (en) * | 2013-10-14 | 2016-07-05 | Qualcomm Incorporated | Systems and methods of energy-scaled signal processing |
CN110246510B (zh) * | 2019-06-24 | 2021-04-06 | 电子科技大学 | 一种基于RefineNet的端到端语音增强方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI116642B (fi) | 1998-02-09 | 2006-01-13 | Nokia Corp | Puheparametrien käsittelymenetelmä, puhekoodauksen käsittely-yksikkö ja verkkoelementti |
EP1190494A1 (en) | 1999-07-02 | 2002-03-27 | Tellabs Operations, Inc. | Coded domain adaptive level control of compressed speech |
JP4639441B2 (ja) | 1999-09-01 | 2011-02-23 | ソニー株式会社 | ディジタル信号処理装置および処理方法、並びにディジタル信号記録装置および記録方法 |
SE521693C3 (sv) * | 2001-03-30 | 2004-02-04 | Ericsson Telefon Ab L M | En metod och anordning för brusundertryckning |
US7272555B2 (en) * | 2001-09-13 | 2007-09-18 | Industrial Technology Research Institute | Fine granularity scalability speech coding for multi-pulses CELP-based algorithm |
WO2003098598A1 (en) | 2002-05-13 | 2003-11-27 | Conexant Systems, Inc. | Transcoding of speech in a packet network environment |
US20040243404A1 (en) * | 2003-05-30 | 2004-12-02 | Juergen Cezanne | Method and apparatus for improving voice quality of encoded speech signals in a network |
US20050071154A1 (en) * | 2003-09-30 | 2005-03-31 | Walter Etter | Method and apparatus for estimating noise in speech signals |
-
2004
- 2004-03-18 US US10/803,103 patent/US7613607B2/en not_active Expired - Fee Related
- 2004-12-16 AT AT04029839T patent/ATE456128T1/de not_active IP Right Cessation
- 2004-12-16 ES ES04029839T patent/ES2337137T3/es active Active
- 2004-12-16 DE DE602004025193T patent/DE602004025193D1/de active Active
Also Published As
Publication number | Publication date |
---|---|
DE602004025193D1 (de) | 2010-03-11 |
ATE456128T1 (de) | 2010-02-15 |
US20050137864A1 (en) | 2005-06-23 |
US7613607B2 (en) | 2009-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2337137T3 (es) | Mejoramiento de audio en dominio codificado. | |
JP4698593B2 (ja) | 音声復号化装置および音声復号化方法 | |
JP3566652B2 (ja) | 広帯域信号の効率的な符号化のための聴覚重み付け装置および方法 | |
ES2318820T3 (es) | Procedimiento y aparatos de cuantificacion predictiva del habla de voces. | |
KR100805983B1 (ko) | 가변율 음성 코더에서 프레임 소거를 보상하는 방법 | |
JP4495209B2 (ja) | 符号化済みマルチチャンネルオーディオ信号に基づくモノオーディオ信号の合成 | |
CA2428888C (en) | Method and system for comfort noise generation in speech communication | |
JP4846712B2 (ja) | スケーラブル復号化装置およびスケーラブル復号化方法 | |
ES2690252T3 (es) | Ajuste de ganancia temporal basado en la característica de señal de banda alta | |
KR20010024869A (ko) | 적응 포스트필터를 포함하는 디코딩 방법 및 시스템 | |
JP2008171017A (ja) | 減少レート、可変レートの音声分析合成を実行する方法及び装置 | |
JP3955179B2 (ja) | 音声符号化装置、音声復号化装置、およびこれらの方法 | |
JPH04233600A (ja) | 32Kb/sワイドバンド音声の低遅延コード励起線型予測符号化 | |
US7606702B2 (en) | Speech decoder, speech decoding method, program and storage media to improve voice clarity by emphasizing voice tract characteristics using estimated formants | |
US6424942B1 (en) | Methods and arrangements in a telecommunications system | |
TW201212005A (en) | Decoding device, encoding device, and methods of the same | |
US20100106490A1 (en) | Method and Speech Encoder with Length Adjustment of DTX Hangover Period | |
JP2003504669A (ja) | 符号化領域雑音制御 | |
EP1544848B1 (en) | Audio enhancement in coded domain | |
US20050071154A1 (en) | Method and apparatus for estimating noise in speech signals | |
US7584096B2 (en) | Method and apparatus for encoding speech | |
JP4135242B2 (ja) | 受信装置及び方法、通信装置及び方法 | |
JP4135240B2 (ja) | 受信装置及び方法、通信装置及び方法 | |
CN100369108C (zh) | 编码域中的音频增强的方法和设备 | |
Choudhary et al. | Study and performance of amr codecs for gsm |