ES2625895T3

ES2625895T3 - Método y dispositivo para la ocultación eficiente del borrado de tramas en códecs de voz basados en la predicción lineal

Info

Publication number: ES2625895T3
Application number: ES03727094.9T
Authority: ES
Inventors: Milan Jelinek; Philippe Gournay
Original assignee: VoiceAge Corp
Current assignee: VoiceAge Corp
Priority date: 2002-05-31
Filing date: 2003-05-30
Publication date: 2017-07-20
Anticipated expiration: 2023-05-30
Also published as: RU2325707C2; DK1509903T3; NO20045578L; JP2005534950A; BR122017019860B1; CN100338648C; EP1509903B1; MY141649A; EP1509903A1; BR0311523A; KR101032119B1; ZA200409643B; BRPI0311523B1; US7693710B2; AU2003233724A1; RU2004138286A; AU2003233724B2; JP4658596B2; PT1509903T; NZ536238A

Abstract

Método de ocultación del borrado de tramas provocado por tramas de una señal de sonido codificada, borradas durante su transmisión desde un codificador a un descodificador, y para acelerar la recuperación del descodificador después de que se hayan recibido tramas no borradas de la señal de sonido codificada, que comprende: determinar, en el codificador, parámetros de ocultación/recuperación que comprenden por lo menos dos parámetros seleccionados del grupo que consiste en un parámetro de clasificación de la señal, un parámetro de información de energía, un parámetro de información de sonoridad y un parámetro de información de fase; cuantificar los parámetros de ocultación/recuperación; y transmitir al descodificador los parámetros de ocultación/recuperación cuantificados, determinados en el codificador; en donde: los parámetros de ocultación/recuperación son utilizables para mejorar la ocultación del borrado de tramas y la recuperación del descodificador después de un borrado de tramas; la señal de sonido es una señal de voz; caracterizado por que: la determinación, en el codificador, de los parámetros de ocultación/recuperación comprende clasificar tramas sucesivas de la señal de sonido codificada, como sorda, transición sorda, transición sonora, sonora, o inicio; y la determinación de los parámetros de ocultación/recuperación comprende calcular el parámetro de información de energía en relación con un máximo de una energía de señal para tramas clasificadas como sonoras o inicio, y calcular el parámetro de información de energía en relación con una energía promedio por muestra, para otras tramas.

Description

5

10

15

20

25

30

35

40

45

50

55

DESCRIPCION

Metodo y dispositivo para la ocultacion eficiente del borrado de tramas en codecs de voz basados en la prediccion lineal

Campo de la invencion

La presente invencion se refiere a una tecnica para codificar digitalmente una senal de sonido, en particular, aunque no de manera exclusiva, una senal de voz, con vistas a la transmision y/o smtesis de esta senal de sonido. Mas espedficamente, la presente invencion se refiere a la codificacion y descodificacion robustas de senales de sonido con el fin de mantener un buen rendimiento en caso de una(s) trama(s) borrada(s) debido, por ejemplo, a errores de los canales en sistemas inalambricos o a paquetes perdidos en aplicaciones de voz a traves de redes por paquetes.

Antecedentes de la invencion

La demanda de tecnicas eficientes de codificacion digital de la voz de banda estrecha y banda ancha con un buen compromiso entre la calidad subjetiva y la velocidad de bits se esta incrementando en varias areas de aplicacion, tales como teleconferencias, multimedia y comunicaciones inalambricas. Hasta hace poco, en aplicaciones de codificacion de voz se ha usado principalmente un ancho de banda telefonico limitado a un intervalo de entre 200 y 3.400 Hz. No obstante, las aplicaciones de voz de banda ancha proporcionan un aumento de la inteligibilidad y la naturalidad en la comunicacion en comparacion con el ancho de banda telefonico convencional. Se ha observado que un ancho de banda en el intervalo de 50 a 7.000 Hz es suficiente para aportar una buena calidad dando la impresion de una comunicacion presencial. Para senales de audio genericas, este ancho de banda aporta una calidad subjetiva aceptable, aunque la misma sigue siendo menor que la calidad de radio FM o del CD que funcionan, respectivamente, en intervalos de 20 a 16.000 Hz y de 20 a 20.000 Hz.

Un codificador de voz convierte una senal de voz en un flujo continuo de bits digital el cual se transmite a traves de un canal de comunicaciones o se almacena en un soporte de almacenamiento. La senal de voz se digitaliza, es decir, se muestrea y se cuantifica, habitualmente con 16 bits por muestra. El codificador de voz tiene la funcion de representar estas muestras digitales con un numero de bits menor, aunque manteniendo una buena calidad subjetiva de la voz. El descodificador o sintetizador de voz actua sobre el flujo continuo de bits transmitido o almacenado, y lo convierte de nuevo a una senal de sonido.

La codificacion de Prediccion Lineal con Excitacion por Codigo (CELP) es una de las mejores tecnicas disponibles con el fin de lograr un buen compromiso entre la calidad subjetiva y la velocidad de bits. Esta tecnica de codificacion es uno de los fundamentos de varias normativas de codificacion de la voz, en aplicaciones tanto inalambricas como por cable. En la codificacion CELP, la senal de voz muestreada se procesa en bloques sucesivos de L muestras, denominados habitualmente tramas, donde L es un numero predeterminado que se corresponde tfpicamente con entre 10 y 30 ms. En cada trama se calcula y transmite un filtro de prediccion lineal (LP). El calculo del filtro de LP requiere tfpicamente un anticipo, un segmento de voz de 5 a 15 ms de la trama sucesiva. La trama de L muestras se divide en bloques de menor tamano denominados subtramas. Habitualmente, el numero de subtramas es tres o cuatro, lo cual da como resultado subtramas de 4 a 10 ms. En cada subtrama, se obtiene habitualmente una senal de excitacion a partir de dos componentes, la excitacion pasada y la excitacion innovadora, con libro de codigos fijo. A la componente formada a partir de la excitacion pasada se le hace referencia, normalmente, como excitacion de altura tonal o de libro de codigos adaptativo. Los parametros que caracterizan la senal de excitacion se codifican y se transmiten hacia el descodificador, donde la senal de excitacion reconstruida se usa como entrada del filtro de LP.

En la medida en la que las aplicaciones principales de codificacion de voz de baja velocidad de bits son sistemas inalambricos de comunicaciones moviles y voz a traves de redes por paquetes, entonces, el aumento de la robustez de los codecs de voz en caso de borrado de tramas resulta significativamente importante. En sistemas celulares inalambricos, la energfa de la senal recibida puede presentar desvanecimientos severos y frecuentes que dan como resultado tasas elevadas de errores de bit, y esto se hace mas evidente en los lfmites de las celulas. En este caso, el descodificador de canales no consigue corregir los errores en la trama recibida y, como consecuencia, el detector de errores usado habitualmente despues del descodificador de canales declarara la trama como borrada. En aplicaciones de voz a traves de redes por paquetes, la senal de voz se empaqueta, colocandose, habitualmente, una trama de 20 ms en cada paquete. En comunicaciones por conmutacion de paquetes, en un router puede producirse un descarte de paquetes si el numero de los mismos se hace muy grande, o el paquete puede llegar al receptor despues de un retardo elevado y se debe declarar como perdido si su retardo es mayor que la longitud de una memoria intermedia antifluctuaciones en el lado del receptor. En estos sistemas, el codec esta sometido tfpicamente a tasas de borrado de tramas de entre el 3 y el 5%. Ademas, el uso de codificacion de voz de banda ancha es un recurso importante para estos sistemas con el fin de permitirles competir con la PSTN (red telefonica publica conmutada) tradicional que hace uso de las senales heredadas de voz de banda estrecha.

El libro de codigos adaptativo, o el predictor de altura tonal, en la CELP juega un papel importante en el mantenimiento de una calidad de voz elevada con bajas velocidades de bits. No obstante, puesto que el contenido del libro de codigos adaptativo se basa en la senal de tramas pasadas, esto hace que el modelo del codec sea

5

10

15

20

25

30

35

40

45

50

sensible a la perdida de tramas. En el caso de tramas borradas o perdidas, el contenido del libro de codigos adaptativo en el descodificador resulta diferente con respecto a su contenido en el codificador. Asf, despues de ocultar una trama perdida y recibir tramas buenas consiguientes, la senal sintetizada en las tramas buenas recibidas es diferente de la senal de smtesis deseada puesto que se ha cambiado la contribucion del libro de codigos adaptativo. El impacto de una trama perdida depende de la naturaleza del segmento de voz en el cual se produjo el borrado. Si el borrado se produce en un segmento estacionario de la senal, entonces puede llevarse a cabo una ocultacion eficiente del borrado de la trama y puede reducirse al mmimo el impacto sobre tramas buenas consiguientes. Por otro lado, si el borrado se produce en un inicio de voz o una transicion, el efecto del borrado se puede propagar a traves de varias tramas. Por ejemplo, si se pierde el comienzo de un segmento sonoro, entonces, en el contenido del libro de codigos adaptativo, faltara el primer periodo de altura tonal. Esto tendra un efecto importante sobre el predictor de altura tonal en tramas buenas consiguientes, dando como resultado un tiempo prolongado antes de que la senal de smtesis converja en la deseada en el codificador.

El documento WO 01/086637 describe un metodo para reducir la probabilidad de que se borre una trama de voz durante la transmision, el cual se basa en el uso de tecnicas de correccion directa de errores (FEC). El documento WO 01/086637 apunta mas espedficamente a la mejora de la calidad de voz producida con el uso de las tecnicas de FEC.

Sumario de la invencion

El objetivo de la presente invencion se logra por medio de las reivindicaciones independientes. En las reivindicaciones dependientes se definen realizaciones espedficas.

La presente invencion se refiere a un metodo de ocultacion del borrado de tramas provocado por tramas de una senal de sonido codificada que se han borrado durante la transmision desde un codificador a un descodificador, y para acelerar la recuperacion del descodificador despues de que se hayan recibido tramas no borradas de la senal de sonido codificada, segun la reivindicacion 1.

La presente invencion se refiere tambien a un metodo para la ocultacion del borrado de tramas provocado por tramas borradas durante la transmision de una senal de sonido codificada bajo la forma de parametros de codificacion de la senal, desde un codificador a un descodificador, y para acelerar la recuperacion del descodificador despues de que se hayan recibido tramas no borradas de la senal de sonido codificada, segun la reivindicacion 39.

De acuerdo con la presente invencion, se proporciona tambien un dispositivo para llevar a cabo la ocultacion del borrado de tramas provocado por tramas de una senal de sonido codificada, borradas durante la transmision desde un codificador a un descodificador, y para acelerar la recuperacion del descodificador despues de que se hayan recibido tramas no borradas de la senal de sonido codificada, segun la reivindicacion 54.

Segun la invencion, se proporciona ademas un dispositivo para la ocultacion del borrado de tramas provocado por tramas borradas durante la transmision de una senal de sonido codificada bajo la forma de parametros de codificacion de la senal, desde un codificador a un descodificador, y para acelerar la recuperacion del descodificador despues de que se hayan recibido tramas no borradas de la senal de sonido codificada, segun la reivindicacion 75.

Los anteriores objetivos, ventajas y caractensticas, y otros, de la presente invencion se pondran mas claramente de manifiesto al leer la siguiente descripcion no limitativa de realizaciones ilustrativas de la misma, proporcionadas unicamente a tftulo de ejemplo, en referencia a los dibujos adjuntos.

Breve descripcion de los dibujos

La Figura 1 es un diagrama de bloques esquematico de un sistema de comunicacion de voz que ilustra una aplicacion de dispositivos de codificacion y descodificacion de voz segun la presente invencion;

la Figura 2 es un diagrama de bloques esquematico de un ejemplo de dispositivo de codificacion de banda ancha (codificador de AMR-WB);

la Figura 3 es un diagrama de bloques esquematico de un ejemplo de dispositivo de descodificacion de banda ancha (descodificador de AMR-WB);

la Figura 4 es un diagrama de bloques simplificado del codificador de AMR-WB de la Figura 2, en donde el modulo diezmador, el modulo de filtro paso-alto y el modulo de filtro de pre-enfasis se han agrupado en un unico modulo de pre-procesado, y en donde el modulo de busqueda de altura tonal en bucle cerrado, el modulo de calculo de la respuesta a entrada cero, el modulo generador de la respuesta a impulsos, el modulo de busqueda de excitacion innovadora y el modulo de actualizacion de la memoria se han agrupado en un unico modulo de busqueda de altura tonal en bucle cerrado y de libro de codigos innovador;

la Figura 5 es una extension del diagrama de bloques de la Figura 4, en la que se han anadido modulos relacionados con una realizacion ilustrativa de la presente invencion;

la Figura 6 es un diagrama de bloques que explica la situacion cuando se construye un inicio artificial; y

5

10

15

20

25

30

35

40

45

50

55

la Figura 7 es un diagrama esquematico que muestra una realizacion ilustrativa de una maquina de estados de clasificacion de tramas para la ocultacion del borrado.

Descripcion detallada de las realizaciones ilustrativas

Aunque las realizaciones ilustrativas de la presente invencion se describiran en la siguiente descripcion en relacion con una senal de voz, debe tenerse en mente que los conceptos de la presente invencion se aplican igualmente a otros tipos de senal, en particular, aunque no de forma exclusiva, a otros tipos de senales de sonido.

La Figura 1 ilustra un sistema 100 de comunicacion de voz que representa el uso de la codificacion y la descodificacion de voz en el contexto de la presente invencion. El sistema 100 de comunicacion de voz de la Figura 1 presta soporte a la transmision de una senal de voz a traves de un canal 101 de comunicaciones. Aunque el canal 101 de comunicaciones puede comprender, por ejemplo, un cable, un enlace optico o un enlace de fibra, el mismo comprende, tfpicamente, al menos en parte, un enlace de radiofrecuencia. Normalmente, el enlace de radiofrecuencia presta soporte a multiples comunicaciones de voz simultaneas que requieren recursos compartidos de ancho de banda, tal como puede observarse con los sistemas de telefoma celular. Aunque no se muestra, el canal 101 de comunicaciones se puede sustituir por un dispositivo de almacenamiento en una realizacion de un solo dispositivo del sistema 100 que graba y almacena la senal de voz codificada, con vistas a una posterior reproduccion.

En el sistema 100 de comunicacion de voz de la Figura 1, un microfono 102 produce una senal 103 de voz analogica que se suministra a un conversor analogico-a-digital (A/D) 104 para convertirla en una senal 105 de voz digital. Un codificador 106 de voz codifica la senal 105 de voz digital para producir un conjunto de parametros 107 de codificacion de senales los cuales se codifican en formato binario y se entregan a un codificador 108 de canales. El codificador 108 de canales opcional anade redundancia a la representacion binaria de los parametros 107 de codificacion de senales, antes de transmitirlos a traves del canal 101 de comunicaciones.

En el receptor, un descodificador 109 de canales utiliza dicha informacion redundante en el flujo continuo 111 de bits recibido para detectar y corregir errores de canal que se hayan producido durante la transmision. Un descodificador 110 de voz convierte el flujo continuo 112 de bits recibido desde el descodificador 109 de canales, de nuevo en un conjunto de parametros de codificacion de senales, y crea, a partir de los parametros de codificacion de senales recuperados, una senal 113 de voz sintetizada digital. La senal 113 de voz sintetizada digital, reconstruida en el descodificador 110 de voz, se convierte a un formato analogico 114 por medio de un conversor digital-a-analogico (D/A) 115 y se reproduce a traves de una unidad 116 de altavoz.

La realizacion ilustrativa del metodo de ocultacion eficiente del borrado de tramas que se da a conocer en la presente memoria descriptiva se puede usar con codecs basados en la prediccion lineal o bien de banda estrecha o bien de banda ancha. La presente realizacion ilustrativa se da a conocer en relacion con un codec de voz de banda ancha que ha sido normalizado por la Union Internacional de Telecomunicaciones (ITU) en forma de la Recomendacion G.722.2, y que se conoce como el codec de AMR-WB (Codec de Banda Ancha con Multi-Velocidad Adaptativa) [Recomendacion G-722.2 de la ITU-T “Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)”, Ginebra, 2002]. Este codec ha sido seleccionado tambien por el proyecto de asociacion de tercera generacion (3GPP) para la telefoma de banda ancha en sistemas inalambricos de la tercera generacion [3GPP TS 26.190, “AMR Wideband Speech Codec: Transcoding Functions”, Especificacion Tecnica del 3GPP]. El AMR-WB puede funcionar con 9 velocidades de bits que van desde 6,6 a 23,85 kbit/s. Para ilustrar la presente invencion se usa la velocidad de bits de 12,65 kbit/s.

En este caso, debe entenderse que la realizacion ilustrativa del metodo de ocultacion eficiente del borrado de tramas se podna aplicar a otros tipos de codecs.

En las siguientes secciones, se ofrecera, en primer lugar, una vision general del codificador y el descodificador de AMR-WB. A continuacion, se dara a conocer la realizacion ilustrativa del planteamiento novedoso para mejorar la robustez del codec.

Vision general del codificador de AMR-WB

La senal de voz muestreada se codifica bloque a bloque por medio del dispositivo 200 de codificacion de la Figura 2, el cual se divide en once modulos numerados del 201 al 211.

Por lo tanto, la senal 212 de voz de entrada se procesa bloque a bloque, es decir, en los anteriormente mencionados bloques de L muestras, denominados tramas.

En referencia a la Figura 2, la senal 212 de voz de entrada muestreada se diezma en un modulo diezmador 201. La senal se diezma desde 16 kHz bajandola hasta 12,8 kHz, con el uso de tecnicas bien conocidas para aquellos con conocimientos habituales en la materia. El diezmado hace que aumente la eficiencia de codificacion, ya que se codifica un ancho de banda de frecuencia menor. Esto reduce tambien la complejidad algontmica puesto que se reduce el numero de muestras en una trama. Despues del diezmado, la trama de 320 muestras de 20 ms se reduce a una trama de 256 muestras (relacion de diezmado de 4/5).

5

10

15

20

25

30

35

40

45

50

A continuacion, la trama de entrada se suministra al modulo 202 de pre-procesado, opcional. El modulo 202 de pre- procesado puede constar de un filtro paso-alto con una frecuencia de corte de 50 Hz. El filtro paso-alto 202 elimina los componentes de sonido no deseados por debajo de 50 Hz.

La senal pre-procesada, diezmada, se indica con Sp(n), n=0, 1, 2,..., L-1, donde L es la longitud de la trama (256 con una frecuencia de muestreo de 12,8 kHz). En una realizacion ilustrativa del filtro 203 de pre-enfasis, la senal Sp(n) se somete a un pre-enfasis utilizando un filtro que presenta la siguiente funcion de transferencia:

imagen1

donde p es un factor de pre-enfasis con un valor situado entre 0 y 1 (un valor tfpico es p =0,7). La funcion del filtro 203 de pre-enfasis es potenciar el contenido de frecuencias altas de la senal de voz de entrada. Reduce tambien el rango dinamico de la senal de voz de entrada, lo que la hace mas adecuada para la implementacion en coma fija. El pre-enfasis juega tambien un papel importante en la obtencion de una ponderacion perceptual total apropiada del error de cuantificacion, lo cual contribuye a una mejora de la calidad del sonido. Esto se explicara de forma mas detallada posteriormente en la presente.

La salida del filtro 203 de pre-enfasis se indica como s(n). Esta senal se usa para llevar a cabo el analisis de LP en el modulo 204. El analisis de LP es una tecnica bien conocida para aquellos con conocimientos habituales en la materia. En esta implementacion ilustrativa, se usa el planteamiento de autocorrelacion. En el planteamiento de autocorrelacion, en primer lugar la senal s(n) se enventana usando, tfpicamente, una ventana Hamming con una longitud del orden de entre 30 y 40 ms. A partir de la senal enventanada se calculan las autocorrelaciones, y se usa la recursion de Levinson-Durbin para calcular coeficientes del filtro de LP, a, donde i = 1,..., p, y en donde p es el orden de la LP, el cual, tipicamente, es 16 en la codificacion de banda ancha. Los parametros ai son los coeficientes de la funcion de transferencia A(z) del filtro de LP, que viene dada por la siguiente relacion:

P t

A(Z) = 1 + Ya :Z "

El analisis de LP se lleva a cabo en el modulo 204, el cual realiza tambien la cuantificacion y la interpolacion de los coeficientes del filtro de LP. Los coeficientes del filtro de LP se transforman, en primer lugar, a otro dominio equivalente mas adecuado con fines relativos a la cuantificacion y la interpolacion. Los dominios de los pares espectrales de lmeas (LSP) y los pares espectrales de inmitancia (ISP) son dos dominios en los cuales pueden llevarse a cabo de manera eficiente la cuantificacion y la interpolacion. Los 16 coeficientes del filtro de LP, a, se pueden cuantificar con una magnitud del orden de entre 30 y 50 bits usando una cuantificacion fraccionada o de multiples fases, o una combinacion de las mismas. La finalidad de la interpolacion es permitir la actualizacion de los coeficientes del filtro de LP cada subtrama al mismo tiempo que se transmiten una vez cada trama, lo cual hace que mejore el rendimiento del codificador sin que aumente la velocidad de bits. Por otro lado, se cree que la cuantificacion y la interpolacion de los coeficientes del filtro de LP son bien conocidas para aquellos con conocimientos habituales en la materia y, por consiguiente, no se detallaran mas en la presente memoria descriptiva.

Los siguientes parrafos describiran el resto de las operaciones de codificacion llevadas a cabo sobre la base de cada subtrama. En esta implementacion ilustrativa, la trama de entrada se divide en 4 subtramas de 5 ms (64 muestras a la frecuencia de muestreo de 12,8 kHz). En la siguiente descripcion, el filtro A(z) indica el filtro de LP interpolado, sin cuantificar, de la subtrama, y el filtro A(z) indica el filtro de LP interpolado cuantificado de la subtrama. El filtro A(z) se suministra cada subtrama a un multiplexor 213 para su transmision a traves de un canal de comunicaciones.

En codificadores de analisis-por-srntesis, los parametros optimos de altura tonal e innovacion se buscan minimizando el error cuadratico medio entre la senal 212 de voz de entrada y una senal de voz sintetizada en un dominio ponderado perceptualmente. La senal ponderada sw(n) se calcula en un filtro 205 de ponderacion perceptual como respuesta a la senal s(n) del filtro 203 de pre-enfasis. Se usa un filtro 205 de ponderacion perceptual con denominador fijo, adecuado para senales de banda ancha. Un ejemplo de funcion de transferencia para el filtro 205 de ponderacion perceptual viene dado por la siguiente relacion:

donde

Con el fin de simplificar el analisis de la altura tonal, en primer lugar se estima un retardo de altura tonal en bucle abierto Tol, en un modulo 206 de busqueda de altura tonal en bucle abierto, a partir de la senal de voz ponderada sw(n). A continuacion, el analisis de altura tonal en bucle cerrado, que se lleva a cabo en un modulo 207 de busqueda de altura tonal en bucle cerrado, sobre la base de cada subtrama, se restringe en torno al retardo de altura tonal en bucle abierto Tol, lo cual reduce significativamente la complejidad de la busqueda de los parametros de LTP T (retardo de altura tonal) y b (ganancia de altura tonal). El analisis de la altura tonal en bucle abierto se lleva a cabo habitualmente en el modulo 206 una vez cada 10 ms (dos subtramas) usando tecnicas bien conocidas para aquellos con conocimientos habituales en la materia.

imagen2

imagen3

5

10

15

20

25

30

35

40

45

En primer lugar, se calcula el vector objetivo x para el analisis de LTP (Prediccion a Largo Plazo). Habitualmente, esto se lleva a cabo restando, de la senal de voz ponderada sw(n), la respuesta a entrada cero so del filtro de smtesis ponderado W(z)/A(z). Esta respuesta a entrada cero so se calcula por medio de un modulo 208 de calculo de respuestas a entrada cero como respuesta al filtro de LP de interpolacion cuantificado A(z) del modulo 204 de analisis, cuantificacion e interpolacion de LP y a los estados iniciales del filtro de smtesis ponderado W(z)/A(z) almacenados en el modulo 211 de actualizacion de memoria como respuesta a los filtros de LP A(z) y A(z), y el vector de excitacion u. Esta operacion es bien conocida para aquellos con conocimientos habituales en la materia y, por consiguiente, no se detallara mas en la presente memoria descriptiva.

En el generador 209 de respuesta a impulsos se calcula un vector de respuesta a impulsos N-dimensional h del filtro de smtesis ponderado W(z)/A(z) usando los coeficientes del filtro de LP A(z) y A(z) del modulo 204. Nuevamente, esta operacion es bien conocida para aquellos con conocimientos habituales en la materia y, por consiguiente, no se detallara mas en la presente memoria descriptiva.

Los parametros de altura tonal (o de libro de codigos de altura tonal) en bucle cerrado b, T y j se calculan en el modulo 207 de busqueda de altura tonal en bucle cerrado, que usa, como entradas, el vector objetivo x, el vector de respuesta a impulsos h y el retardo de altura tonal en bucle abierto Tol-

La busqueda de la altura tonal consiste en hallar el retardo T y la ganancia b de altura tonal optimos que minimizan un error ponderado cuadratico medio de prediccion de la altura tonal, por ejemplo,

donde

entre el vector objetivo x y una version filtrada escalada de la excitacion pasada.

Mas espedficamente, en la presente implementacion ilustrativa, la busqueda de altura tonal (libro de codigos de altura tonal) esta compuesta por tres fases.

En la primera fase, se estima un retardo de altura tonal en bucle abierto Tol, en el modulo 206 de busqueda de altura tonal en bucle abierto, como respuesta a la senal de voz ponderada sw(n). Tal como se indica en la descripcion anterior, este analisis de altura tonal en bucle abierto se lleva a cabo, habitualmente, una vez cada 10 ms (dos subtramas) usando tecnicas bien conocidas para aquellos con conocimientos habituales en la materia.

En la segunda fase, se busca un criterio de busqueda C en el modulo 207 de busqueda de altura tonal en bucle cerrado, para retardos enteros de altura tonal en torno al retardo estimado de altura tonal en bucle abierto Tol (habitualmente ±5), lo cual simplifica significativamente el procedimiento de busqueda. Para actualizar el vector de codigo filtrado yT (este vector se define en la siguiente descripcion) sin necesidad de calcular la convolucion para cada retardo de altura tonal, se usa un procedimiento sencillo. Un ejemplo de criterio de busqueda C viene dado por:

c

donde t indica transposicion del vector

Una vez que se ha hallado un retardo de altura tonal entero optimo en la segunda fase, una tercera fase de la busqueda (modulo 207) somete a prueba, por medio del criterio de busqueda C, las fracciones en torno a ese retardo de altura tonal entero optimo. Por ejemplo, la normativa de AMR-WB usa una resolucion de submuestreo de / y /.

En senales de banda ancha, la estructura armonica existe solamente hasta una cierta frecuencia, en funcion del segmento de voz. Asf, con el fin de lograr una representacion eficiente de la contribucion de la altura tonal en segmentos sonoros de una senal de voz de banda ancha, se requiere flexibilidad para variar la cantidad de periodicidad sobre el espectro de banda ancha. Esto se logra procesando el vector codigo de altura tonal a traves de una pluralidad de filtros de conformacion de frecuencia (por ejemplo, filtros paso-bajo o pasa-banda). Se selecciona el filtro de conformacion de frecuencia que minimiza el error ponderado cuadratico medio e(). El filtro seleccionado de conformacion de frecuencias se identifica con un mdice j.

El mdice de libro de codigos de altura tonal T se codifica y se transmite al multiplexor 213 para su transmision a traves de un canal de comunicaciones. La ganancia de altura tonal b se cuantifica y se transmite al multiplexor 213. Se usa un bit adicional para codificar el mdice j, suministrandose tambien este bit adicional al multiplexor 213.

Una vez que se han determinado la altura tonal, o los parametros de LTP (Prediccion a Largo Plazo) b, T, y j, la siguiente etapa consiste en buscar la excitacion innovadora optima por medio del modulo 210 de busqueda de excitacion innovadora de la Figura 2. En primer lugar, el vector objetivo x se actualiza restando la contribucion de LTP:

imagen4

imagen5

5

10

15

20

25

30

35

40

45

50

imagen6

donde b es la ganancia de altura tonal e yj es el vector de libro de codigos de altura tonal filtrado (la excitacion pasada en el retardo J filtrada con el filtro de conformacion de frecuencia seleccionado (mdice j) y convolucionada con la respuesta a impulsos h).

El procedimiento de busqueda de la excitacion innovadora en la CELP se lleva a cabo en un libro de codigos de innovacion para encontrar el vector codigo de excitacion Ck y la ganancia g optimos que minimizan el error cuadratico medio E entre el vector objetivo x’ y una version filtrada escalada del vector codigo Ck, por ejemplo:

imagen7

donde H es una matriz de convolucion triangular inferior obtenida a partir del vector de respuesta a impulsos h. El mdice k del libro de codigos de innovacion correspondiente al vector codigo Ck y la ganancia g optimos hallados se suministran al multiplexor 213 para su transmision a traves de un canal de comunicaciones.

Debe indicarse que el libro de codigos de innovacion usado es un libro de codigos dinamico que consta de un libro de codigos algebraico seguido por un pre-filtro adaptativo F(z) que potencia componentes espectrales especiales con el fin de mejorar la calidad de la voz de smtesis, segun la patente US 5.444.816 concedida a Adoul et al., el 22 de agosto de 1995. En esta implementacion ilustrativa, la busqueda en el libro de codigos innovador se lleva a cabo en el modulo 210 por medio de un libro de codigos algebraico tal como se describe en las patentes US n.°: 5.444.816 (Adoul et al.) emitida el 22 de agosto de 1995; 5.699.482 concedida a Adoul et al., el 17 de diciembre de 1997; 5.754.976 concedida a Adoul et al., el 19 de mayo de 1998; y 5.701.392 (Adoul et al.) con fecha del 23 de diciembre de 1997.

Vision general del descodificador de AMR-WB

El descodificador 300 de voz de la Figura 3 ilustra las diversas etapas llevadas a cabo entre la entrada digital 322 (flujo continuo de bits de entrada hacia el desmultiplexor 317) y la senal 323 de voz de salida muestreada (salida del sumador 321).

El desmultiplexor 317 extrae los parametros del modelo de smtesis a partir de la informacion binaria (flujo continuo 322 de bits de entrada) recibida desde un canal de entrada digital. De cada trama binaria recibida, los parametros extrafdos son:

• los coeficientes de LP interpolados, cuantificados, A(z), denominados tambien parametros de prediccion a corto plazo (STP) producidos una vez por cada trama;

• los parametros de prediccion a largo plazo (LTP) J, b y j (para cada subtrama); y

• el mdice de libro de codigos de innovacion k y la ganancia g (para cada subtrama).

La senal de voz actual se sintetiza sobre la base de estos parametros, tal como se explicara mas adelante en la presente.

El libro 318 de codigos de innovacion es sensible al mdice k para producir el vector codigo de innovacion Ck, que se escala segun el factor de ganancia descodificado g a traves de un amplificador 324. En la implementacion ilustrativa, para producir el vector codigo innovador Ck se usa un libro de codigos de innovacion, segun se describe en las patentes US antes mencionadas n.° 5.444.816; 5.699.482; 5.754.976; y 5.701.392.

El vector codigo escalado, generado, en la salida del amplificador 324 se procesa a traves de un potenciador 305 de la altura tonal, dependiente de la frecuencia.

La potenciacion de la periodicidad de la senal de excitacion u hace que mejore la calidad de los segmentos sonoros. La potenciacion de la periodicidad se logra filtrando el vector codigo innovador Ck del libro de codigos (fijo) de innovacion a traves de un filtro de innovacion F(z) (potenciador 305 de la altura tonal), cuya respuesta en frecuencia enfatiza las frecuencias superiores mas que las frecuencias inferiores. Los coeficientes del filtro de innovacion F(z) estan relacionados con la cantidad de periodicidad en la senal de excitacion u.

Una forma eficiente, ilustrativa, de obtener los coeficientes del filtro de innovacion F(z) es relacionarlos con la cantidad de contribucion de altura tonal en la senal de excitacion total u. Esto da como resultado una respuesta en frecuencia que depende de la periodicidad de las subtramas, en donde las frecuencias superiores tienen un mayor enfasis (mayor pendiente total) para ganancias mas altas de la altura tonal. El filtro 305 de innovacion tiene el efecto de reducir la energfa del vector codigo de innovacion Ck a frecuencias inferiores cuando la senal de excitacion u es mas periodica, lo cual potencia la periodicidad de la senal de excitacion u a frecuencias inferiores mas que a las frecuencias superiores. Una de las formas sugeridas para el filtro 305 de innovacion es la siguiente:

5

10

15

20

25

30

35

40

imagen8

donde a es un factor de periodicidad obtenido a partir del nivel de periodicidad de la senal de excitacion u. El factor de periodicidad ase calcula en el generador 304 de factores de sonoridad. En primer lugar, se calcula un factor de sonoridad rv en el generador 304 de factores de sonoridad con:

imagen9

donde Ev es la energfa del vector codigo de altura tonal escalado bvT, y Ec es la energfa del vector codigo innovador escalado gc^. Es decir:

imagen10

y

imagen11

Observese que el valor de rv se situa entre -1 y 1 (1 se corresponde con senales puramente sordas y -1 se corresponde con senales puramente sordas).

El vector codigo de altura tonal escalado bvT ante mencionado se produce aplicando el retardo de altura tonal T a un libro 301 de codigos de altura tonal para producir un vector codigo de altura tonal. A continuacion, el vector codigo de altura tonal se procesa a traves de un filtro paso-bajo 302 cuya frecuencia de corte se selecciona en relacion con el mdice j del desmultiplexor 317, para producir el vector codigo de altura tonal filtrado vt. A continuacion, el vector codigo de altura tonal filtrado vt se amplifica entonces segun la ganancia de altura tonal b por medio de un amplificador 326, para producir el vector codigo de altura tonal escalado bvT.

En esta implementacion ilustrativa, el factor a se calcula a continuacion en el generador 304 de factores de sonoridad con:

a = 0.125(1

que se corresponde con un valor de 0 para senales puramente sordas, y 0,25 para senales puramente sonoras.

Por lo tanto, la senal potenciada Cf se calcula filtrando el vector codigo innovador escalado gck a traves del filtro 305 de innovacion (F(z)).

La senal de excitacion potenciada u’ se calcula con el sumador 320 como:

u'- cf+ bvj

Debe indicarse que este proceso no se lleva a cabo en el codificador 200. Asf, resulta esencial actualizar el contenido del libro 301 de codigos de altura tonal usando el valor pasado de la senal de excitacion u, sin potenciacion, y almacenado en la memoria 303, para mantener la sincronizacion entre el codificador 200 y el descodificador 300. Por lo tanto, la senal de excitacion u se usa para actualizar la memoria 303 del libro 301 de codigos de altura tonal, y la senal de excitacion potenciada u’ se usa en la entrada del filtro 306 de smtesis de LP.

La senal sintetizada s’ se calcula filtrando la serial de excitacion potenciada u’ a traves del filtro 306 de sintesis de LP que tiene la forma MA(z), donde A(z) es el filtro de LP interpolado, cuantificado, en la subtrama actual. Tal como puede observarse en la Figura 3, los coeficientes de LP interpolados, cuantificados, A(z) en la linea 325 del desmultiplexor 317 se suministran al filtro 306 de smtesis de LP para ajustar de manera correspondiente los parametros del filtro 306 de smtesis de LP. El filtro 307 de desenfasis es el inverso del filtro 203 de pre-enfasis de la Figura 2. La funcion de transferencia del filtro 307 de desenfasis viene dada por

imagen12

donde ^ es un factor de pre-enfasis con un valor situado entre 0 y 1 (un valor tfpico es ^ = 0,7). Tambien podna usarse un filtro de orden mayor.

El vector s’ se filtra a traves del filtro de desenfasis D(z) 307 para obtener el vector Sd, el cual se procesa a traves del filtro paso-alto 308 para eliminar las frecuencias no deseadas por debajo de 50 Hz, y obtener adicionalmente Sh.

El sobremuestreador 309 lleva a cabo el proceso inverso del diezmador 201 de la Figura 2. En esta realizacion ilustrativa, el sobremuestreo convierte la frecuencia de muestreo de 12,8 kHz de nuevo en la velocidad de muestreo original de 16 kHz, usando tecnicas bien conocidas para aquellos con conocimientos habituales en la materia. La serial de sintesis sobremuestreada se indica como A la serial ^se le hace referencia tambien como serial 5 intermedia sintetizada de banda ancha.

La serial de sintesis sobremuestreada ® no contiene los componentes de frecuencia superiores que se perdieron durante el proceso de diezmado (modulo 201 de la Figura 2) en el codificador 200. Esto confiere una percepcion de paso-bajo a la senal de voz sintetizada. Para restablecer la banda completa de la senal original, en el modulo 310 se lleva a cabo un procedimiento de generacion de altas frecuencias, y el mismo requiere una entrada proveniente del 10 generador 304 de factores de sonoridad (Figura 3).

La secuencia de ruido filtrada por pasa-banda, resultante, z, del modulo 310 de generacion de altas frecuencias es sumada por el sumador 321 a la serial de voz sintetizada, sobremuestreada, ® para obtener la serial de voz de salida, reconstruida, final, Sout en la salida 323. En la solicitud de patente PCT internacional publicada con el numero WO 00/25305 el 4 de mayo de 2000, se describe un ejemplo de proceso de regeneracion de altas frecuencias.

15 En la Tabla 1 se proporciona la asignacion de bits del codec de AMR-WB a 12,65 kbit/s.

Tabla 1. Asignacion de bits en el modo de 12,65 kbit/s

Parametro: Bits/trama

Parametros de LP: 46

Retardo de Altura Tonal: 30 = 9 + 6 + 9 + 6

Filtrado de Altura Tonal: 4 = 1 + 1 + 1 + 1

Ganancias: 28 = 7 + 7 + 7 + 7

Libro de Codigos Algebraico: 144 = 36 + 36 + 36 + 36

Bit de Modo: 1

Total: 253 bits = 12,65 kbit/s

Ocultacion robusta del borrado de tramas

El borrado de tramas tiene un efecto importante sobre la calidad de la voz sintetizada en sistemas digitales de 20 comunicacion de voz, especialmente cuando funciona en entornos inalambricos y redes por conmutacion de paquetes. En los sistemas celulares inalambricos, la energfa de la senal recibida puede presentar frecuentes desvanecimientos severos que dan como resultado tasas elevadas de errores de bit, y esto se hace mas evidente en los lfmites de las celulas. En este caso, el descodificador de canales no consigue corregir los errores en la trama recibida y, como consecuencia, el detector de errores usado habitualmente despues del descodificador de canales 25 declarara la trama como borrada. En aplicaciones de voz a traves de redes por paquetes, tales como el Protocolo de Voz por Internet (VoIP), la senal de voz se empaqueta, de manera que habitualmente se ubica una trama de 20 ms en cada paquete. En comunicaciones por conmutacion de paquetes, en un router puede producirse un descarte de paquetes si el numero de paquetes se hace muy grande, o el paquete puede llegar al receptor despues de un retardo prolongado y debena ser declarado como perdido si su retardo es mayor que la longitud de una memoria 30 intermedia antifluctuaciones en el lado del receptor. En estos sistemas, el codec esta sometido tfpicamente a tasas de borrado de tramas del 3 al 5%.

Basicamente, el problema del procesado de borrado de tramas (FER) es doble. En primer lugar, cuando llega un indicador de trama borrada, la trama que falta se debe generar usando la informacion enviada en la trama previa y estimando la evolucion de la senal en la trama ausente. El exito de la estimacion depende, no solamente de la 35 estrategia de ocultacion, sino tambien del lugar en el que se produce el borrado en la senal de voz. En segundo lugar, debe garantizarse una transicion suave cuando se recupera el funcionamiento normal, es decir, cuando llega la primera trama buena despues de un bloque de tramas borradas (una o mas). Esta no es una tarea trivial en la medida en la que la sintesis real y la sintesis estimada pueden evolucionar de manera diferente. Por tanto, cuando llega la primera trama buena, el descodificador esta desincronizado con respecto al codificador. El motivo principal 40 es que los codificadores de baja velocidad de bits se basan en la prediccion de la altura tonal y, durante las tramas borradas, la memoria del predictor de altura tonal ya no es la misma que la del codificador. El problema se amplifica cuando se borran muchas tramas consecutivas. En cuanto a la ocultacion, la dificultad de la recuperacion del procesado normal depende del tipo de senal de voz en la que se produjo el borrado.

45 El efecto negativo del borrado de tramas se puede reducir significativamente adaptando la ocultacion y la recuperacion del procesado normal (recuperacion posterior) al tipo de la senal de voz en el que se produce el borrado. Con este fin, es necesario clasificar cada trama de voz. Esta clasificacion se puede realizar en el codificador y la misma es transmitida. Alternativamente, se puede estimar en el descodificador.

5

10

15

20

25

30

35

40

45

50

55

Para obtener la ocultacion y la recuperacion optimas, hay algunas caractensticas cnticas de la senal de voz que se deben controlar de forma cuidadosa. Estas caractensticas cnticas son la energfa de la senal o la amplitud, la cantidad de periodicidad, la envolvente espectral y el periodo de la altura tonal. En el caso de una recuperacion de voz sonora, puede lograrse una mejora adicional con un control de fase. Con un ligero aumento en la velocidad de bits, se pueden cuantificar y transmitir unos pocos parametros suplementarios para obtener un mejor control. Si no hay disponible ningun ancho de banda adicional, los parametros se pueden estimar en el descodificador. Con estos parametros controlados, la ocultacion y la recuperacion del borrado de tramas se pueden mejorar significativamente, especialmente mejorando la convergencia de la senal descodificada hacia la senal real en el codificador, y aliviando el efecto de disparidad entre el codificador y el descodificador cuando se recupera el procesado normal.

En la presente realizacion ilustrativa de la presente invencion, se dan a conocer metodos para una ocultacion eficiente del borrado de tramas, y metodos para extraer y transmitir parametros que mejoraran el rendimiento y la convergencia en el descodificador, en las tramas que suceden a una trama borrada. Estos parametros incluyen dos o mas de los siguientes: clasificacion de las tramas, energfa, informacion de sonoridad e informacion de fase. Ademas, se dan a conocer metodos para extraer dichos parametros en el descodificador en caso de que no sea posible la transmision de bits adicionales. Finalmente, se dan a conocer tambien metodos para mejorar la convergencia del descodificador en tramas buenas que suceden a una trama borrada.

Las tecnicas de ocultacion del borrado de tramas de acuerdo con la presente realizacion ilustrativa se han aplicado al codec de AMR-WB antes descrito. Este codec servira como escenario de ejemplo para la implementacion de los metodos de ocultacion del FER en la siguiente descripcion. Tal como se ha explicado anteriormente, la senal 212 de voz de entrada hacia el codec presenta una frecuencia de muestreo de 16 kHz, aunque se diezma a una frecuencia de muestreo de 12,8 kHz antes del procesado adicional. En la presente realizacion ilustrativa, el procesado del FER se realiza sobre la senal diezmada.

La Figura 4 proporciona un diagrama de bloques simplificado del codificador 400 de AMR-WB. En este diagrama de bloques simplificado, el diezmador 201, el filtro paso-alto 202 y el filtro 203 de pre-enfasis se agrupan juntos en el modulo 401 de preprocesado. Ademas, el modulo 207 de busqueda en bucle cerrado, el modulo 208 de calculo de respuesta a entrada cero, el modulo 209 de calculo de la respuesta a impulsos, el modulo 210 de busqueda de la excitacion innovadora, y el modulo 211 de actualizacion de la memoria se agrupan en un modulo 402 de busqueda de libro de codigos de innovacion y de la altura tonal en bucle cerrado. Esta agrupacion se lleva a cabo para simplificar la introduccion de los nuevos modulos relacionados con la realizacion ilustrativa de la presente invencion.

La Figura 5 es una extension del diagrama de bloques de la Figura 4, en la que se han anadido modulos relacionados con la realizacion ilustrativa de la presente invencion. En estos modulos anadidos 500 a 507, se calculan parametros adicionales, y los mismos se cuantifican y se transmiten con la finalidad de mejorar la ocultacion del FER y la convergencia y la recuperacion del descodificador despues de tramas borradas. En la presente realizacion ilustrativa, estos parametros incluyen clasificacion de la senal, energfa, e informacion de fase (la posicion estimada del primer pulso glotal en una trama).

En las siguientes secciones, se aportaran de forma detallada el calculo y la cuantificacion de estos parametros adicionales, y los mismos se pondran mas claramente de manifiesto en referencia a la Figura 5. Entre estos parametros, se tratara mas detalladamente la clasificacion de las senales. En las secciones sucesivas, se explicara la ocultacion eficiente del FER usando estos parametros adicionales para mejorar la convergencia.

Clasificacidn de las senales para la ocultacion y la recuperacion del FER

La idea basica que subyace tras el uso de una clasificacion de la voz para la reconstruccion de una senal en presencia de tramas borradas, consiste en el hecho de que la estrategia de ocultacion ideal es diferente para segmentos de voz cuasi-estacionarios y para segmentos de voz con caractensticas que vanan rapidamente. Mientras el procesado optimo de tramas borradas en segmentos de voz no estacionarios se puede resumir como una convergencia rapida de los parametros de codificacion de la voz a las caractensticas del ruido ambiente, en el caso de una senal cuasi-estacionaria, los parametros de codificacion de la voz no vanan drasticamente y se pueden mantener casi sin variaciones durante varias tramas borradas adyacentes antes de desvanecerse. Ademas, el metodo optimo para una recuperacion de la senal tras un bloque borrado de tramas vana con la clasificacion de la senal de voz.

La senal de voz se puede clasificar aproximadamente como sonora, sorda y pausas. La voz sonora contiene una cantidad importante de componentes periodicos y se puede dividir adicionalmente en las siguientes categonas: inicios sonoros, segmentos sonoros, transiciones sonoras y finales sonoros. Un inicio sonoro se define como un comienzo de un segmento de voz sonoro despues de una pausa o un segmento sordo. Durante los segmentos sonoros, los parametros de la senal de voz (envolvente espectral, periodo de altura tonal, relacion de componentes periodicos y no periodicos, energfa) vanan lentamente de una trama a otra. Una transicion sonora se caracteriza por variaciones rapidas de una voz sonora, tales como una transicion entre vocales. Los finales sonoros se caracterizan por una disminucion gradual de energfa y sonoridad en la terminacion de segmentos sonoros.

Las partes sordas de la senal se caracterizan por carecer del componente periodico y se pueden dividir

5

10

15

20

25

30

35

40

45

50

55

adicionalmente en tramas inestables, en las que la energfa y el espectro cambian rapidamente, y tramas estables en las que estas caractensticas permanecen relativamente estables. Las tramas restantes se clasifican como silencio. Las tramas de silencio comprenden todas las tramas sin voz activa, es decir, tambien tramas con solamente ruido en caso de que haya presencia de ruido de fondo.

No todas las clases antes mencionadas requieren un procesado aparte. Por tanto, con fines relativos a las tecnicas de ocultacion de los errores, algunas de las clases de la senal se agrupan entre sf.

Clasificacidn en el codificador

Cuando en el flujo continuo de bits hay un ancho de banda disponible para incluir la informacion de clasificacion, la clasificacion se puede realizar en el codificador. Esto presenta varias ventajas. La mas importante es que, en los codificadores de voz, se dispone normalmente de un anticipo. El anticipo permite estimar la evolucion de la senal en la trama sucesiva, y, consecuentemente, la clasificacion se puede realizar teniendo en cuenta el comportamiento futuro de la senal. En general, cuanto mas prolongado sea el anticipo, mejor podra ser la clasificacion. Otra de las ventajas es una reduccion de la complejidad, en la medida en la que la mayor parte del procesado de la senal necesario para la ocultacion del borrado de tramas es necesaria de todos modos para la codificacion de la voz. Finalmente, existe tambien la ventaja de trabajar con la senal original en lugar de la senal sintetizada.

La clasificacion de las tramas se realiza teniendo en mente la estrategia de ocultacion y recuperacion. En otras palabras, cualquier trama se clasifica de tal manera que la ocultacion puede ser optima si falta la trama sucesiva, o la recuperacion puede resultar optima si se hubiese perdido la trama previa. Algunas de las clases usadas para el procesado del FER no necesitan ser transmitidas, ya que se pueden deducir sin ambiguedades en el descodificador. En la presente realizacion ilustrativa, se usan cinco (5) clases distintas, y estas se definen de la manera siguiente:

• La clase SORDA comprende todas las tramas de voz sordas y todas las tramas sin voz activa. Una trama de final sonora tambien se puede clasificar como SORDA si su terminacion tiende a ser sorda, y la ocultacion disenada para tramas sordas se puede usar para la trama sucesiva en caso de que esta se pierda.

• La clase TRANSICION SORDA comprende tramas sordas con un posible inicio sonoro en su terminacion. No obstante, el inicio sigue siendo demasiado corto o sigue sin estar construido suficientemente bien como para usar la ocultacion disenada para tramas sonoras. La clase TRANSICION SORDA puede suceder unicamente a una trama clasificada como SoRDA o TRANSICION SORDA.

• La clase TRANSICION SONORA comprende tramas sonoras con caractensticas sonoras relativamente debiles. Son tfpicamente tramas sonoras con caractensticas que vanan rapidamente (transiciones entre vocales) o finales sonoros que duran la trama completa. La clase TRANSICION SONORA puede suceder unicamente a una trama clasificada como TRANSICION SONORA, SONORA o INICIO.

• La clase SONORA comprende tramas sonoras con caractensticas estables. Esta clase puede suceder unicamente a una trama clasificada como TRANSICION SONORA, SONORA o INICIO.

• La clase INICIO comprende todas las tramas sonoras con caractensticas estables que suceden a una trama clasificada como SORDA o TRANSICION SORDA. Las tramas clasificadas como INICIO se corresponden con tramas de inicio sonoras en donde el inicio ya esta suficientemente bien construido con vistas al uso de la ocultacion disenada para tramas sonoras perdidas. Las tecnicas de ocultacion usadas para un borrado de tramas tras la clase INICIO, son las mismas que tras la clase SONORA. La diferencia se encuentra en la estrategia de recuperacion. Si se ha perdido una trama de clase INICIO (es decir, una trama buena SONORA llega despues de un borrado, pero la ultima trama buena antes del borrado era SORDA), puede usarse una tecnica especial para reconstruir artificialmente el inicio perdido. Este escenario puede observarse en la Figura 6. En la siguiente exposicion se describiran mas detalladamente las tecnicas de reconstruccion artificial del inicio. Por otro lado, si una trama buena de INICIO llega despues de un borrado, y la ultima trama buena antes del borrado era SORDA, este procesado especial no es necesario, ya que el inicio no se ha perdido (no se ha encontrado en la trama perdida).

El diagrama de estados de la clasificacion se expone en lmeas generales en la Figura 7. Si el ancho de banda disponible es suficiente, la clasificacion se realiza en el codificador y se transmite usando 2 bits. Tal como puede observarse a partir de la Figura 7, la clase TRANSICION SORDA y la clase TRANSICION SONORA se pueden agrupar entre sf en la medida en la que se pueden diferenciar sin ambiguedades en el descodificador (la TRANSICION SORDA puede suceder unicamente a tramas SORDAS o de TRANSICION SORDA, la TRANSICION SONORA puede suceder unicamente a tramas de INICIO, SONORAS, o de TRANSICION SONORA). Para la clasificacion se usan los siguientes parametros: una correlacion normalizada rx, una medicion de la inclinacion espectral et, una relacion senal/ruido snr, un medidor de la estabilidad de la altura tonal pc, una energfa de trama relativa de la senal en la terminacion de la trama actual Es y un contador de cruces por cero zc. Tal como puede observarse en el siguiente analisis detallado, el calculo de estos parametros hace uso del anticipo disponible al maximo posible para tener en cuenta el comportamiento de la senal de voz tambien en la siguiente trama.

La correlacion normalizada rx se calcula como parte del modulo 206 de busqueda de la altura tonal en bucle abierto

5

10

15

20

25

30

35

40

de la Figura 5. Este modulo 206 habitualmente da salida a la estimacion de la altura tonal en bucle abierto cada 10 ms (dos veces por trama). En este caso, se usa tambien para dar salida a las mediciones de la correlacion normalizada. Estas correlaciones normalizadas se calculan sobre la senal de voz ponderada actual Sw(n) y la senal de voz ponderada pasada, en el retardo de la altura tonal en bucle abierto. Para reducir la complejidad, la senal de voz ponderada Sw(n) se diezma con un factor de 2 antes del analisis de la altura tonal en bucle abierto, bajandola hasta la frecuencia de muestreo de 6.400 Hz [3 GPP TS 26.190, “AMR Wideband Speech Codec: Transcoding Functions”, Especificacion Tecnica del 3GPP]. La correlacion promedio rx se define como

imagen13

donde rx(1), rx(2) son respectivamente la correlacion normalizada de la segunda mitad de la trama actual y del anticipo. En esta realizacion ilustrativa, se usa un anticipo de 13 ms a diferencia de la normativa de AMR-WB que hace uso de 5 ms. La correlacion normalizada rx(k) se calcula de la manera siguiente:

imagen14

donde

imagen15

L/C-1

+/-

f-0

Las correlaciones rx(k) se calculan usando la senal de voz ponderada Sw(n). Los instantes tk estan relacionados con el comienzo de la trama actual y son iguales, respectivamente, a 64 y 128 muestras a la velocidad o frecuencia de muestreo de 6,4 kHz (10 y 20 ms). Los valores pk=ToL son las estimaciones seleccionadas de la altura tonal en bucle abierto. La longitud del calculo de autocorrelacion Lk depende del periodo de la altura tonal. A continuacion se resumen los valores de Lk (para la frecuencia de muestreo de 6,4 kHz):

Lk = 40 muestras para pk ^ 31 muestras

Lk = 62 muestras para pk ^ 61 muestras

Lk = 115 muestras para pk > 61 muestras

Estas longitudes garantizan que la longitud del vector correlacionado comprenda por lo menos un periodo de altura tonal que ayude a una deteccion robusta de la altura tonal en bucle abierto. Para periodos de altura tonal prolongados (pi > 61 muestras), rx(1) y rx(2) son identicas, es decir, unicamente se calcula una correlacion puesto que los vectores correlacionados son suficientemente largos para que el analisis sobre el anticipo ya no sea necesario.

El parametro de inclinacion espectral et contiene la informacion sobre la distribucion de energfa en frecuencia. En la presente realizacion ilustrativa, la inclinacion espectral se estima como una relacion entre la energfa concentrada en frecuencias bajas y la energfa concentrada en frecuencias altas. No obstante, tambien se puede estimar de diferentes maneras, tales como una relacion entre los dos primeros coeficientes de autocorrelacion de la senal de voz.

La Transformada de Fourier discreta se usa para llevar a cabo el analisis espectral en el modulo 500 de analisis espectral y de estimacion de energfa espectral de la Figura 5. El analisis de frecuencia y el calculo de la inclinacion se realizan dos veces por cada trama. Se usa una Transformada Rapida de Fourier (FfT) de 256 puntos con un solapamiento del 50 por ciento. Las ventanas del analisis se situan de manera que se aproveche la totalidad del anticipo. En esta realizacion ilustrativa, el comienzo de la primera ventana se situa 24 muestras despues del comienzo de la trama actual. La segunda ventana se situa 128 muestras mas alla. Pueden utilizarse ventanas diferentes para ponderar la senal de entrada para el analisis de frecuencia. En la presente realizacion ilustrativa se ha usado una rafz cuadrada de una ventana Hamming (que es equivalente a una ventana sinusoidal). Esta ventana resulta particularmente bien adecuada para metodos de suma con solapamiento. Por lo tanto, este analisis espectral particular se puede usar en un algoritmo opcional de supresion de ruido, basado en el analisis/smtesis de suma con solapamiento y sustraccion espectral.

La energfa en altas frecuencias y en bajas frecuencias se calcula en el modulo 500 de la Figura 5 siguiendo las bandas cnticas perceptivas. En la presente realizacion ilustrativa, cada banda cntica se considera hasta el siguiente numero [J. D. Johnston, “Transform Coding of Audio Signals Using Perceptual Noise Criteria”, IEEE Jour. on Selected Areas in Communications, vol. 6, n.° 2, pags. 314 a 323]:

5 Bandas cnticas = {100,0; 200,0; 300,0; 400,0; 510,0; 630,0; 770,0; 920,0; 1.080,0; 1.270,0; 1.480,0; 1.720,0; 2.000,0; 2.320,0; 2.700,0; 3.150,0; 3.700,0; 4.400,0; 5.300,0; 6.350,0} Hz.

La energfa en frecuencias superiores se calcula en el modulo 500 como el promedio de las energfas de las dos ultimas bandas cnticas:

Eh - 0.5(e(18) + e(19)) (3)

10 donde las energfas de las bandas cnticas e(i) se calculan como una suma de las energfas de los compartimentos (bins) dentro de la banda cntica, promediadas por el numero de los compartimentos.

La energfa en frecuencias inferiores se calcula como el promedio de las energfas en las 10 primeras bandas cnticas. Las bandas cnticas centrales se han excluido del calculo, para mejorar la discriminacion entre frecuencias con alta concentracion de energfa en bajas frecuencias (generalmente sonoras) y con alta concentracion de energfa en altas 15 frecuencias (generalmente sordas). En medio, el contenido de energfa no es caractenstico de ninguna de las clases e incrementana la confusion a la hora de tomar decisiones.

En el modulo 500, la energfa en bajas frecuencias se calcula de manera diferente para periodos largos de la altura tonal y periodos cortos de altura tonal. Para segmentos sonoros de voz femenina, puede aprovecharse la estructura armonica del espectro para incrementar la discriminacion sonoridad-sordez. Asi, para periodos cortos de la altura 20 tonal, E> se calcula a nivel de compartimentos y, en el sumatorio, se tienen en cuenta unicamente compartimentos de frecuencia suficiente proximos a los armonicos de la voz, es decir

imagen16

donde eb(i) son las energfas de compartimento en los primeros 25 compartimentos de frecuencia (no se considera el componente DC). Observese que estos 25 compartimentos se corresponden con las primeras 10 bandas cnticas. En 25 el sumatorio anterior, unicamente los terminos relacionados con los compartimentos cuya proximidad a los armonicos mas cercanos es mayor que un cierto umbral de frecuencia, son diferentes de cero. El contador cnt equivale al numero de esos terminos diferentes de cero. El umbral para que un compartimento se incluya en la suma se ha fijado en 50 Hz, es decir, unicamente se tienen en cuenta compartimentos mas proximos que 50 Hz a los armonicos mas cercanos. Por lo tanto, si la estructura es armonica en frecuencias bajas, en la suma se incluira 30 solamente un termino de alta energfa. Por otro lado, si la estructura no es armonica, la seleccion de los terminos sera aleatoria y la suma sera menor. De este modo, pueden detectarse incluso sonidos sordos con un alto contenido de energfa en bajas frecuencias. Este procesado no se puede realizar para periodos mas largos de la altura tonal, en la medida en la que la resolucion frecuencial no es suficiente. El valor de altura tonal de umbral es 128 muestras, correspondiente a 100 Hz. Esto significa que, para periodos de altura tonal mayores que 128 muestras y, tambien, 35 para sonidos sordos a priori (es decir, cuando n+ re<0,6), la estimacion de la energia de bajas frecuencias se realiza por cada banda cntica y se calcula como

(5)

El valor re, calculado en un modulo 501 de correccion de la correlacion normalizada y de estimacion de ruido, es una correccion anadida a la correlacion normalizada en presencia de ruido de fondo por el siguiente motivo. En 40 presencia de ruido del fondo, la correlacion normalizada promedio se reduce. No obstante, a efectos de la clasificacion de las senales, esta reduccion no debena afectar a la decision sobre sonoridad-sordez. Se ha observado que la dependencia entre esta reduccion re y la energfa de ruido de fondo total en dB es aproximadamente exponencial, y se puede expresar usando la siguiente relacion

r„ =2.4492 -10■earffil6ws -0.022

45 donde NdB significa

imagen17

5

10

15

20

25

30

35

En este caso, n(i) son las estimaciones de la energfa de ruido para cada banda critica normalizadas de la misma manera que e(i), y gdB es el nivel de supresion de ruido maximo en dB permitido para la rutina de reduccion de ruido. No se permite que el valor re sea negativo. Debe indicarse que, cuando se usa un buen algoritmo de reduccion de ruido y gdB es suficientemente alto, re es practicamente igual a cero. Unicamente es relevante cuando se deshabilita la reduccion de ruido o si el nivel de ruido de fondo es significativamente mayor que la reduccion permitida maxima. la influencia de re se puede precisar multiplicando este termino por una constante.

Finalmente, las energias resultantes de frecuencias inferiores y superiores se obtienen restando una energia de ruido estimada, con respecto a los valores 1 y ' calculados anteriormente. Es decir

imagen18

donde Nh y Ni son las energfas de ruido promedias en las dos (2) ultimas bandas cnticas y las diez (10) primeras bandas cnticas, respectivamente, calculadas usando ecuaciones similares a las Ecuaciones (3) y (5), y fc es un factor de correccion precisado de manera que estas mediciones permanezcan proximas a una constante con la variacion del nivel de ruido de fondo. En esta realizacion ilustrativa, el valor de fc se ha fijado a 3.

La inclinacion espectral et se calcula en el modulo 503 de estimacion de inclinacion espectral usando la relacion:

imagen19

y se promedia en el dominio de los dB para los dos (2) analisis de frecuencia llevados a cabo por cada trama:

imagen20

La medida de la relacion senal/ruido (SNR) aprovecha el hecho de que, para un codificador por comparacion de formas de onda, general, la SNR es mucho mayor para sonidos sonoros. La estimacion del parametro de snr se debe realizar al final del bucle de subtramas del codificador, y se calcula en el modulo 504 de calculo de la SNR usando la relacion:

imagen21

donde ESw es la energfa de la senal de voz ponderada Sw(n) de la trama actual, proveniente del filtro 205 de ponderacion perceptual, y Ee es la energfa del error entre esta senal de voz ponderada y la senal de smtesis ponderada de la trama actual, proveniente del filtro 205' de ponderacion perceptual.

El medidor de estabilidad de altura tonal pc evalua la variacion del periodo de la altura tonal. Se calcula dentro del modulo 505 de clasificacion de senales como respuesta a las estimaciones de la altura tonal en bucle abierto, de la manera siguiente:

imagen22

Los valores p0, p1, p2 se corresponden con las estimaciones de la altura tonal en bucle abierto calculadas por el modulo 206 de busqueda de altura tonal en bucle abierto a partir de la primera mitad de la trama actual, la segunda mitad de la trama actual y el anticipo, respectivamente.

La energfa de trama relativa Es es calculada por el modulo 500 como una diferencia entre la energfa de trama actual en dB y su promedio a largo plazo

donde la energia de las tramas ^ se obtiene como un sumatorio de las energias de las bandas criticas, promediado para el analisis espectral llevado a cabo en cada trama:

E, = 10log10 (0.5E, (O) + E, (1)))

imagen23

La energfa promediada a largo plazo se actualiza en tramas de voz activas usando la siguiente relacion:

imagen24

El ultimo parametro es el parametro de cruce por cero zc calculado sobre una trama de la senal de voz por el 5 modulo 508 de calculo de cruce por cero. La trama comienza en medio de la trama actual y usa dos (2) subtramas del anticipo. En esta realizacion ilustrativa, el contador de cruces por cero zc cuenta el numero de veces que cambia el signo de la senal de positivo a negativo durante ese intervalo.

Para conseguir que la clasificacion resulte mas robusta, los parametros de clasificacion se consideran conjuntamente de manera que forman una funcion de merito fm. Con ese fin, los parametros de clasificacion en 10 primer lugar se escalan entre 0 y 1, de modo que el valor de cada parametro tfpico para una senal sorda se traduce en 0 y el valor de cada parametro tfpico para una senal sonora se traduce en 1. Entre ellos se usa una funcion lineal. Considerese un parametro px, su version escalada se obtiene usando:

imagen25

y se recorta entre 0 y 1. Los coeficientes de la funcion kp y Cp se han hallado experimentalmente para cada uno de 15 los parametros, de manera que la distorsion de la senal debida a las tecnicas de ocultacion y recuperacion usadas en presencia de FERs es minima. Los valores usados en esta implementacion ilustrativa se resumen en la Tabla 2:

Tabla 2. Parametros de Clasificacion de la senal y los coeficientes de sus funciones de escalado respectivas

Parametro: Significado kp cp

ft: Correlacion Normalizada 2,857 -1,286

$: Inclinacion Espectral 0,04167 0

snr: Relacion Senal/Ruido 0,1111 -0,3333

pc: Medidor de Estabilidad de la Altura -0,07143 1,857

Es: Energfa de Trama Relativa 0,05 0,45

zc: Contador de Cruces por Cero -0,04 2,4

La funcion de merito se ha definido como:

20

imagen26

donde el supermdice s indica la version escalada de los parametros.

A continuacion, la clasificacion se realiza usando la funcion de merito fm y siguiendo las reglas que se resumen en la Tabla 3:

5

10

15

20

25

30

35

40

45

Tabla 3. Reglas de Clasificacion de la Senal en el Codificador

Clase de la Trama Previa: Regla Clase de la Trama Actual

INICIO: CD CD o' II SONORA

SONORA

TRANSICION SONORA

: 0,66 > fm = 0,49 TRANSICION SONORA

: fm < 0,49 SORDA

TRANSICION SORDA: CO CD o~ A INICIO

SORDA

: LO CO LO o~ A II CO CD o~ TRANSICION SORDA

: LO CO LO o~ II SORDA

En caso de un codificador de velocidad de bits variable (VBR) controlado por la fuente, la clasificacion de la senal es inherente al funcionamiento del codec. El codec funciona con varias velocidades de bits, y se usa un modulo de seleccion de velocidad para determinar la velocidad de bits utilizada para codificar cada trama de voz sobre la base de la naturaleza de la trama de voz (por ejemplo, las tramas sonoras, sordas, transitorias, de ruido de fondo se codifican, cada una de ellas, con un algoritmo de codificacion especial). La informacion sobre el modo de codificacion y, por lo tanto, sobre la clase de voz ya es una parte implicita del flujo continuo de bits, y no es necesario transmitirla explfcitamente para el procesado del FER. A continuacion, esta informacion de clase se puede usar para corregir la decision de clasificacion antes descrita.

En la aplicacion de ejemplo para el codec de AMR WB, la unica seleccion de velocidad controlada por la fuente representa la deteccion de actividad vocal (VAD). Esta bandera de VAD es igual a 1 para voz activa, y 0 para silencio. Este parametro es util para la clasificacion, ya que indica directamente que no es necesaria ninguna clasificacion adicional si su valor es 0 (es decir, la trama se clasifica directamente como SORDA). Este parametro es la salida del modulo 402 de deteccion de actividad vocal (VAD). En la bibliograffa existen diferentes algoritmos de VAD, y, a efectos de la presente invencion, puede utilizarse cualquier algoritmo. Por ejemplo, puede usarse el algoritmo de VAD que forma parte de la norma G.722.2 [Recomendacion de la ITU-T G.722.2 “Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)”, Ginebra, 2002]. En este caso, el algoritmo de VAD se basa en la salida del analisis espectral del modulo 500 (sobre la base de la relacion senal/ruido por banda cntica). La VAD usada con fines clasificatorios, difiere con respecto a la utilizada con fines de codificacion con respecto al tiempo de mantenimiento (hangover). En codificadores de voz que usan una generacion de ruido de confort (CNG) para segmentos sin voz activa (silencio o ruido solamente), con frecuencia se anade un tiempo de mantenimiento despues de las rafagas de voz (la CNG en la normativa de AMR-WB es un ejemplo [3GPP TS 26.192, “AMR Wideband Speech Codec: Comfort Noise Aspects”, Especificacion Tecnica del 3GPP]). Durante el tiempo de mantenimiento, el codificador de voz continua usandose, y el sistema conmuta a la CNG unicamente despues de que haya acabado el periodo de mantenimiento. A efectos de la clasificacion para la ocultacion del FER, esta elevada seguridad no es necesaria. Consecuentemente, la bandera de VAD para la clasificacion sera igual a 0 tambien durante el periodo de mantenimiento.

En esta realizacion ilustrativa, la clasificacion se lleva a cabo en el modulo 505 sobre la base de los parametros antes descritos; concretamente, correlaciones normalizadas (o informacion de sonoridad), rx, inclinacion espectral et, snr, medidor de la estabilidad de la altura tonal pc, energfa de tramas relativa Es, frecuencia de cruces por cero zc, y bandera de VAD.

Clasificacion en el descodificador

Si la aplicacion no permite la transmision de la informacion de clase (no se pueden transportar bits adicionales), la clasificacion todavfa puede llevarse a cabo en el descodificador. Tal como ya se ha indicado, la principal desventaja en este caso es que en general no hay ningun anticipo disponible en los descodificadores de voz. Ademas, normalmente existe la necesidad de mantener limitada la complejidad del descodificador.

Puede realizarse una clasificacion simple estimando la sonoridad de la senal sintetizada. Si se considera el caso de un codificador de tipo CELP, puede usarse la estimacion de la sonoridad rv calculada como en la Ecuacion (1). Es decir:

imagen27

donde Ev es la energfa del vector codigo de altura tonal escalado bvT y Ec es la energfa del vector codigo innovador escalado gck. Teoricamente, para una senal puramente sonora rv = 1 y, para una senal puramente sorda, rv = -1. La clasificacion real se realiza promediando valores de rv cada 4 subtramas. El factor resultante fn (promedio de valores de rv de cada cuatro subtramas) se usa de la manera siguiente

5

10

15

20

25

30

35

40

Tabla 4. Reglas de Clasificacion de la Senal en el Descodificador

Clase de la Trama Previa: Regla Clase de la Trama Actual

INICIO: frv > -0,1 SONORA

SONORA

TRANSICION SONORA

: -0,1 = frv = -0,5 TRANSICION SONORA

: frv < -0,5 SORDA

TRANSICION SORDA: frv > -0,1 INICIO

SORDA

: -0,1 = frv = -0,5 TRANSICION SORDA

: frv < -0,5 SORDA

De forma similar a la clasificacion en el codificador, en el descodificador pueden usarse otros parametros para ayudar a la clasificacion, en calidad de parametros del filtro de LP o de la estabilidad de la altura tonal.

En el caso de un codificador de velocidad de bits variable controlado por la fuente, la informacion sobre el modo de codificacion ya forma parte del flujo continuo de bits. Por tanto, si, por ejemplo, se usa un modo de codificacion puramente sordo, la trama puede clasificarse automaticamente como SorDa. De manera similar, si se usa un modo de codificacion puramente sonoro, la trama se clasifica como SONORA.

Parametros de la voz para el procesado del FER

Existen unos pocos parametros cnticos que se deben controlar cuidadosamente para evitar artefactos molestos cuando se producen FERs. Si pueden transmitirse unos pocos bits adicionales, entonces estos parametros se pueden estimar en el codificador, pueden cuantificarse y transmitirse. Si no, algunos de ellos se pueden estimar en el descodificador. Estos parametros incluyen clasificacion de la senal, informacion de energfa, informacion de fase e informacion de sonoridad. Lo mas importante es un control preciso de la energfa de la voz. La fase y la periodicidad de la voz tambien se pueden controlar para mejorar adicionalmente la ocultacion y la recuperacion del FER.

La importancia del control de la energfa se manifiesta principalmente cuando se recupera un funcionamiento normal despues de un bloque borrado de tramas. Puesto que la mayona de codificadores de voz hace uso de una prediccion, en el descodificador no puede estimarse apropiadamente la energfa correcta. En segmentos de voz sonoros, la energfa incorrecta puede persistir durante varias tramas consecutivas, lo cual es muy molesto especialmente cuando esta energfa incorrecta se incrementa.

Aunque el control de energfa es lo mas importante para la voz sonora debido a la prediccion a largo plazo (prediccion de la altura tonal), tambien es importante para la voz sorda. El motivo en este caso es la prediccion del cuantificador de ganancia de innovacion usado frecuentemente en codificadores de tipo CELP. La energfa erronea durante segmentos sordos puede provocar una fluctuacion molesta de alta frecuencia.

El control de fase se puede realizar de varias maneras, principalmente en funcion del ancho de banda disponible. En nuestra implementacion, se logra un control de fase sencillo durante inicios sonoros perdidos buscando la informacion aproximada sobre la posicion del pulso glotal.

Por tanto, aparte de la informacion de clasificacion de la senal descrita en la seccion previa, la informacion mas importante a enviar es la informacion sobre la energfa de la senal y la posicion del primer pulso glotal en una trama (informacion de fase). Si hay disponible un ancho de banda suficiente, tambien puede enviarse una informacion de sonoridad.

Informacion de energ^a

La informacion de energfa se puede estimar y se puede enviar o bien en el dominio residual de LP o bien en el dominio de la senal de voz. El envfo de la informacion en el dominio residual presenta la desventaja de no tener en cuenta la influencia del filtro de smtesis de LP. Esto puede resultar particularmente delicado en el caso de una recuperacion sonora despues de varias tramas sonoras perdidas (cuando el FER se produce durante un segmento de voz sonoro). Cuando llega un FER despues de una trama sonora, la excitacion de la ultima trama buena se usa tfpicamente durante la ocultacion con alguna estrategia de atenuacion. Cuando un filtro de smtesis de LP nuevo llega con la primera trama buena despues del borrado, puede producirse una disparidad entre la energfa de excitacion y la ganancia del filtro de smtesis de LP. El filtro de smtesis nuevo puede producir una senal de smtesis con una energfa notablemente diferente con respecto a la energfa de la ultima trama borrada, sintetizada, y, tambien, con respecto a la energfa original de la senal. Por este motivo, la energfa se calcula y se cuantifica en el dominio de la senal.

La energfa Eq se calcula y cuantifica en el modulo 506 de estimacion y cuantificacion de energfa. Se ha observado

5

10

15

20

25

30

35

40

45

que 6 bits son suficientes para transmitir la energfa. No obstante, el numero de bits se puede reducir sin ningun efecto significativo, si no hay disponibles bits suficientes. En esta realizacion preferida, se utiliza un cuantificador uniforme de 6 bits en el intervalo de -15 dB a 83 dB con un paso de 1,58 dB. El mdice de cuantificacion viene dado por la parte entera de:

1Qlogl0(E+ 0.001)+15 1.58

(15)

donde E es el maximo de la energfa de la senal para tramas clasificadas como SONORAS o de INICIO, o la energfa promedio por muestra para otras tramas. Para tramas SORDAS o de INICIO, el maximo de la energfa de la senal se calcula de manera sincronizada con respecto a la altura tonal, en la terminacion de la trama, de la manera siguiente:

imagen28

donde L es la longitud de la trama, y la senal s(i) significa senal de voz (o la senal de voz sin ruido en caso de que se use una supresion de ruido). En esta realizacion ilustrativa, s(i) significa la senal de entrada despues de un diezmado a 12,8 kHz y de un pre-procesado. Si el retardo de altura tonal es mayor de 63 muestras, tE es igual al retardo de altura tonal en bucle cerrado, redondeado, de la ultima subtrama. Si el retardo de la altura tonal es menor de 64 muestras, entonces tE se fija a dos veces el retardo de altura tonal en bucle cerrado, redondeado, de la ultima subtrama.

Para otras clases, E es la energfa promedio por muestra de la segunda mitad de la trama actual, es decir, tE se fija a L/2 y la E se calcula como:

e-f

i-WB

(17)

Informacion de control de fase

El control de fase es particularmente importante mientras se lleva a cabo la recuperacion despues de un segmento perdido de voz sonora, por motivos similares a los descritos en la seccion previa. Despues de un bloque de tramas borradas, las memorias del descodificador se desincronizan con las memorias del codificador. Para volver a sincronizar el descodificador, puede enviarse cierta informacion de fase en funcion del ancho de banda disponible. En la implementacion ilustrativa descrita, se envfa una posicion aproximada del primer pulso glotal en la trama. A continuacion, esta informacion se usa para la recuperacion despues de inicios sonoros perdidos tal como se describira posteriormente.

Sea To el retardo de altura tonal en bucle cerrado, redondeado, para la primera subtrama. En primer lugar, el modulo 507 de cuantificacion y busqueda del pulso glotal busca la posicion del primer pulso glotal t entre las To primeras muestras de la trama mediante la busqueda de la muestra con la maxima amplitud. Se obtienen resultados optimos cuando la posicion del primer pulso glotal se mide sobre la senal residual filtrada por paso-bajo.

La posicion del primer pulso glotal se codifica usando 6 bits de la siguiente manera. La precision usada para codificar la posicion del primer pulso glotal depende del valor de altura tonal en bucle cerrado para la primera subtrama To. Esto es posible debido a que este valor es conocido tanto por el codificador como por el descodificador, y no esta sujeto a propagacion de errores despues de una o varias perdidas de tramas. Cuando To es menor de 64, la posicion del primer pulso glotal con respecto al comienzo de la trama se codifica directamente con una precision de una muestra. Cuando 64 = To < 128, la posicion del primer pulso glotal con respecto al comienzo de la trama se codifica con una precision de dos muestras usando una simple division entera, es decir, t/2. Cuando To = 128, la posicion del primer pulso glotal con respecto al comienzo de la trama se codifica con una precision de cuatro muestras dividiendo adicionalmente t por 2. El procedimiento inverso se realiza en el descodificador. Si To<64, la posicion cuantificada recibida se usa tal como esta. Si 64 = To < 128, la posicion cuantificada recibida se multiplica por 2 y se incrementa en 1. Si To = 128, la posicion cuantificada recibida se multiplica por 4 y se incrementa en 2 (el incremento en 2 da como resultado un error de cuantificacion uniformemente distribuido).

Segun otra realizacion de la invencion en la que se codifica la forma del primer pulso glotal, la posicion del primer pulso glotal se determina mediante un analisis de correlacion entre la senal residual y las posibles formas, signos (positivo o negativo) y posiciones del pulso. La forma del pulso se puede tomar de un libro de codigos de formas de pulso conocido tanto en el codificador como en el descodificador, conociendose este metodo como cuantificacion vectorial por parte de aquellos con conocimientos habituales en la materia. A continuacion, la forma, el signo y la amplitud del primer pulso glotal se codifican y se transmiten al descodificador.

5

10

15

20

25

30

35

Informacion de periodicidad

En caso de que haya suficiente ancho de banda, puede calcularse y transmitirse una informacion de periodicidad, o informacion de sonoridad, y la misma se puede usar en el descodificador para mejorar la ocultacion del borrado de tramas. La informacion de sonoridad se estima basandose en la correlacion normalizada. Se puede codificar de manera bastante precisa con 4 bits, aunque, si fuera necesario, bastana con 3 o incluso 2 bits. La informacion de sonoridad es necesaria, en general, unicamente para tramas con ciertos componentes periodicos, y, para tramas de alta sonoridad, es necesaria una mejor resolucion de sonoridad. La correlacion normalizada se proporciona en la Ecuacion (2), y se usa como indicador para la informacion de sonoridad. Se cuantifica en el modulo 507 de cuantificacion y busqueda del primer pulso glotal. En esta realizacion ilustrativa, se ha usado un cuantificador lineal por tramos, para codificar la informacion de sonoridad de la manera siguiente:

—0.65+05 ■

0.03 , para rtf?) < 0-92

(18)

, „ >• (2) -0.92 i = 9 + -’—— —+0.5 0.01

para ^2) >0.92 (19)

Nuevamente, se codifica y se transmite la parte entera de i. La correlacion rx(2) tiene el mismo significado que en la Ecuacion (1). En la Ecuacion (18), la sonoridad se cuantifica linealmente entre 0,65 y 0,89 con el paso de 0,03. En la Ecuacion (19), la sonoridad se cuantifica linealmente entre 0,92 y 0,98 con el paso de 0,01.

Si es necesario un intervalo de cuantificacion mayor, puede usarse la siguiente cuantificacion lineal:

imagen29

Esta ecuacion cuantifica la sonoridad en el intervalo de 0,4 a 1, con el paso de 0,04. La correlacion r* se define en la Ecuacion (2a).

A continuacion, las ecuaciones (18) y (19) o la ecuacion (20) se usan en el descodificador para calcular rx(2) o yJj. Denommese rq a esta correlacion normalizada cuantificada. Si la sonoridad no puede transmitirse, la misma puede estimarse usando el factor de sonoridad de la Ecuacion (2a) mapeandolo en el intervalo de 0 a 1.

(21 >

Procesado de tramas borradas

Las tecnicas de ocultacion del FER en esta realizacion ilustrativa se muestran claramente sobre codificadores de tipo ACELP. No obstante, las mismas se pueden aplicar facilmente a cualquier codec de voz en el que la serial de smtesis se genere filtrando una senal de excitacion a traves de un filtro de smtesis de LP. La estrategia de ocultacion se puede resumir como una convergencia de la energfa de la senal y la envolvente espectral hacia los parametros estimados del ruido de fondo. La periodicidad de la senal converge a cero. La velocidad de la convergencia depende de los parametros de la clase de la ultima trama recibida buena y del numero de tramas borradas consecutivas, y se controla por medio de un factor de atenuacion a. El factor a depende ademas de la estabilidad del filtro de LP para tramas SORDAS. En general, la convergencia es lenta si la ultima trama recibida buena esta en un segmento estable, y es rapida si la trama se encuentra en un segmento de transicion. Los valores de a se resumen en la Tabla 5.

Tabla 5. Valores del factor de atenuacion ade la ocultacion del FER

5

10

15

20

25

30

35

40

45

50

Ultima Trama Recibida Buena: Numero de tramas borradas sucesivas a

INICIO ARTIFICIAL: 0,6

INICIO, SONORA: = 3 1,0

: > 3 0,4

TRANSICION SONORA: 0,4

TRANSICION SORDA: 0,8

SORDA: = 1 0,6 8+ 0,4

: > 1 0,4

Un factor de estabilidad 0 se calcula basandose en una medicion de la distancia entre los filtros de LP adyacentes. En este caso, el factor 8 esta relacionado con la medicion de la distancia de ISF (Frecuencias Espectrales de Inmitancia) y esta acotado por 0<0<1, de manera que valores mayores de 8 se corresponden con senales mas estables. Esto da como resultado fluctuaciones menores de energfa y de la envolvente espectral cuando se produce un borrado de trama aislado dentro de un segmento sordo estable.

La clase de la senal permanece invariable durante el procesado de tramas borradas, es decir, la clase sigue siendo la misma que en la ultima trama recibida buena.

Construccion de la parte periodica de la excitacion

Para una ocultacion de tramas borradas tras una trama SORDA recibida correctamente, no se genera parte periodica de la senal de excitacion. Para una ocultacion de tramas borradas tras una trama recibida correctamente que no sea SORDA, la parte periodica de la senal de excitacion se construye repitiendo el ultimo periodo de altura tonal de la trama previa. Si se trata de la 1a trama borrada despues de una trama buena, este impulso de altura tonal en primer lugar se filtra por paso-bajo. El filtro usado es un filtro FIR de fase lineal y de 3 coeficientes, simple, con los coeficientes del filtro iguales a 0,18; 0,64 y 0,18. Si hay disponible una informacion de sonoridad, el filtro tambien se puede seleccionar dinamicamente con una frecuencia de corte dependiente de la sonoridad.

El periodo de la altura tonal Tc usado para seleccionar el ultimo impulso de altura tonal y, por lo tanto, usado durante la ocultacion, se define de manera que puedan evitarse, o reducirse, multiplos o sub-multiplos de la altura tonal. Se usa la siguiente logica en la determinacion del periodo de la altura tonal Tc.

si ((T3 < 1,8 Ts) AND (T3 > 0,6 Ts)) OR (Tcnt = 30), entonces Tc = T3, si no Tc = Ts.

En este caso, T3 es el periodo de altura tonal redondeado de la 4a subtrama de la ultima trama buena recibida, y Ts es el periodo de altura tonal redondeado de la 4a subtrama de la ultima trama sonora, estable, buena, con estimaciones coherentes de la altura tonal. Una trama sonora estable se define en este caso como una trama SONORA precedida por una trama de tipo sonoro (TRANSICION SONORA, SONORA, INICIO), la coherencia de la altura tonal se verifica en esta implementacion examinando si las estimaciones de la altura tonal en bucle cerrado son razonablemente parecidas, es decir, si las relaciones entre la altura tonal de la ultima subtrama, la altura tonal de la 2a subtrama y la altura tonal de la ultima subtrama de la trama previa se situan dentro del intervalo (0,7; 1,4).

Esta determinacion del periodo de la altura tonal Tc significa que, si la altura tonal en la terminacion de la ultima trama buena y la altura tonal de la ultima trama estable estan proximas entre sf, se usa la altura tonal de la ultima trama buena. Si no, esta altura tonal se considera como no fiable, y se utiliza, en cambio, la altura tonal de la ultima trama estable, para evitar el impacto de estimaciones erroneas de la altura tonal en inicios sonoros. No obstante, esta logica tiene sentido unicamente si el ultimo segmento estable no esta demasiado alejado en el pasado. Por tanto, se define un contador Tcnt que limita el alcance de la influencia del ultimo segmento estable. Si Tcnt es superior o igual a 30, es decir, si se han producido por lo menos 30 tramas desde la ultima actualizacion de Ts, se usa sistematicamente la altura tonal de la ultima trama buena. Tcnt se reinicializa a 0 cada vez que se detecta un segmento estable y se actualiza Ts. A continuacion, el periodo Tc se mantiene constante durante la ocultacion para el bloque borrado completo.

Puesto que el ultimo impulso de la excitacion de la trama previa se usa para la construccion de la parte periodica, su ganancia es aproximadamente correcta en el comienzo de la trama ocultada y se puede fijar a 1. A continuacion, la ganancia se atenua linealmente durante toda la trama, muestra a muestra, para lograr el valor de a en la terminacion de la trama.

Los valores de ase corresponden con la Tabla 5, con la excepcion de que se modifican para borrados que suceden a tramas SONORAS y de INICIO, con el fin de tener en cuenta la evolucion de la energfa de segmentos sonoros. Esta evolucion se puede extrapolar en cierta medida usando los valores de ganancia de excitacion de la altura tonal de cada subtrama de la ultima trama buena. En general, si estas ganancias son superiores a 1, la energfa de la senal es creciente, si son inferiores a 1, la energfa es decreciente. Asf, ase multiplica por un factor de correccion fb calculado de la manera siguiente:

5

10

15

20

25

30

35

40

45

fb = VO. 1b(0) + 0.2b(1) + 0.3b(2) + 0.4b(3) (23)

donde b(0), b(1), b(2) y b(3) son las ganancias de altura tonal de las cuatro subtramas de la ultima trama recibida correctamente. El valor de fb se recorta entre 0,98 y 0,85 antes de usarse para escalar la parte periodica de la excitacion. De esta manera, se evitan aumentos y reducciones fuertes de la energfa.

Para tramas borradas que suceden a una trama recibida correctamente y que no sea SORDA, la memoria intermedia de excitacion se actualiza solamente con esta parte periodica de la excitacion. Esta actualizacion se usara para construir la excitacion de libro de codigos de altura tonal en la siguiente trama.

Construccion de la parte aleatoria de la excitacidn

La parte de innovacion (no periodica) de la senal de excitacion se genera aleatoriamente. Se puede generar en forma de un ruido aleatorio o utilizando el libro de codigos de innovacion de CELP con indices vectoriales generados de forma aleatoria. En la presente realizacion ilustrativa, se ha usado un simple generador aleatorio con una distribucion aproximadamente uniforme. Antes de ajustar la ganancia de innovacion, la innovacion generada aleatoriamente se escala a algun valor de referencia, fijado en este caso a la energfa unitaria por muestra.

En el comienzo de un bloque borrado, la ganancia de innovacion gs se inicializa usando las ganancias de excitacion de innovacion de cada subtrama de la ultima trama buena:

g, = 0.1g(0) + 0.2g(1) + 0.3g(2) + 0.4g(3)

(23a)

donde g(0), g(1), g(2) y g(3) son las ganancias de libro de codigos fijo, o de innovacion, de las cuatro (4) subtramas de la ultima trama recibida correctamente. La estrategia de atenuacion de la parte aleatoria de la excitacion es algo diferente con respecto a la atenuacion de la excitacion de la altura tonal. El motivo es que la excitacion de la altura tonal (y, por lo tanto, la periodicidad de la excitacion) converge a 0, mientras que la excitacion aleatoria converge a la energfa de excitacion de la generacion de ruido de confort (CNG). La atenuacion de la ganancia de innovacion se lleva a cabo en forma de:

imagen30

donde si es la ganancia de innovacion en el comienzo de la siguiente trama, S? es la ganancia innovadora en el comienzo de la trama actual, es la ganancia de la excitacion usada durante la generacion del ruido de confort y a es tal como se define en la Tabla 5. Por lo tanto, de manera similar a la atenuacion de la excitacion periodica, la ganancia se atenua linealmente durante toda la trama, muestra a muestra, comenzando con y yendo hacia el valor de si que se alcanzaria en el comienzo de la siguiente trama.

Finalmente, si la ultima trama recibida buena (recibida correctamente o no borrada) es diferente de SORDA, la excitacion de innovacion se filtra a traves de un filtro paso-alto FIR de fase lineal con coeficientes -0,0125; -0,109; 0,7813; -0,109; -0,0125. Para reducir la cantidad de componentes con ruido durante segmentos sonoros, estos coeficientes del filtro se multiplican por un factor adaptativo igual a (0,75 - 0,25 rv), siendo rv el factor de sonoridad que se definio en la Ecuacion (1). A continuacion, la parte aleatoria de la excitacion se anade a la excitacion adaptativa para formar la senal de excitacion total.

Si la ultima trama buena es SORDA, se usa unicamente la excitacion de innovacion, y la misma se atenua adicionalmente con un factor de 0,8. En este caso, la memoria intermedia de excitacion pasada se actualiza con la excitacion de innovacion, ya que no hay disponible ninguna parte periodica de la excitacion.

Ocultacion, sntesis y actualizaciones de la envolvente espectral

Para sintetizar la voz descodificada, deben obtenerse los parametros del filtro de LP. La envolvente espectral se mueve gradualmente a la envolvente estimada del ruido ambiente. En este caso, se usa la representacion en ISF de los parametros de LP:

I'Q-al'Of+fl-aM), j= o......p. 1 (25)

En la ecuacion (25), I1(j) es el valor de la ISF fsima de la trama actual, P(j) es el valor de la ISF fsima de la trama previa, In(j) es el valor de la ISF jesima de la envolvente estimada del ruido de confort y p es el orden del filtro de LP.

La voz sintetizada se obtiene filtrando la senal de excitacion a traves del filtro de smtesis de LP. Los coeficientes del filtro se calculan a partir de la representacion en ISF y se interpolan para cada subtrama (cuatro (4) veces por trama) como durante el funcionamiento normal del codificador.

5

10

15

20

25

30

35

40

45

50

55

En la medida en la que tanto el cuantificador de la ganancia de innovacion como el cuantificador de ISF usan una prediccion, su memoria no estara al d^a despues de que se restablezca el funcionamiento normal. Para reducir este efecto, las memorias de los cuantificadores se estiman y se actualizan en la terminacion de cada trama borrada.

Recuperacion del funcionamiento normal despues del borrado

El problema de la recuperacion despues de un bloque borrado de tramas es basicamente debido a la fuerte prediccion usada practicamente en todos los codificadores de voz actuales. En particular, los codificadores de voz de tipo CELP logran su elevada relacion senal/ruido para voz sonora, debido al hecho de que usan la senal de excitacion pasada para codificar la excitacion de la trama actual (prediccion a largo plazo o de altura tonal). Ademas, la mayor parte de los cuantificadores (cuantificadores de LP, cuantificadores de ganancia) hacen uso de una prediccion.

Construccion del inicio artificial

La situacion mas complicada en relacion con el uso de la prediccion a largo plazo en codificadores de CELP se produce cuando se pierde un inicio sonoro. Inicio perdido significa que el inicio de la voz sonora se produjo en algun lugar durante el bloque borrado. En este caso, la ultima trama recibida buena era sorda y, por lo tanto, en la memoria intermedia de excitacion no se encuentra ninguna excitacion periodica. No obstante, la primera trama buena despues del bloque borrado es sonora, la memoria intermedia de excitacion en el codificador es altamente periodica y la excitacion adaptativa se ha codificado usando esta excitacion pasada periodica. Puesto que esta parte periodica de la excitacion falta por completo en el descodificador, puede tardarse varias tramas en la recuperacion de esta perdida.

Si se pierde una trama de INICIO (es decir, una trama buena SONORA llega despues de un borrado, pero la ultima trama buena antes del borrado era SORDA, tal como se muestra en la Figura 6), se usa la tecnica especial para reconstruir artificialmente el inicio perdido y activar la smtesis sonora. En el comienzo de la 1a trama buena despues de un inicio perdido, la parte periodica de la excitacion se construye artificialmente en forma de un tren periodico, filtrado por paso-bajo, de impulsos separados por un periodo de altura tonal. En la presente realizacion ilustrativa, el filtro paso-bajo es un simple filtro FIR de fase lineal con la respuesta a impulsos hlow = {-0,0125; 0,109; 0,7813; 0,109; -0,0125}. No obstante, el filtro tambien se podna seleccionar dinamicamente con una frecuencia de corte correspondiente a la informacion de sonoridad en caso de que esta informacion este disponible. La parte innovadora de la excitacion se construye usando una descodificacion de CELP normal. Las entradas del libro de codigos de innovacion tambien se podnan seleccionar aleatoriamente (o la propia innovacion se podna generar aleatoriamente), ya que, de todos modos, se ha perdido la sincronizacion con la senal original.

En la practica, la longitud del inicio artificial esta limitada de manera que por lo menos un periodo de altura tonal completo se construye con este metodo, y se continua con el metodo hasta la terminacion de la subtrama actual. despues de esto, se reanuda un procesado de ACELP regular. El periodo de altura tonal considerado es el promedio redondeado de los periodos de altura tonal descodificados de todas las subtramas en las que se usa la reconstruccion artificial del inicio. El tren de impulsos filtrado por paso-bajo se obtiene colocando las respuestas a impulsos del filtro paso-bajo en la memoria intermedia de excitacion adaptativa (inicializada previamente a cero). La primera respuesta a impulsos estara centrada en la posicion cuantificada Tq (transmitida dentro del flujo continuo de bits) con respecto al comienzo de la trama, y los impulsos restantes se colocaran con la distancia de la altura tonal promediada hasta la terminacion de la ultima subtrama afectada por la construccion artificial del inicio. Si el ancho de banda disponible no es suficiente para transmitir la posicion del primer pulso glotal, la primera respuesta a impulsos se puede colocar arbitrariamente en torno a la mitad del periodo de altura tonal despues del comienzo de la trama actual.

Como ejemplo, para la longitud de subtrama de 64 muestras, considerese que los periodos de la altura tonal en la primera y la segunda subtrama son p(0)=70,75 y p(1)=71. Puesto que este valor es mayor que el tamano de subtrama de 64, entonces el inicio artificial se construira durante las dos primeras subtramas, y el periodo de la altura tonal sera igual al promedio de la altura tonal de las dos subtramas redondeado al entero mas proximo, es decir, 71. Las dos ultimas subtramas seran procesadas por el descodificador de CELP normal.

A continuacion, la energfa de la parte periodica de la excitacion del inicio artificial se escala segun la ganancia correspondiente a la energfa cuantificada y transmitida para la ocultacion del FER (segun se define en las Ecuaciones 16 y 17) y se divide por la ganancia del filtro de smtesis de LP. La ganancia del filtro de smtesis de LP se calcula como:

imagen31

donde h(i) es la respuesta a impulsos del filtro de smtesis de LP. Finalmente, la ganancia del inicio artificial se reduce multiplicando la parte periodica por 0,96. Alternativamente, este valor podna corresponderse con la sonoridad, si hubiera un ancho de banda disponible para transmitir tambien la informacion de sonoridad.

5

10

15

20

25

30

35

40

45

Alternativamente, sin desviarse con respecto a la esencia de esta invencion, el inicio artificial tambien se puede construir en la memoria intermedia de excitaciones pasadas antes de entrar en el bucle de subtramas del descodificador. Esto presentana la ventaja de evitar que el procesado especial construya la parte periodica del inicio artificial, y podna usarse, en su lugar, la descodificacion de CELP regular.

El filtro de LP para la smtesis de voz de salida no se interpola en el caso de una construccion de inicio artificial. En cambio, los parametros de LP recibidos se usan para la smtesis de la trama completa.

Control de energ^a

La tarea mas importante en la recuperacion despues de un bloque borrado de tramas es controlar apropiadamente la energfa de la senal de voz sintetizada. El control de la energfa de smtesis es necesario debido a la fuerte prediccion utilizada habitualmente en los codificadores de voz actuales. El control de energfa adquiere la mayor importancia cuando se produce un bloque de tramas borradas durante un segmento sonoro. Cuando un borrado de trama llega despues de una trama sonora, la excitacion de la ultima trama buena se usa tfpicamente durante la ocultacion con cierta estrategia de atenuacion. Cuando un filtro de LP nuevo llega con la primera trama buena despues del borrado, puede producirse una disparidad entre la energfa de excitacion y la ganancia del nuevo filtro de smtesis de LP. El nuevo filtro de smtesis puede producir una senal de smtesis con una energfa considerablemente diferente con respecto a la energfa de la ultima trama borrada sintetizada, y tambien con respecto a la energfa de la senal original.

El control de energfa durante la primera trama buena despues de una trama borrada se puede resumir de la manera siguiente. La senal sintetizada se escala de manera que su energfa sea similar a la energfa de la senal de voz sintetizada en la terminacion de la ultima trama borrada en el comienzo de la primera trama buena, y de manera que converja a la energfa transmitida, hacia la terminacion de la trama con la evitacion de un incremento de energfa demasiado importante.

El control de energfa se realiza en el dominio de la senal de voz sintetizada. Incluso si la energfa se controla en el dominio de la voz, la senal de excitacion se debe escalar ya que sirve como memoria de prediccion a largo plazo para las siguientes tramas. A continuacion, la smtesis se vuelve a realizar para suavizar las transiciones. Considerese que go indica la ganancia usada para escalar la primera muestra en la trama actual y gi la ganancia usada en la terminacion de la trama. La senal de excitacion se escala entonces de la manera siguiente:

imagen32

donde us(i) es la excitacion escalada, u(i) es la excitacion antes del escalado, L es la longitud de la trama, y gAGc(i) es la ganancia comenzando desde go y convergiendo exponencialmente a g{.

9agc0) = ^ec9/*sc0_^ + (f i=0 ia

con la inicializacion de = So, donde fAGc es el factor de atenuacion fijado en esta implementacion al valor de

0,98. Este valor se ha hallado experimentalmente como un compromiso entre, por un lado, tener una transicion suave desde la trama previa (borrada), y, por otro lado, escalar el ultimo periodo de altura tonal de la trama actual lo maximo posible al valor correcto (transmitido). Esto es importante debido a que el valor de la energfa transmitida se estima de manera sincronizada con respecto a la altura tonal, en la terminacion de la trama. Las ganancias gO y gi se definen como:

S0=JCf% (33a)

g,-^Eq/E, (33b)

donde E-i es la energfa calculada en la terminacion de la trama previa (borrada), Eo es la energfa en el comienzo de la trama actual (recuperada), Ei es la energfa en la terminacion de la trama actual, y Eq es la informacion de energfa transmitida cuantificada en la terminacion de la trama actual, segun el calculo realizado en el codificador a partir de las Ecuaciones (16, 17). El calculo de E-i y Ei es similar con la excepcion de que el mismo se realiza sobre la senal de voz sintetizada s'. E-i se calcula de manera sincronizada con respecto a la altura tonal usando el periodo de la altura tonal de ocultacion Tc, y Ei usa la altura tonal redondeada de la ultima subtrama T3. Eo se calcula de manera similar utilizando el valor redondeado de la altura tonal To de la primera subtrama, modificandose las ecuaciones (16, 17) para obtener:

imagen33

para tramas SONORAS y de INICIO. tE es igual al retardo redondeado de la altura tonal o dos veces esa longitud si

5

10

15

20

25

30

35

40

la altura tonal es menor de 64 muestras. Para otras tramas,

imagen34

con tE igual a la mitad de la longitud de la trama. Las ganancias go y gi se limitan adicionalmente a un valor permitido maximo, para evitar una energfa de alto valor. En la presente implementacion ilustrativa, este valor se ha fijado a 1,2.

La ejecucion de la ocultacion del borrado de tramas y la recuperacion del descodificador comprende, cuando una ganancia de un filtro de LP de una primera trama no borrada recibida tras el borrado de la trama es mayor que una ganancia de un filtro de LP de una ultima trama borrada durante dicho borrado de trama, ajustar la energfa de una senal de excitacion del filtro de LP producida en el descodificador durante la primera trama no borrada recibida, a una ganancia del filtro de LP de dicha primera trama no borrada recibida, usando la siguiente relacion:

Si Eq no se puede transmitir, Eq se fija a Ei. No obstante, si el borrado se produce durante un segmento de voz sonora (es decir, la ultima trama buena antes del borrado y la primera trama buena despues del borrado se clasifican como TRANSICION SONORA, SONORA o INICIO), deben tomarse precauciones adicionales debido a la posible disparidad entre la energfa de la senal de excitacion y la ganancia del filtro de LP, mencionada previamente. Surge una situacion particularmente peligrosa cuando la ganancia del filtro de LP de una primera trama no borrada, recibida tras el borrado de la trama, es mayor que la ganancia del filtro de LP de una ultima trama borrada durante ese borrado de trama. En ese caso particular, la energfa de la senal de excitacion del filtro de LP producida en el descodificador durante la primera trama no borrada, recibida, se ajusta a una ganancia del filtro de LP de la primera trama no borrada, recibida, usando la siguiente relacion:

imagen35

donde Elpo es la energfa de la respuesta a impulsos del filtro de LP de la ultima trama buena antes del borrado, y Elpi es la energfa del filtro de LP de la primera trama buena antes del borrado. En esta implementacion, se usan los filtros de LP de las ultimas subtramas en una trama. Finalmente, el valor de Eq se limita al valor de E-i en este caso (transmitiendose informacion del borrado de segmento sonoro sin Eq).

Las siguientes excepciones, relacionadas todas ellas con transiciones en la senal de voz, corrigen adicionalmente el calculo de go. Si se usa un inicio artificial en la trama actual, go se fija a 0,5 gi, para hacer que la energfa del inicio aumente gradualmente.

En el caso de una primera trama buena despues de un borrado clasificada como INICIO, se evita que la ganancia go sea mayor que gi. Esta precaucion se toma para evitar que un ajuste de ganancia positivo en el comienzo de la trama (el cual, probablemente, todavfa es sordo, al menos de forma parcial) amplifique el inicio sonoro (en la terminacion de la trama).

Finalmente, durante una transicion de sonoridad a sordez (es decir, que la ultima trama buena este clasificada como TRANSICION SONORA, SONORA o INICIO, y la trama actual este clasificada como SORDA), o durante una transicion de un periodo de voz no activa a un periodo de voz activa (la ultima trama recibida buena codificada como ruido de confort, y la trama actual codificada como voz activa), la go se fija a gi.

En el caso de un borrado de segmento sonoro, el problema de la energfa erronea tambien puede manifestarse en tramas que sucedan a la primera trama buena despues del borrado. Esto puede ocurrir incluso si la energfa de la primera trama buena se ha ajustado tal como se ha descrito anteriormente. Para atenuar este problema, puede continuarse con el control de energfa hasta la terminacion del segmento sonoro.

Aunque, en la descripcion anterior, la presente invencion se ha expuesto en relacion con una realizacion ilustrativa de la misma, esta realizacion ilustrativa se puede modificar a voluntad. El alcance de proteccion queda definido en las reivindicaciones adjuntas.

Claims

5

10

15

20

25

30

35

40

45

REIVINDICACIONES

1. Metodo de ocultacion del borrado de tramas provocado por tramas de una senal de sonido codificada, borradas durante su transmision desde un codificador a un descodificador, y para acelerar la recuperacion del descodificador despues de que se hayan recibido tramas no borradas de la senal de sonido codificada, que comprende:

determinar, en el codificador, parametros de ocultacion/recuperacion que comprenden por lo menos dos parametros seleccionados del grupo que consiste en un parametro de clasificacion de la senal, un parametro de informacion de ene^a, un parametro de informacion de sonoridad y un parametro de informacion de fase;

cuantificar los parametros de ocultacion/recuperacion; y

transmitir al descodificador los parametros de ocultacion/recuperacion cuantificados, determinados en el codificador;

en donde:

los parametros de ocultacion/recuperacion son utilizables para mejorar la ocultacion del borrado de tramas y la recuperacion del descodificador despues de un borrado de tramas;

la senal de sonido es una senal de voz;

caracterizado por que:

la determinacion, en el codificador, de los parametros de ocultacion/recuperacion comprende clasificar tramas sucesivas de la senal de sonido codificada, como sorda, transicion sorda, transicion sonora, sonora, o inicio; y

la determinacion de los parametros de ocultacion/recuperacion comprende calcular el parametro de informacion de energfa en relacion con un maximo de una energfa de senal para tramas clasificadas como sonoras o inicio, y calcular el parametro de informacion de energfa en relacion con una energfa promedio por muestra, para otras tramas.
2. Metodo segun la reivindicacion 1, en el que la determinacion del parametro de informacion de fase comprende determinar una posicion de un primer pulso glotal en una trama de la senal de sonido codificada.
3. Metodo segun la reivindicacion 2, en el que la determinacion del parametro de informacion de fase comprende codificar, en el codificador, una forma, un signo y una amplitud del primer pulso glotal, y transmitir la forma, el signo y la amplitud codificados, desde el codificador al descodificador.
4. Metodo segun la reivindicacion 2, en el que la determinacion de la posicion del primer pulso glotal comprende: medir una muestra de amplitud maxima dentro de un periodo de altura tonal como primer pulso glotal; y cuantificar una posicion de la muestra de amplitud maxima dentro del periodo de la altura tonal.
5. Metodo segun la reivindicacion 1, en el que la clasificacion de las tramas sucesivas comprende clasificar como sorda, toda trama que sea una trama sorda, toda trama sin voz activa, y toda trama de final sonora que tenga una terminacion que tienda a ser sorda.
6. Metodo segun la reivindicacion 1, en el que la clasificacion de las tramas sucesivas comprende clasificar como transicion sorda, toda trama sorda que tenga una terminacion con un posible inicio sonoro que sea demasiado corto o que no este construido suficientemente bien para ser procesado como trama sonora.
7. Metodo segun la reivindicacion 1, en el que la clasificacion de las tramas sucesivas comprende clasificar como transicion sonora, toda trama sonora con caractensticas sonoras relativamente debiles, incluyendo tramas sonoras con caractensticas que vanan rapidamente y finales sonoros que duran la trama completa, en donde una trama clasificada como transicion sonora sucede unicamente a tramas clasificadas como transicion sonora, sonora o inicio.
8. Metodo segun la reivindicacion 1, en el que la clasificacion de las tramas sucesivas comprende clasificar como sonora, toda trama sonora con caractensticas estables, en donde una trama clasificada como sonora sucede unicamente a tramas clasificadas como transicion sonora, sonora o inicio.
9. Metodo segun la reivindicacion 1, en el que la clasificacion de las tramas sucesivas comprende clasificar como inicio toda trama sonora con caractensticas estables que suceda a una trama clasificada como sorda o transicion sorda.
10. Metodo segun la reivindicacion 1, que comprende determinar la clasificacion de las tramas sucesivas de la senal de sonido codificada, sobre la base de al menos una parte de los siguientes parametros: un parametro de correlacion normalizada, un parametro de inclinacion espectral, un parametro de relacion senal/ruido, un parametro de estabilidad de altura tonal, un parametro de energfa de trama relativa, y un parametro de cruce por cero.

5

10

15

20

25

30

35

40

45
11. Metodo segun la reivindicacion 10, en el que la determinacion de la clasificacion de las tramas sucesivas comprende:

calcular una figura de merito basandose en el parametro de correlacion normalizada, el parametro de inclinacion espectral, el parametro de relacion senal/ruido, el parametro de estabilidad de altura tonal, el parametro de energfa de trama relativa, y el parametro de cruce por cero; y

comparar la figura de merito con umbrales para determinar la clasificacion.
12. Metodo segun la reivindicacion 10, que comprende calcular el parametro de correlacion normalizada sobre la base de una version ponderada actual de la senal de voz y una version ponderada pasada de dicha senal de voz.
13. Metodo segun la reivindicacion 10, que comprende estimar el parametro de inclinacion espectral como una relacion entre una energfa concentrada en frecuencias bajas y una energfa concentrada en frecuencias altas.
14. Metodo segun la reivindicacion 10, que comprende estimar el parametro de relacion de senal/ruido como una relacion entre una energfa de una version ponderada de la senal de voz de una trama actual y una energfa de un error entre dicha version ponderada de la senal de voz de la trama actual y una version ponderada de una senal de voz sintetizada de dicha trama actual.
15. Metodo segun la reivindicacion 10, que comprende calcular el parametro de estabilidad de altura tonal como respuesta a estimaciones de la altura tonal en bucle abierto para una primera mitad de una trama actual, una segunda mitad de la trama actual y un anticipo.
16. Metodo segun la reivindicacion 10, que comprende calcular el parametro de energfa de trama relativa como una diferencia entre una energfa de una trama actual y un promedio a largo plazo de una energfa de tramas de voz activa.
17. Metodo segun la reivindicacion 10, que comprende determinar el parametro de cruce por cero como el numero de veces que cambia el signo de la senal de voz de una primera polaridad a una segunda polaridad.
18. Metodo segun la reivindicacion 10, que comprende calcular por lo menos uno de entre el parametro de correlacion normalizada, el parametro de inclinacion espectral, el parametro de relacion senal/ruido, el parametro de estabilidad de altura tonal, el parametro de energfa de trama relativa, y el parametro de cruce por cero, usando un anticipo disponible, para tener en cuenta el comportamiento de la senal de voz en una trama sucesiva.
19. Metodo segun la reivindicacion 10, que comprende determinar la clasificacion de las tramas sucesivas de la senal de sonido codificada, tambien sobre la base de una bandera de deteccion de actividad vocal.
20. Metodo segun la reivindicacion 1, en el que la determinacion, en el codificador, de parametros de ocultacion/recuperacion comprende calcular el parametro de informacion de sonoridad.
21. Metodo segun la reivindicacion 20, en el que:

dicho metodo comprende determinar la clasificacion de las tramas sucesivas de la senal de sonido codificada, sobre la base de un parametro de correlacion normalizada; y

el calculo del parametro de informacion de sonoridad comprende estimar dicho parametro de informacion de sonoridad sobre la base de la correlacion normalizada.
22. Metodo segun la reivindicacion 1, en el que la ocultacion del borrado de tramas y la recuperacion del descodificador comprende:

tras la recepcion de una trama sorda no borrada, despues de un borrado de trama, no se genera ninguna parte periodica de una senal de excitacion del filtro de LP;

tras la recepcion, despues de un borrado de trama, de una trama no borrada que no sea sorda, construir una parte periodica de la senal de excitacion del filtro de LP repitiendo un ultimo periodo de altura tonal de una trama previa.
23. Metodo segun la reivindicacion 22, en el que la construccion de la parte periodica de la senal de excitacion del filtro de LP comprende filtrar el ultimo periodo de altura tonal repetido de la trama previa a traves de un filtro paso- bajo.
24. Metodo segun la reivindicacion 23, en el que:

la determinacion de parametros de ocultacion/recuperacion comprende calcular el parametro de informacion de sonoridad;

el filtro paso-bajo tiene una frecuencia de corte; y

5

10

15

20

25

30

35

40

45

50

la construccion de la parte periodica de la senal de excitacion comprende ajustar dinamicamente la frecuencia de corte en relacion con el parametro de informacion de sonoridad.
25. Metodo segun la reivindicacion 1, en el que la ocultacion del borrado de tramas y la recuperacion del descodificador comprenden generar aleatoriamente una parte de innovacion, no periodica, de una senal de excitacion del filtro de LP.
26. Metodo segun la reivindicacion 25, en el que la generacion aleatoria de la parte de innovacion, no periodica, de la senal de excitacion del filtro de LP comprende generar un ruido aleatorio.
27. Metodo segun la reivindicacion 25, en el que la generacion aleatoria de la parte de innovacion, no periodica, de la senal de excitacion del filtro de LP, comprende generar aleatoriamente indices de los vectores de un libro de codigos de innovacion.
28. Metodo segun la reivindicacion 25, en el que:

la generacion aleatoria de la parte de innovacion, no periodica, de la senal de excitacion del filtro de LP comprende:

- si una ultima trama recibida correctamente no es sorda, filtrar la parte de innovacion de la senal de excitacion a traves de un filtro paso-alto; y

- si la ultima trama recibida correctamente es sorda, usar solamente la parte de innovacion de la senal de excitacion.
29. Metodo segun la reivindicacion 1, en el que:

la ocultacion del borrado de tramas y la recuperacion del descodificador comprende, cuando se pierde una trama de inicio lo cual se indica por la presencia de una trama sonora tras el borrado de la trama y una trama sorda antes del borrado de la trama, reconstruir artificialmente la trama de inicio perdida construyendo una parte periodica de una senal de excitacion en forma de un tren periodico, filtrado por paso-bajo, de impulsos separados por un periodo de altura tonal.
30. Metodo segun la reivindicacion 29, en el que la ocultacion del borrado de tramas y la recuperacion del descodificador comprenden construir una parte de innovacion de la senal de excitacion por medio de descodificacion normal.
31. Metodo segun la reivindicacion 30, en el que la construccion de una parte de innovacion de la senal de excitacion comprende seleccionar aleatoriamente entradas de un libro de codigos de innovacion.
32. Metodo segun la reivindicacion 29, en el que la reconstruccion artificial de la trama de inicio perdida comprende limitar una longitud del inicio reconstruido artificialmente, de manera que se construye al menos un periodo de altura tonal completo por medio de la reconstruccion artificial del inicio, continuandose con dicha reconstruccion hasta la terminacion de una subtrama actual.
33. Metodo segun la reivindicacion 32, en el que la ocultacion del borrado de tramas y la recuperacion del descodificador comprenden, despues de la reconstruccion artificial del inicio perdido, reanudar un procesado de CELP regular en el que el periodo de la altura tonal es un promedio redondeado de periodos de altura tonal descodificados de subtramas donde se usa la reconstruccion de inicio artificial.
34. Metodo segun la reivindicacion 1, en el que la ocultacion del borrado de tramas y la recuperacion del descodificador comprenden:

controlar una energfa de una senal de sonido sintetizada, producida por el descodificador, de manera que el control de la energfa de la senal de sonido sintetizada comprende escalar la senal de sonido sintetizada para reproducir una energfa de dicha senal de sonido sintetizada, en el comienzo de una primera trama no borrada, recibida tras el borrado de trama, similar a una energfa de dicha senal de sonido sintetizada, en la terminacion de una ultima trama borrada durante dicho borrado de trama; y

hacer converger la energfa de la senal de sonido sintetizada, en la primera trama no borrada, recibida, a una energfa correspondiente al parametro recibido de informacion de energfa, hacia la terminacion de dicha primera trama no borrada recibida mientras se limita el aumento de energfa.
35. Metodo segun la reivindicacion 1, en el que:

el parametro de informacion de energfa no se transmite desde el codificador al descodificador; y

la ocultacion del borrado de tramas y la recuperacion del descodificador comprenden, cuando la ganancia de un filtro de LP de una primera trama no borrada recibida tras un borrado de trama es mayor que la ganancia de

5

10

15

20

25

30

35

40

45

un filtro de LP de una ultima trama borrada durante dicho borrado de trama, ajustar la ene^a de una senal de excitacion del filtro de LP producida en el descodificador durante la primera trama no borrada recibida, a una ganancia del filtro de LP de dicha primera trama no borrada recibida.
36. Metodo segun la reivindicacion 35, en el que:

el ajuste de la energfa de la senal de excitacion del filtro de LP, producida en el descodificador durante la primera trama no borrada recibida, a una ganancia del filtro de LP de dicha primera trama no borrada recibida, comprende usar la siguiente relacion:

imagen1

imagen2

donde Ei es la energfa en la terminacion de la trama actual, Elpo es la energfa de la respuesta a impulsos del filtro de LP de una ultima trama no borrada recibida antes del borrado de trama, y Elpi es la energfa de la respuesta a impulsos del filtro de LP de la primera trama no borrada recibida, tras el borrado de trama.
37. Metodo segun la reivindicacion 34, en el que:

cuando la primera trama no borrada recibida despues de un borrado de trama se clasifica como inicio, la ocultacion del borrado de trama y la recuperacion del descodificador comprenden limitar a un valor dado una ganancia usada para escalar la senal de sonido sintetizada.
38. Metodo segun la reivindicacion 34,

que comprende hacer que la ganancia usada para escalar la senal de sonido sintetizada en el comienzo de la primera trama no borrada recibida despues del borrado de trama, sea igual a la ganancia usada en la terminacion de dicha primera trama no borrada recibida:

- durante una transicion de una trama sonora a una trama sorda, en el caso de una ultima trama no borrada recibida antes del borrado de trama, clasificada como transicion sonora, sonora o inicio, y una primera trama no borrada recibida despues del borrado de trama, clasificada como sorda; y

- durante una transicion de un periodo de voz no activa a un periodo de voz activa, cuando la ultima trama no borrada recibida antes del borrado de trama se codifica como ruido de confort y la primera trama no borrada recibida despues del borrado de trama se codifica como voz activa.
39. Metodo para la ocultacion del borrado de tramas provocado por tramas borradas durante la transmision de una senal de sonido codificada bajo la forma de parametros de codificacion de la senal, desde un codificador a un descodificador, y para acelerar la recuperacion del descodificador despues de que se hayan recibido tramas no borradas de la senal de sonido codificada, que comprende:

determinar, en el descodificador, parametros de ocultacion/recuperacion a partir de los parametros de codificacion de la senal, comprendiendo los parametros de ocultacion/recuperacion por lo menos dos parametros seleccionados del grupo que consiste en un parametro de clasificacion de la senal, un parametro de informacion de energfa, un parametro de informacion de sonoridad y un parametro de informacion de fase; y

en el descodificador, ejecutar la ocultacion de la trama borrada y la recuperacion del descodificador como respuesta a los parametros de ocultacion/recuperacion determinados en el descodificador;

en donde:

la senal de sonido es una senal de voz; caracterizado por que:

la determinacion, en el descodificador, de los parametros de ocultacion/recuperacion comprende clasificar tramas sucesivas de la senal de sonido codificada, como sorda, transicion sorda, transicion sonora, sonora, o inicio; y

la determinacion de los parametros de ocultacion/recuperacion comprende calcular el parametro de informacion de energfa en relacion con un maximo de una energfa de senal para tramas clasificadas como sonoras o inicio, y calcular el parametro de informacion de energfa en relacion con una energfa promedio por muestra, para otras tramas.
40. Metodo segun la reivindicacion 39, en el que la determinacion, en el descodificador, de parametros de ocultacion/recuperacion comprende calcular el parametro de informacion de sonoridad.
41. Metodo segun la reivindicacion 39, en el que la ejecucion de la ocultacion del borrado de tramas y la

5

10

15

20

25

30

35

40

45

recuperacion del descodificador comprende:

tras la recepcion de una trama sorda no borrada, despues de un borrado de trama, no se genera ninguna parte periodica de una senal de excitacion del filtro de LP;

tras la recepcion, despues de un borrado de trama, de una trama no borrada que no sea sorda, construir una parte periodica de la senal de excitacion del filtro de LP repitiendo un ultimo periodo de altura tonal de una trama previa.
42. Metodo segun la reivindicacion 41, en el que la construccion de la parte periodica de la senal de excitacion comprende filtrar el ultimo periodo de altura tonal repetido de la trama previa a traves de un filtro paso-bajo.
43. Metodo segun la reivindicacion 42, en el que:

la determinacion, en el descodificador, de parametros de ocultacion/recuperacion comprende calcular el parametro de informacion de sonoridad;

el filtro paso-bajo tiene una frecuencia de corte; y

la construccion de la parte periodica de la senal de excitacion del filtro de LP comprende ajustar dinamicamente la frecuencia de corte en relacion con el parametro de informacion de sonoridad.
44. Metodo segun la reivindicacion 39, en el que la ejecucion de la ocultacion del borrado de tramas y la recuperacion del descodificador comprende generar aleatoriamente una parte de innovacion, no periodica, de una senal de excitacion del filtro de LP.
45. Metodo segun la reivindicacion 44, en el que la generacion aleatoria de la parte de innovacion, no periodica, de la senal de excitacion del filtro de LP comprende generar un ruido aleatorio.
46. Metodo segun la reivindicacion 44, en el que la generacion aleatoria de la parte de innovacion, no periodica, de la senal de excitacion del filtro de LP, comprende generar aleatoriamente indices de los vectores de un libro de codigos de innovacion.
47. Metodo segun la reivindicacion 44, en el que:

la generacion aleatoria de la parte de innovacion, no periodica, de la senal de excitacion del filtro de LP comprende:

- si una ultima trama no borrada recibida no es sorda, filtrar la parte de innovacion de la senal de excitacion del filtro de LP a traves de un filtro paso-alto; y

- si la ultima trama no borrada recibida es sorda, usar solamente la parte de innovacion de la senal de excitacion del filtro de LP.
48. Metodo segun la reivindicacion 39, en el que:

la ejecucion de la ocultacion del borrado de tramas y la recuperacion del descodificador comprende, cuando se pierde una trama de inicio lo cual se indica por la presencia de una trama sonora tras el borrado de la trama y una trama sorda antes del borrado de la trama, reconstruir artificialmente la trama de inicio perdida construyendo una parte periodica de una senal de excitacion en forma de un tren periodico, filtrado por paso- bajo, de impulsos separados por un periodo de altura tonal.
49. Metodo segun la reivindicacion 48, en el que la ejecucion de la ocultacion del borrado de tramas y la recuperacion del descodificador comprende construir una parte de innovacion de la senal de excitacion por medio de descodificacion normal.
50. Metodo segun la reivindicacion 48, en el que la ejecucion de la ocultacion del borrado de tramas y de la recuperacion del descodificador comprende construir una parte de innovacion de la senal de excitacion seleccionando aleatoriamente entradas de un libro de codigos de innovacion.
51. Metodo segun la reivindicacion 48, en el que la reconstruccion artificial de la trama de inicio perdida comprende limitar una longitud del inicio reconstruido artificialmente, de manera que se construye al menos un periodo de altura tonal completo por medio de la reconstruccion artificial del inicio, continuandose con dicha reconstruccion hasta la terminacion de una subtrama actual.
52. Metodo segun la reivindicacion 51, en el que la ejecucion de la ocultacion del borrado de tramas y de la recuperacion del descodificador comprende, despues de la reconstruccion artificial del inicio perdido, reanudar un procesado de CELP regular en el que el periodo de la altura tonal es un promedio redondeado de periodos de altura tonal descodificados de subtramas donde se usa la reconstruccion de inicio artificial.

5

10

15

20

25

30

35

40

45
53. Metodo segun la reivindicacion 39, en el que:

el parametro de informacion de ene^a no se transmite desde el codificador al descodificador; y

la ejecucion de la ocultacion del borrado de tramas y de la recuperacion del descodificador comprende, cuando la ganancia de un filtro de LP de una primera trama no borrada recibida tras un borrado de trama es mayor que la ganancia de un filtro de LP de una ultima trama borrada durante dicho borrado de trama, ajustar la energfa de una senal de excitacion del filtro de LP producida en el descodificador durante la primera trama no borrada recibida, a una ganancia del filtro de LP de dicha primera trama no borrada recibida, usando la siguiente relacion:

imagen3

imagen4

donde Ei es la energfa en la terminacion de la trama actual, Elpo es la energfa de la respuesta a impulsos del filtro de LP de una ultima trama no borrada recibida antes del borrado de trama, y Elpi es la energfa de la respuesta a impulsos del filtro de LP de la primera trama no borrada recibida, tras el borrado de trama.
54. Dispositivo para ejecutar la ocultacion del borrado de tramas provocado por tramas de una senal de sonido codificada, borradas durante su transmision desde un codificador a un descodificador, y para acelerar la recuperacion del descodificador despues de que se hayan recibido tramas no borradas de la senal de sonido codificada, que comprende:

medios para determinar, en el codificador, parametros de ocultacion/recuperacion que comprenden por lo menos dos parametros seleccionados del grupo que consiste en un parametro de clasificacion de la senal, un parametro de informacion de energfa, un parametro de informacion de sonoridad y un parametro de informacion de fase;

medios para cuantificar los parametros de ocultacion/recuperacion; y

medios para transmitir al descodificador los parametros de ocultacion/recuperacion cuantificados, determinados en el codificador;

en donde:

los parametros de ocultacion/recuperacion son utilizables para mejorar la ocultacion del borrado de tramas y la recuperacion del descodificador despues de un borrado de tramas; y

la senal de sonido es una senal de voz;

caracterizado por que:

los medios para determinar, en el codificador, los parametros de ocultacion/recuperacion comprenden medios para clasificar tramas sucesivas de la senal de sonido codificada, como sorda, transicion sorda, transicion sonora, sonora, o inicio; y

los medios para determinar los parametros de ocultacion/recuperacion comprenden medios para calcular el parametro de informacion de energfa en relacion con un maximo de una energfa de senal para tramas clasificadas como sonoras o inicio, y medios para calcular el parametro de informacion de energfa en relacion con una energfa promedio por muestra, para otras tramas.
55. Dispositivo segun la reivindicacion 54, en el que los medios para determinar el parametro de informacion de fase comprenden medios para determinar una posicion de un primer pulso glotal en una trama de la senal de sonido codificada.
56. Dispositivo segun la reivindicacion 55, en el que los medios para determinar el parametro de informacion de fase comprenden ademas medios para codificar, en el codificador, una forma, un signo y una amplitud del primer pulso glotal, y medios para transmitir la forma, el signo y la amplitud codificados, desde el codificador al descodificador.
57. Dispositivo segun la reivindicacion 55, en el que los medios para determinar la posicion del primer pulso glotal comprenden:

medios para medir una muestra de amplitud maxima dentro de un periodo de altura tonal como primer pulso glotal; y

medios para cuantificar la posicion de la muestra de amplitud maxima dentro del periodo de la altura tonal.
58. Dispositivo segun la reivindicacion 54, en el que los medios para clasificar las tramas sucesivas comprenden

5

10

15

20

25

30

35

40

45

50

medios para clasificar como sorda, toda trama que sea una trama sorda, toda trama sin voz activa, y toda trama de final sonora que tenga una terminacion que tienda a ser sorda.
59. Dispositivo segun la reivindicacion 54, en el que los medios para clasificar las tramas sucesivas comprenden medios para clasificar como transicion sorda, toda trama sorda que tenga una terminacion con un posible inicio sonoro que sea demasiado corto o que no este construido suficientemente bien para ser procesado como trama sonora.
60. Dispositivo segun la reivindicacion 54, en el que los medios para clasificar las tramas sucesivas comprenden medios para clasificar como transicion sonora, toda trama sonora con caractensticas sonoras relativamente debiles, incluyendo tramas sonoras con caractensticas que vanan rapidamente y finales sonoros que duran la trama completa, en donde una trama clasificada como transicion sonora sucede unicamente a tramas clasificadas como transicion sonora, sonora o inicio.
61. Dispositivo segun la reivindicacion 54, en el que los medios para clasificar las tramas sucesivas comprenden medios para clasificar como sonora, toda trama sonora con caractensticas estables, en donde una trama clasificada como sonora sucede unicamente a tramas clasificadas como transicion sonora, sonora o inicio.
62. Dispositivo segun la reivindicacion 54, en el que los medios para clasificar las tramas sucesivas comprenden medios para clasificar como inicio toda trama sonora con caractensticas estables que suceda a una trama clasificada como sorda o transicion sorda.
63. Dispositivo segun la reivindicacion 54, que comprende medios para determinar la clasificacion de las tramas sucesivas de la senal de sonido codificada, sobre la base de al menos una parte de los siguientes parametros: un parametro de correlacion normalizada, un parametro de inclinacion espectral, un parametro de relacion senal/ruido, un parametro de estabilidad de altura tonal, un parametro de energfa de trama relativa, y un parametro de cruce por cero.
64. Dispositivo segun la reivindicacion 63, en el que los medios para determinar la clasificacion de las tramas sucesivas comprenden:

medios para calcular una figura de merito basandose en el parametro de correlacion normalizada, el parametro de inclinacion espectral, el parametro de relacion senal/ruido, el parametro de estabilidad de altura tonal, el parametro de energfa de trama relativa, y el parametro de cruce por cero; y

medios para comparar la figura de merito con umbrales con el fin de determinar la clasificacion.
65. Dispositivo segun la reivindicacion 63, que comprende medios para calcular el parametro de correlacion normalizada sobre la base de una version ponderada actual de la senal de voz y una version ponderada pasada de dicha senal de voz.
66. Dispositivo segun la reivindicacion 63, que comprende medios para estimar el parametro de inclinacion espectral como una relacion entre una energfa concentrada en frecuencias bajas y una energfa concentrada en frecuencias altas.
67. Dispositivo segun la reivindicacion 63, que comprende medios para estimar el parametro de relacion de senal/ruido como una relacion entre una energfa de una version ponderada de la senal de voz de una trama actual y una energfa de un error entre dicha version ponderada de la senal de voz de la trama actual y una version ponderada de una senal de voz sintetizada de dicha trama actual.
68. Dispositivo segun la reivindicacion 63, que comprende medios para calcular el parametro de estabilidad de altura tonal como respuesta a estimaciones de la altura tonal en bucle abierto para una primera mitad de una trama actual, una segunda mitad de la trama actual y un anticipo.
69. Dispositivo segun la reivindicacion 63, que comprende medios para calcular el parametro de energfa de trama relativa como una diferencia entre una energfa de una trama actual y un promedio a largo plazo de una energfa de tramas de voz activa.
70. Dispositivo segun la reivindicacion 63, que comprende medios para determinar el parametro de cruce por cero como el numero de veces que cambia el signo de la senal de voz de una primera polaridad a una segunda polaridad.
71. Dispositivo segun la reivindicacion 63, que comprende medios para calcular por lo menos uno de entre el parametro de correlacion normalizada, el parametro de inclinacion espectral, el parametro de relacion senal/ruido, el parametro de estabilidad de altura tonal, el parametro de energfa de trama relativa, y el parametro de cruce por cero, usando un anticipo disponible, para tener en cuenta el comportamiento de la senal de voz en una trama sucesiva.
72. Dispositivo segun la reivindicacion 63, que ademas comprende medios para determinar la clasificacion de las tramas sucesivas de la senal de sonido codificada, tambien sobre la base de una bandera de deteccion de actividad vocal.

5

10

15

20

25

30

35

40

45
73. Dispositivo segun la reivindicacion 63, en el que los medios para determinar, en el codificador, parametros de ocultacion/recuperacion comprenden medios para calcular el parametro de informacion de sonoridad.
74. Dispositivo segun la reivindicacion 73, en el que:

dicho dispositivo comprende medios para determinar la clasificacion de las tramas sucesivas de la senal de sonido codificada, sobre la base de un parametro de correlacion normalizada; y

los medios para calcular el parametro de informacion de sonoridad comprenden medios para estimar dicho parametro de informacion de sonoridad sobre la base de la correlacion normalizada.
75. Dispositivo para la ocultacion del borrado de tramas provocado por tramas borradas durante la transmision de una senal de sonido codificada bajo la forma de parametros de codificacion de la senal, desde un codificador a un descodificador, y para acelerar la recuperacion del descodificador despues de que se hayan recibido tramas no borradas de la senal de sonido codificada, que comprende:

medios para determinar, en el descodificador, parametros de ocultacion/recuperacion a partir de los parametros de codificacion de la senal, comprendiendo los parametros de ocultacion/recuperacion por lo menos dos parametros seleccionados del grupo que consiste en un parametro de clasificacion de la senal, un parametro de informacion de energfa, un parametro de informacion de sonoridad y un parametro de informacion de fase;

en el descodificador, medios para ejecutar la ocultacion de la trama borrada y la recuperacion del descodificador como respuesta a los parametros de ocultacion/recuperacion determinados por los medios de determinacion;

en donde:

la senal de sonido es una senal de voz; caracterizado por que:

los medios para determinar, en el descodificador, los parametros de ocultacion/recuperacion comprenden medios para clasificar tramas sucesivas de la senal de sonido codificada, como sorda, transicion sorda, transicion sonora, sonora, o inicio; y

los medios para determinar los parametros de ocultacion/recuperacion comprenden medios para calcular el parametro de informacion de energfa en relacion con un maximo de una energfa de senal para tramas clasificadas como sonoras o inicio, y medios para calcular el parametro de informacion de energfa en relacion con una energfa promedio por muestra, para otras tramas.
76. Dispositivo segun la reivindicacion 75, en el que los medios para determinar, en el descodificador, parametros de ocultacion/recuperacion comprenden medios para calcular el parametro de informacion de sonoridad.
77. Dispositivo segun la reivindicacion 75, en el que los medios para ejecutar la ocultacion del borrado de tramas y la recuperacion del descodificador comprenden:

tras la recepcion de una trama sorda no borrada, despues de un borrado de trama, medios de generacion que no generan ninguna parte periodica de una senal de excitacion del filtro de LP;

tras la recepcion, despues de un borrado de trama, de una trama no borrada que no sea sorda, medios para construir una parte periodica de la senal de excitacion del filtro de LP repitiendo un ultimo periodo de altura tonal de una trama previa.
78. Dispositivo segun la reivindicacion 77, en el que los medios para construir la parte periodica de la senal de excitacion comprenden un filtro paso-bajo para filtrar el ultimo periodo de altura tonal repetido de la trama previa.
79. Dispositivo segun la reivindicacion 78, en el que:

los medios para determinar, en el descodificador, parametros de ocultacion/recuperacion comprenden medios para calcular el parametro de informacion de sonoridad;

el filtro paso-bajo tiene una frecuencia de corte; y

los medios para construir la parte periodica de la senal de excitacion del filtro de LP comprenden medios para ajustar dinamicamente la frecuencia de corte en relacion con el parametro de informacion de sonoridad.
80. Dispositivo segun la reivindicacion 75, en el que los medios para ejecutar la ocultacion del borrado de tramas y la recuperacion del descodificador comprenden medios para generar aleatoriamente una parte de innovacion, no periodica, de una senal de excitacion del filtro de LP.

5

10

15

20

25

30

35

40

45
81. Dispositivo segun la reivindicacion 80, en el que los medios para generar aleatoriamente la parte de innovacion, no periodica, de la senal de excitacion del filtro de LP comprenden medios para generar un ruido aleatorio.
82. Dispositivo segun la reivindicacion 80, en el que los medios para generar aleatoriamente la parte de innovacion, no periodica, de la senal de excitacion del filtro de LP, comprenden medios para generar aleatoriamente indices de los vectores de un libro de codigos de innovacion.
83. Dispositivo segun la reivindicacion 80, en el que:

los medios para generar aleatoriamente la parte de innovacion, no periodica, de la senal de excitacion del filtro de LP comprenden:

- si una ultima trama no borrada, recibida, no es sorda, un filtro paso-alto para filtrar la parte de innovacion de la senal de excitacion del filtro de LP; y

- si la ultima trama no borrada, recibida es sorda, medios para usar solamente la parte de innovacion de la senal de excitacion del filtro de LP.
84. Dispositivo segun la reivindicacion 75, en el que:

los medios para ejecutar la ocultacion del borrado de tramas y la recuperacion del descodificador comprenden, cuando se pierde una trama de inicio lo cual se indica por la presencia de una trama sonora tras el borrado de la trama y una trama sorda antes del borrado de la trama, medios para reconstruir artificialmente el inicio perdido construyendo una parte periodica de una senal de excitacion en forma de un tren periodico, filtrado por paso-bajo, de impulsos separados por un periodo de altura tonal.
85. Dispositivo segun la reivindicacion 83, en el que los medios para ejecutar la ocultacion del borrado de tramas y la recuperacion del descodificador comprenden ademas medios para construir una parte de innovacion de la senal de excitacion del filtro de LP por medio de descodificacion normal.
86. Dispositivo segun la reivindicacion 85, en el que los medios para construir una parte de innovacion de la senal de excitacion del filtro de LP comprenden medios para seleccionar aleatoriamente entradas de un libro de codigos de innovacion.
87. Dispositivo segun la reivindicacion 84, en el que los medios para reconstruir artificialmente el inicio perdido comprenden medios para limitar una longitud del inicio reconstruido artificialmente, de manera que se construye al menos un periodo de altura tonal completo por medio de la reconstruccion artificial del inicio, continuandose con dicha reconstruccion hasta la terminacion de una subtrama actual.
88. Dispositivo segun la reivindicacion 87, en el que los medios para ejecutar la ocultacion del borrado de tramas y la recuperacion del descodificador comprenden ademas, despues de la reconstruccion artificial del inicio perdido, medios para reanudar un procesado de CELP regular en el que el periodo de la altura tonal es un promedio redondeado de periodos de altura tonal descodificados de subtramas donde se usa la reconstruccion de inicio artificial.
89. Dispositivo segun la reivindicacion 75, en el que:

el parametro de informacion de energfa no se transmite desde el codificador al descodificador; y

los medios para ejecutar la ocultacion del borrado de tramas y la recuperacion del descodificador comprenden, cuando la ganancia de un filtro de LP de una primera trama no borrada recibida tras un borrado de trama es mayor que la ganancia de un filtro de LP de una ultima trama borrada durante dicho borrado de trama, medios para ajustar la energfa de una senal de excitacion del filtro de LP producida en el descodificador durante la primera trama no borrada recibida, a una ganancia del filtro de LP de dicha primera trama no borrada recibida, usando la siguiente relacion:

imagen5

donde Ei es la energfa en la terminacion de la trama actual, Elpo es la energfa de la respuesta a impulsos del filtro de LP de una ultima trama no borrada recibida antes del borrado de trama, y Elpi es la energfa de la respuesta a impulsos del filtro de LP para la primera trama no borrada recibida, tras el borrado de trama.
90. Descodificador para descodificar una senal de sonido codificada, que comprende:

medios sensibles a la senal de sonido codificada, para recuperar, a partir de dicha senal de sonido codificada, un conjunto de parametros de codificacion de la senal;

10

medios para sintetizar la senal de sonido como respuesta al conjunto de senal; y

un dispositivo segun se cita en una cualquiera de las reivindicaciones 75 tramas provocado por tramas de la senal de sonido codificada, borradas codificador al descodificador.
91. Codificador para codificar una senal de sonido, que comprende:

medios sensibles a la senal de sonido para producir un conjunto de parametros de codificacion de la senal;

medios para transmitir el conjunto de parametros de codificacion de la senal a un descodificador sensible a los parametros de codificacion de la senal para recuperar la senal de sonido; y

un dispositivo segun se cita en cualquiera de las reivindicaciones 54 a 74, para ejecutar la ocultacion del borrado de tramas provocado por tramas borradas durante la transmision de los parametros de codificacion de la senal, desde el codificador al descodificador.

parametros de codificacion de la

a 89, para ocultar el borrado de durante la transmision desde un