ES2348319T3

ES2348319T3 - Vocodificador de velocidad variable.

Info

Publication number: ES2348319T3
Application number: ES08016577T
Authority: ES
Inventors: William R. Gardner; Klein S. Gilhousen; Paul E. Jacobs; Chong U. Lee; Katherine S. Lam; Ming-Chang Tsai
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1991-06-11
Filing date: 1992-06-03
Publication date: 2010-12-02
Anticipated expiration: 2012-06-03
Also published as: AU6089396A; JP3955600B2; DK0588932T3; ATE272883T1; CN1159639A; US5657420A; CA2483322C; AU693374B2; EP1107231B1; CA2102099C; CA2483324A1; MX9202808A; EP1998319A3; CN1286086C; FI120425B; JP3964915B2; ATE477571T1; EP1162601A2; CA2568984A1; DE69233502D1

Abstract

- Un procedimiento de procesamiento de una señal de voz que comprende una pluralidad de tramas, comprendiendo el procedimiento: calcular un nivel de energía de una trama de la señal de voz; obtener una estimación de ruido de fondo (B) en una trama anterior de la señal de voz; generar una estimación actual de ruido de fondo (B'); asignar bits para la trama de la señal de voz, donde se asignan menos bits en función de si el nivel de energía es inferior a al menos una función de la estimación de ruido de fondo (B) en la trama anterior; y codificar la señal de voz en un paquete según los bits asignados.

Description

ANTECEDENTES DE LA INVENCIÓN

I. Campo de la invención

La presente invención se refiere al procesamiento de voz. Específicamente, la presente invención se refiere a un procedimiento y a un sistema nuevo y mejorado para la compresión de voz en los que la cantidad de compresión varía dinámicamente mientras que su incidencia en la calidad de la voz reconstruida es mínima. Además, puesto que los datos de voz comprimidos están destinados a enviarse a través de un canal que puede introducir errores, el procedimiento y el sistema de la presente invención también minimiza el impacto de los errores de canal en la calidad de voz.

II. Descripción de la técnica relacionada

La transmisión de voz mediante técnicas digitales ha tenido una amplia difusión, en particular en las aplicaciones de teléfonos de radio digital. Esto, a su vez, ha suscitado el interés por determinar la cantidad mínima de información que puede ser enviada a través del canal, conservando la calidad percibida de la voz reconstruida. Si la voz se transmite simplemente mediante muestreo y digitalización, se requiere una velocidad de transmisión de datos del orden de 64 kilobits por segundo (Kbit/s) para obtener la calidad de voz del teléfono analógico convencional. Sin embargo, a través de la utilización del análisis de voz, seguido de una correcta codificación, transmisión y resíntesis en el receptor, puede conseguirse una importante reducción de la velocidad de transmisión de datos.

Los dispositivos que emplean técnicas para comprimir voz sonora extrayendo parámetros que se relacionan con un modelo de generación de voz humana habitualmente se denominan vocodificadores. Dichos dispositivos se componen de un codificador que analiza la voz entrante para extraer los parámetros pertinentes, y un decodificador, que resintetiza la voz utilizando los parámetros que recibe a través del canal de transmisión. Para ser preciso, el modelo debe cambiar constantemente. Por lo tanto, la voz se divide en bloques de tiempo, o tramas de análisis, durante los cuales se calculan los parámetros. A continuación, se actualizan los parámetros de cada nueva trama.

Entre los diversos tipos de codificadores de voz existentes, los que efectúan codificación de predicción lineal con excitación por código (CELP), codificación estocástica o codificación de voz con excitación por vector, constituyen una clase. Puede obtenerse un ejemplo de algoritmo de codificación de esta clase particular en el documento "A 4.8 kbps Code Excited Linear Predictive Coder" (Codificador de predicción lineal con excitación por código de 4,8 Kbit/s) de Thomas E. Tremain et al., Proceedings of the Mobile Satellite Conference, 1988.

La función del vocodificador es comprimir la señal de voz digitalizada en una señal de baja velocidad binaria, eliminando todas las redundancias naturales inherentes al habla.

Habitualmente, la voz presenta redundancias de corta duración, debidas sobre todo a la operación de filtrado del tracto vocal, y redundancias de larga duración debidas a la excitación del tracto vocal por las cuerdas vocales. En un codificador CELP, estas operaciones son modelizadas por dos filtros, un filtro de formantes de corta duración y un filtro de tonos de larga duración. Una vez eliminadas estas redundancias, la señal residual resultante puede modelizarse como ruido blanco gaussiano, que asimismo debe codificarse. La base de esta técnica consiste en calcular los parámetros de un filtro, denominado filtro LPC, que lleva a cabo predicción a corto plazo de la forma de onda de la voz utilizando un modelo del tracto vocal humano. Además, se modelizan efectos a largo plazo relacionados con el tono de la voz, calculando los parámetros de un filtro de tonos que, en esencia, modeliza las cuerdas vocales humanas. Por último, estos filtros deben ser excitados, y esto se lleva a cabo determinando qué forma de onda de excitación aleatoria concreta de un grupo contenido en un libro de código da por resultado la aproximación más cercana a la voz original, cuando la forma de onda excita los dos filtros mencionados anteriormente. Por lo tanto, los parámetros transmitidos se refieren a tres elementos: (1) el filtro LPC, (2) el filtro de tonos y (3) la excitación del libro de código.

Aunque la utilización de técnicas de codificación vocal favorecen el objetivo de intentar reducir la cantidad de información enviada a través del canal y a la vez asegurar voz reconstruida de calidad, es necesario emplear otras técnicas para conseguir una mayor reducción. Una técnica utilizada anteriormente para reducir la cantidad de información enviada es la selección de la actividad de las señales vocales. En esta técnica, no se transmite información durante las pausas de voz. Aunque esta técnica consigue el resultado deseado de la reducción de datos, adolece de varias deficiencias.

En muchos casos, la calidad de la voz se reduce debido al recorte de la parte inicial de las palabras. Otro problema de la desconexión del canal durante la inactividad es que los usuarios del sistema perciben la ausencia del ruido de fondo que normalmente acompaña a la voz y la valoración que éstos dan a la calidad del canal es tan baja como la de una llamada telefónica normal. Otro problema en relación con la selección de la actividad es que los ruidos bruscos ocasionales de fondo pueden activar el transmisor cuando no hay voz, ocasionando molestas ráfagas de ruido en el receptor.

Para tratar de mejorar la calidad de la voz sintetizada en los sistemas de selección de actividad de señales vocales, se añade ruido de confort sintetizado durante el proceso de decodificación. Aunque se consigue alguna mejora en calidad al añadir ruido de confort, la mejora de la calidad global no es substancial, puesto que el ruido de confort no modeliza el ruido de fondo real del codificador.

Una técnica más preferida para efectuar la compresión de datos, y que consigue reducir

la información que es necesario enviar, consiste en llevar a cabo la codificación vocal de velocidad variable. Puesto que la voz contiene de forma inherente períodos de silencio, es decir, pausas, la cantidad de datos necesarios para representar dichos períodos puede reducirse. La codificación vocal de velocidad variable explota este hecho de la forma más eficaz reduciendo la velocidad de transmisión de datos para estos periodos de silencio. La reducción de la velocidad de transmisión de datos, a diferencia de la interrupción completa de la transmisión de datos durante períodos de silencio, supera los problemas asociados a la selección de actividad de las señales vocales a la vez que facilita la reducción de la información transmitida.

Por lo tanto, un objetivo de la presente invención es proporcionar un procedimiento y sistema nuevos y mejorados para la compresión de voz utilizando una técnica de codificación vocal de velocidad variable.

Merece especial atención el artículo "Adaptative Pitch Detection Algorithm for Noisy Signals", de Wu S et al., speech processing 1, Glasgow, del 23 al 26 de mayo de 1989, ICASSP'89, Nueva York, IEEE, vol. 1, Conf. 14, 23 de mayo de 1989, páginas 576 a 579, XP000089790. El artículo describe un algoritmo para determinar el tono de una señal en un entorno ruidoso. Se describe para calcular la energía de una trama actual y para calcular la energía con una energía de ruido de referencia. Si la energía de segmento supera la energía de ruido de referencia, la trama actual se define como un "posible" segmento de señal. Después se llevan a cabo una función de correlación cruzada y una función de búsqueda de tono para clasificar un segmento de señal como un segmento de no señal o como un segmento de señal.

También merece especial atención el documento US-A-4.811.404, el cual describe un sistema de supresión de ruido que lleva a cabo una mejora de la calidad de voz sobre la señal de voz más ruido disponible en la entrada para generar una señal de voz limpia en la salida mediante modificación de ganancia espectral. Se considera incluir la suma de un mecanismo de umbral de relación de señal a ruido (SNR) para reducir la fluctuación de ruido de fondo desplazando el aumento de ganancia de las tablas de ganancia hasta que se alcance un determinado umbral SNR, el uso de un calculador métrico de voz para generar estimaciones de ruido de fondo más precisas tomando la decisión de actualización en base a las características globales similares a la voz en los canales y al intervalo de tiempo desde la última actualización, y el uso de un modificador SNR de canal (820) para proporcionar inmunidad contra ráfagas de ruido de banda estrecha a través de la modificación de las estimaciones SNR en función del cálculo métrico de voz y de las energías de canal.

También merece especial atención el documento US-A-4.672.669, el cual describe la detección de la presencia de señales de voz en un VAD (detector de actividad de voz) en dos etapas: (1) la energía de señal por encima de un umbral decide la presencia, por debajo de un umbral decide ambigüedad; (2) la ambigüedad se resuelve probando la tasa de cambio de los parámetros espectrales. SUMARIO DE LA INVENCIÓN

Según la presente invención, se proporcionan un procedimietno para el procesamiento de una señal de voz como el establecido en la reivindicación 1 y un procesador de voz configurado para procesar una señal de voz como el establecido en la reivindicación 7. Las formas de realización preferidas de la invención se dan a conocer en las reivindicaciones subordinadas.

La presente invención implementa un algoritmo de codificación vocal de la clase de codificadores de voz mencionada anteriormente, codificación de predicción lineal con excitación por código (CELP), codificación estocástica o codificación de voz con excitación por vector. La técnica CELP por sí sola proporciona una importante reducción de la cantidad de datos necesarios para representar la voz, de una forma que, tras la resíntesis, da por resultado voz de alta calidad. Como se ha mencionado anteriormente, los parámetros del vocodificador se actualizan para cada trama. El vocodificador de la presente invención proporciona una velocidad de transmisión de datos de salida variable cambiando la frecuencia y la precisión de los parámetros del modelo.

La diferencia más notable de la invención respecto de la técnica CELP básica es su capacidad de generar una velocidad de transmisión de datos de salida variable basada en la actividad de señales vocales. La estructura que se define permite actualizar los parámetros con menos frecuencia, o con menos precisión, durante las pausas de voz y la técnica determina una reducción todavía mayor en la cantidad de información a transmitir. El fenómeno que se explota para reducir la velocidad de transmisión de datos es el factor de actividad de señales vocales, que es el porcentaje medio de tiempo durante el cual un hablante dado habla realmente en una conversación. Para las conversaciones telefónicas bilaterales habituales, la velocidad media de transmisión de datos se reduce en un factor de 2 o más. Durante las pausas de voz, el vocodificador sólo codifica el ruido de fondo. En esos momentos, no es necesario transmitir algunos de los parámetros relativos al modelo del tracto vocal humano.

El planteamiento mencionado anteriormente, denominado selección de actividad de las señales vocales, para la limitación de la cantidad de información transmitida durante los períodos de silencio, es una técnica en la que no se transmite información durante los momentos de silencio. En lo que respecta a la recepción, el período puede rellenarse con "ruido de confort" sintetizado. En cambio, en una realización preferida, un vocodificador de velocidad variable trasmite datos continuamente a velocidades que oscilan entre 8 Kbit/s y 1 Kbit/s, aproximadamente. Un vocodificador que lleva a cabo una transmisión continua de datos puede prescindir de la síntesis de "ruido de confort", y la codificación del ruido de fondo proporciona una calidad más natural a la voz resintetizada. Por consiguiente, la presente invención supone una mejora significativa en la calidad de voz resintetizada respecto de la selección de actividad de las señales vocales, al facilitar una transición suave entre la voz y el fondo.

La presente invención incorpora además una nueva técnica para enmascarar la presencia de errores. Debido a que los datos están destinados a ser transmitidos por un canal que puede ser ruidoso como, por ejemplo, un enlace de radio, los datos deben incluir errores. Las técnicas anteriores que utilizan codificación de canales para reducir el número de errores presentes pueden resultar parcialmente satisfactorias en la reducción de errores. No obstante, la codificación de canales por sí sola no proporciona el nivel de protección de errores completo necesario para asegurar voz reconstruida de alta calidad. En el vocodificador de velocidad variable, que aplica codificación vocal de forma permanente, un error puede destruir datos relativos a algún evento vocal interesante como, por ejemplo, el inicio de una palabra o una sílaba. Un problema habitual de los vocodificadores basados en la codificación de predicción lineal (LPC) es que los errores en los parámetros relativos al modelo del tracto vocal ocasionan sonidos que se asemejan vagamente a los sonidos humanos, y que pueden cambiar el sonido de la palabra original en una medida suficiente como para confundir al oyente. En la presente invención, los errores se enmascaran para reducir su perceptibilidad por el oyente. Este enmascaramiento de errores implementado en la presente invención proporciona una reducción drástica del efecto de los errores sobre la inteligibilidad de la voz.

Debido a que el cambio máximo que puede experimentar cualquier parámetro está limitado a valores menores de bajas velocidades, los errores en los parámetros transmitidos a estas velocidades afectarán menos a la calidad de la voz. Puesto que los errores de las diferentes velocidades tienen diferentes efectos percibidos sobre la calidad de la voz, el sistema de transmisión puede aprovecharse al máximo para dar más protección a los datos de velocidad más alta. Por consiguiente, como característica añadida, la presente invención proporciona resistencia a los errores del canal.

La presente invención, al implementar una versión de salida de velocidad variable del algoritmo CELP, da como resultado una compresión de voz que varía dinámicamente entre 8:1 y 64:1, dependiendo de la actividad de las señales vocales. Los factores de compresión recién mencionados se refieren a una entrada de ley u, siendo los factores de compresión superiores en un factor de 2 para una entrada lineal. La determinación de la velocidad se efectúa de trama en trama para aprovechar por completo el factor de actividad vocal. Aún cuando se generan menos datos para las pausas de voz, la degradación percibida del ruido de fondo resintetizado se reduce al mínimo. Utilizando las técnicas de la presente invención, puede conseguirse voz con una calidad casi de tipo de circuito interurbano a una velocidad de transmisión de datos máxima de 8 Kbit/s y una velocidad media de transmisión de datos del orden de 3,5 Kbit/s en conversación normal.

Puesto que la presente invención permite detectar pausas cortas de voz, se consigue una reducción del factor efectivo de actividad vocal. Las decisiones de velocidad pueden tomarse de trama en trama sin tiempo de bloqueo y, en consecuencia, la velocidad de transmisión de datos puede reducirse en las pausas de voz que tengan una duración tan corta como la de la trama, que habitualmente es de 20 ms en la forma de realización preferida. Podrán captarse, pues, pausas como las existentes entre sílabas. Esta técnica reduce el factor de actividad vocal en una medida mayor que la conseguida tradicionalmente, puesto que es posible codificar no sólo pausas de larga duración entre frases, sino también pausas de más corta duración a velocidades inferiores.

Debido a que las decisiones de velocidad se toman de trama en trama, no se produce recorte de la parte inicial de la palabra, como ocurre en el sistema de selección de actividad de las señales vocales. El recorte de esta naturaleza se produce en el sistema de selección de actividad de las señales vocales debido al retardo entre la detección de la voz y el reinicio de la transmisión de datos. Utilizar una decisión de velocidad basada en cada trama da como resultado voz en la que todas las transiciones tienen un sonido natural.

Si el vocodificador transmite ininterrumpidamente, el ruido de fondo del ambiente del hablante se oirá de forma permanente en el extremo de recepción, proporcionando de ese modo un sonido más natural durante las pausas de voz. Por consiguiente, la presente invención permite una transición suave hacia el ruido de fondo. Lo que el oyente puede oír en el fondo durante la conversación no se transformará de repente en un ruido de confort sintetizado durante las pausas, como ocurre en un sistema de selección de actividad de las señales vocales.

Puesto que el ruido de fondo se somete continuamente a codificación vocal para la transmisión, los eventos interesantes del fondo pueden enviarse con total claridad. En ciertos casos, el ruido de fondo que interesa puede codificarse incluso a la velocidad más alta. La codificación a máxima velocidad puede producirse, por ejemplo, cuando hay alguna persona que habla en voz alta en el fondo, o si pasa una ambulancia cerca de un usuario que se halla en la calle. No obstante, el ruido de fondo de variación constante o lenta será codificado a bajas velocidades.

La utilización de codificación vocal de velocidad variable promete un aumento de la capacidad de un sistema telefónico celular digital basado en acceso múltiple por división del código (CDMA) superior a un factor de dos. La codificación vocal CDMA y de velocidad variable coinciden de manera singular, puesto que, con CDMA, las interferencias entre canales decrecen automáticamente a la vez que decrece la velocidad de transmisión de datos a través de cualquier canal. Para comparar, consideraremos los sistemas en los que se asignan intervalos de transmisión como, por ejemplo, los sistemas TDMA o FDMA. Para que uno de estos sistemas aproveche cualquier descenso de la velocidad de transmisión de datos, se requiere una intervención externa para coordinar la reasignación de intervalos no utilizados a otros usuarios. El retardo inherente a dicho sistema determina que el canal pueda ser reasignado sólo durante largas pausas de voz. Por lo tanto, no puede aprovecharse por completo el factor de actividad vocal. No obstante, con coordinación externa, la codificación vocal de velocidad variable es útil en sistemas diferentes al CDMA por los otros motivos mencionados.

En un sistema CDMA, la calidad de voz del sistema puede degradarse ligeramente en los momentos en que se desea una capacidad adicional del sistema. En términos abstractos, el vocodificador puede considerarse como un grupo de vocodificadores que funcionan a diferentes velocidades y proporcionan diferentes calidades de voz. Por consiguiente, las calidades de voz pueden mezclarse para reducir más la velocidad media de transmisión de datos. Los experimentos iniciales muestran que mezclando voz sometida a codificación vocal de velocidad completa y media velocidad, p.ej. variando de trama en trama la velocidad de transmisión de datos máxima permitida entre 8 Kbit/s y 4 Kbit/s, la voz resultante tiene una calidad que es mejor que la variable de media velocidad, de 4 Kbit/s como máximo, pero no tan buena como la variable de velocidad completa, de 8 Kbit/s como máximo.

Es bien conocido que en la mayoría de conversaciones telefónicas sólo habla una persona a la vez. Como función adicional para los enlaces telefónicos dúplex completo, puede proporcionarse un interbloqueo de velocidad. Si una dirección del enlace transmite a la velocidad de transmisión más alta, entonces la otra dirección del enlace es forzada a transmitir a la velocidad más lenta. Un interbloqueo entre las dos direcciones del enlace puede garantizar una utilización media no superior al 50% de cada dirección del enlace. No obstante, cuando el canal se desactiva como en el caso del interbloqueo de velocidad en la selección de actividad, no hay forma de que un oyente interrumpa al hablante para asumir el papel de hablante en la conversación. La presente invención proporciona con facilidad la capacidad de interbloqueo de velocidad mediante señales de control que establecen la velocidad de codificación vocal.

Por último, debe observarse que utilizando un modelo de codificación vocal de velocidad variable, la información de señalización puede compartir el canal con datos de voz con un efecto muy pequeño sobre la calidad de la voz. Por ejemplo, una trama de alta velocidad puede dividirse en dos; una de las mitades se utiliza para enviar los datos de voz de velocidad más baja y la otra mitad para enviar los datos de señalización. En el vocodificador de la forma de realización preferida, sólo se produce una ligera degradación de la calidad de la voz entre la voz sometida a codificación vocal de velocidad completa y la sometida a codificación vocal de medía velocidad. Por consiguiente, la codificación vocal de la voz a la velocidad más baja para la transmisión compartida con otros datos da por resultado una diferencia de calidad de voz casi imperceptible por el usuario.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

Las características, objetivos y ventajas de la presente invención resultarán más evidentes a partir de la descripción detallada expuesta a continuación cuando se toma junto con los dibujos, en los que se utilizan caracteres de referencia equivalentes para indicaciones equivalentes y, en los que:

las Figuras 1a-1e ilustran gráficamente las tramas y subtramas de análisis del vocodificador para diferentes velocidades; las Figuras 2a-2d son una serie de gráficos que ilustran la distribución binaria de salida del vocodificador para diferentes velocidades; la Figura 3 es un diagrama de bloques generalizado de un ejemplo de codificador; la Figura 4 es un diagrama de flujo de un codificador; la Figura 5 es un diagrama de bloques generalizado de un ejemplo de decodificador; la Figura 6 es un diagrama de flujo de un decodificador; la Figura 7 es un diagrama de bloques funcionales más detallado del codificador; la Figura 8 es un diagrama de bloques de un ejemplo de ventana de Hamming y de subsistemas de autocorrelación; la Figura 9 es un diagrama de bloques de un ejemplo de subsistema de determinación de velocidad; la Figura 10 es un diagrama de bloques de un ejemplo de subsistema de análisis LPC; la Figura 11 es un diagrama de bloques de un ejemplo de subsistema de transformación LPC-LSP; la Figura 12 es un diagrama de bloques de un ejemplo de subsistema de cuantificación LPC; la Figura 13 es un diagrama de bloques de un ejemplo de subsistema de interpolación LSP y de transformación LSP-LPC; la Figura 14 es un diagrama de bloques del libro de código adaptativo para la búsqueda del tono; la Figura 15 es un diagrama de bloques del decodificador del codificador;

la Figura 16 es un diagrama de bloques del subsistema de búsqueda del tono; la Figura 17 es un diagrama de bloques del subsistema de búsqueda del libro de código; la Figura 18 es un diagrama de bloques del subsistema de empaquetamiento de datos; la Figura 19 es un diagrama de bloques funcionales más detallado del decodificador; las Figuras 20a-20d son diagramas que ilustran los parámetros y datos de decodificación de subtramas recibidos por el decodificador para diferentes velocidades; las Figuras 21a-21c son diagramas que proporcionan una ilustración adicional de los parámetros y datos de decodificación de subtramas recibidos por el decodificador para condiciones especiales; la Figura 22 es un diagrama de bloques del subsistema de cuantificación inversa LSP; la Figura 23 es un diagrama de bloques más detallado del decodificador con postfiltrado y control automático de ganancia; y la Figura 24 es un diagrama que ilustra las características adaptativas del filtro de brillo.

DESCRIPCIÓN DETALLADA DE LA FORMA DE REALIZACIÓN PREFERIDA

Según la presente invención, sonidos como la voz y/o el ruido de fondo se muestrean y se digitalizan utilizando técnicas bien conocidas. Por ejemplo, la señal analógica puede transformarse en una señal digital mediante el formato estándar de 8 bits/ley u seguido de una conversión de ley u/código uniforme. Como alternativa, la señal analógica puede convertirse directamente a una forma digital en un formato de modulación por impulsos codificados (PCM) uniforme. Por lo tanto, cada muestra en la forma de realización preferida está representada por una palabra de 16 bits de datos. Las muestras se organizan en tramas de datos de entrada, comprendiendo cada trama un número predeterminado de muestras. En la forma de realización a modo de ejemplo dada a conocer en este documento, la velocidad de muestreo considerada es de 8 kHz. Cada trama comprende 160 muestras o 20 ms de voz a la velocidad de muestreo de 8 kHz. Debe sobrentenderse que es posible utilizar otras velocidades de muestreo y tamaños de trama.

El campo de la codificación vocal incluye muchas técnicas diferentes para la codificación de voz, siendo una de éstas la técnica de codificación CELP. En el documento "A 4.8 kbps Code Excited Linear Predictive Coder" (Codificador de predicción lineal con excitación por código de 4,8 Kbit/s) mencionado anteriormente, se proporciona un sumario de la técnica de codificación CELP. La presente invención implementa una forma de las técnicas de codificación CELP para proporcionar una velocidad variable a los datos de voz codificados, donde el análisis LPC se lleva a cabo con una cantidad de muestras constante y donde las búsquedas de tono y de libro de código se llevan a cabo con cantidades de muestras variables dependiendo de la velocidad de transmisión. Las técnicas de codificación CELP que se aplican a la presente invención se

describen conceptualmente con referencia a las Figuras 3 y 5.

En la forma de realización preferida de la presente invención, las tramas de análisis de voz tienen una duración de 20 ms, lo cual implica que los parámetros extraídos se transmiten en una ráfaga 50 veces por segundo. Además, la velocidad de transmisión de datos varía aproximadamente entre 8 Kbit/s y 4 Kbit/s, 2 Kbit/s y 1 Kbit/s. A velocidad completa (denominada también velocidad 1), la transmisión de datos se lleva a cabo a 8,55 Kbit/s y los parámetros codificados para cada trama utilizan 171 bits incluyendo una CRC (verificación por redundancia cíclica) interna de 11 bits. En ausencia de los bits de CRC, la velocidad será de 8 Kbit/s. A media velocidad (denominada también velocidad 1/2), la transmisión de datos se lleva a cabo a 4 Kbit/s y los parámetros codificados para cada trama utilizan 80 bits. A cuarto de velocidad (denominada también velocidad 1/4), la transmisión de datos se lleva a cabo a 2 Kbit/s y los parámetros codificados para cada trama utilizan 40 bits. A octavo de velocidad (denominada también velocidad 1/8), la transmisión de datos es ligeramente inferior a 1 Kbit/s y los parámetros codificados para cada trama utilizan 16 bits.

La Figura 1 ilustra gráficamente un ejemplo de trama de análisis de datos dé voz 10 y la relación de una ventana de Hamming 12 utilizada en análisis LPC. En las Figuras 2a-2d, se ilustran gráficamente la trama de análisis LPC y las subtramas de tono y libro de código para las diferentes velocidades. Debe sobrentenderse que la trama de análisis LPC es del mismo tamaño para todas las velocidades.

En relación con los dibujos y, en particular, con la Figura 1a, el análisis LPC se lleva a cabo utilizando las 160 muestras de datos de voz de la trama 10 que se someten a enventanado utilizando una ventana de Hamming 12. Como se ilustra en la Figura 1a, las muestras s(n) se numeran del 0 al 159 dentro de cada trama. La ventana de Hamming 12 se sitúa con un desplazamiento de 60 muestras dentro de la trama 10. Por lo tanto, la ventana de Hamming 12 empieza en la 60a muestra, s(59), de la trama de datos actual 10 y continúa hasta terminar en la muestra 59a, s(58) de la siguiente trama de datos 14. Por consiguiente, los datos ponderados generados para la trama actual, es decir la trama 10, también contendrán datos basados en datos de la siguiente trama, o sea la trama 14.

Dependiendo de la velocidad de transmisión de datos, se efectúan búsquedas para calcular los parámetros de excitación del filtro de tonos y del libro de código varias veces en diferentes subtramas de la trama de datos 10, como se muestra en las Figuras 1b-1e. Debe sobrentenderse que en la forma de realización preferida sólo se selecciona una velocidad para la trama 10, de modo que las búsquedas de tono y de libro de código se efectúan en subtramas de diversos tamaños correspondientes a la velocidad seleccionada, como se describe más adelante. No obstante, con finalidades ilustrativas, en las Figuras 1b-1e se muestra la estructura de subtrama de las búsquedas de tono y de libro de código para las diversas velocidades permitidas de la forma de realización preferida para la trama 10.

En todas las velocidades, se efectúa un cálculo LPC por trama 10 como se ilustra en la Figura 1a. Como se ilustra en la Figura 1b, a velocidad completa existen dos subtramas de libro de código 18 para cada subtrama de tono 16. A velocidad completa se efectúan cuatro actualizaciones de tono, una para cada una de las cuatro subtramas de tono 16, de 40 muestras de duración (5 ms). Además, a velocidad completa se efectúan ocho actualizaciones de libro de código, una para cada una de las ocho subtramas de libro de código 18, de 20 muestras de duración (2,5 ms).

A media velocidad, como se ilustra en la Figura 1c, existen dos subtramas de libro de código 22 para cada subtrama de tono 20. El tono se actualiza dos veces, una vez por cada una de las dos tramas de tono 20, mientras que el libro de código se actualiza cuatro veces, una vez por cada una de las cuatro subtramas de libro de código 22. A cuarto de velocidad, como se ilustra en la Figura 1d, existen dos subtramas de libro de código 26 para la única subtrama de tono 20. El tono se actualiza una vez para la subtrama de tono 24, mientras que el libro de código se actualiza dos veces, una vez por cada una de las dos subtramas de libro de código

26. Como se ilustra en la Figura 1e, a octavo de velocidad, no se determina el tono y el libro de código se actualiza sólo una vez en la trama 28 que corresponde a la trama 10.

Además, aunque los coeficientes LPC se calculan sólo una vez por trama, éstos se interpolan linealmente, en una representación de par de líneas espectrales (LSP), hasta cuatro veces utilizando las frecuencias LSP resultantes de la trama anterior para calcular aproximadamente los resultados del análisis LPC con la ventana de Hamming centrada en cada subtrama. La excepción es que, a velocidad completa, no se interpolan los coeficientes LPC para las subtramas de libro de código. Más adelante, se proporciona más información acerca del cálculo de frecuencias LSP.

Aparte de llevarse a cabo con menos frecuencia las búsquedas de tono y de libro de código a velocidades más bajas, se asignan menos bits para la transmisión de los coeficientes LPC. El número de bits asignados a las diferentes velocidades se muestra en las Figuras 2a-2d. Cada una de las Figuras 2a-2d representa el número de bits de datos codificados por el vocodificador asignados a cada una de las tramas de 160 muestras de voz. En las Figuras 2a2d, el número del respectivo bloque LPC 30a-30d es el número de bits utilizados a la correspondiente velocidad para codificar los coeficientes LPC de corto plazo. En la forma de realización preferida, el número de bits utilizados para codificar los coeficientes LPC a las velocidades completa, media, cuarto y octavo son respectivamente 40, 20, 10 y 10.

Para implementar la codificación de velocidad variable, los coeficientes LPC se

transforman en primer lugar en pares de líneas espectrales (LSP) y las resultantes frecuencias LSP se codifican de forma individual utilizando codificadores DPCM. El orden de LPC es 10, es decir, hay 10 frecuencias LSP y 10 codificadores DPCM independientes. La asignación de bits para los codificadores DPCM se efectúa según la Tabla I.

TABLA I

NÚMERO DE CODIFICADOR DPCM

1: 2 3 4 5 6 7 8 9 10

VELOC. 1 VELOC. 1/2 VELOC. 1/4 VELOC. 1/8: 4 2 1 1 4 2 1 1 4 4 4 4 4 4 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 4 2 1 1 4 2 1 1

10 Tanto en el codificador como en el decodificador, las frecuencias LSP vuelven a convertirse en coeficientes de filtro LPC antes de su utilización en las búsquedas de tono y de libro de código.

Con respecto a la búsqueda del tono, la actualización de tono se calcula cuatro veces a velocidad completa, una por cada cuarta parte de trama de voz, como se ilustra en la Figura 2a. 15 Para cada actualización de tono a velocidad completa, se utilizan 10 bits para codificar los nuevos parámetros de tono. Las actualizaciones de tono se efectúan un número de veces variable para las otras velocidades mostradas en las Figuras 2b-2d. A medida que la velocidad decrece, el número de actualizaciones de tono también decrece. La Figura 2b ilustra las actualizaciones de tono para media velocidad que se calculan dos veces, una para cada mitad 20 de trama de voz. De modo similar, la Figura 2c ilustra las actualizaciones de tono para cuarto de velocidad que se calculan una vez para cada trama de voz completa. Igual que para la velocidad completa, se utilizan 10 bits para codificar los nuevos parámetros de tono para cada actualización de tono de media velocidad y cuarto de velocidad. No obstante, como se ilustra en la Figura 2d, para octavo de velocidad no se calcula ninguna actualización de tono, puesto que

25 esta velocidad se utiliza para codificar tramas cuando la voz presente es nula o casi nula y no existen redundancias de tono. En cada actualización de tono de 10 bits, 7 bits representan el retardo de tono y 3 bits representan la ganancia de tono. El retardo de tono está limitado a los valores comprendidos

entre 17 y 143. La ganancia de tono se cuantifica linealmente entre 0 y 2 para su representación mediante el valor de 3 bits.

En relación con la búsqueda de libro de código, como se ilustra en la Figura 2a, a velocidad completa la actualización de libro de código se calcula ocho veces, una para cada octava parte de la trama de voz. Para cada actualización de libro de código a velocidad completa, se utilizan 10 bits para codificar los nuevos parámetros de libro de código. Las actualizaciones de libro de código se efectúan un número de veces variable a las velocidades mostradas en las Figuras 2b-2d. No obstante, a medida que disminuye la velocidad también disminuye el número de actualizaciones de libro de código. La Figura 2b ilustra las actualizaciones de libro de código para media velocidad que se calculan cuatro veces, una vez para cada cuarta parte de la trama de voz. La Figura 2c ilustra las actualizaciones de libro de código para cuarto de velocidad que se calculan dos veces, una vez para cada mitad de la trama de voz. Igual que para la velocidad completa, se utilizan 10 bits para codificar los nuevos parámetros de libro de código para cada actualización de tono de media velocidad y cuarto de velocidad. Por último, la Figura 2d ilustra las actualizaciones de libro de código para octavo de velocidad que sólo se calculan una vez para cada trama de voz completa. Debe observarse que a octavo de velocidad se transmiten 6 bits; 2 de los cuales son representativos de la ganancia de libro de código; los 4 restantes son bits aleatorios. Más adelante, se proporciona más información acerca de las asignaciones de bits para las actualizaciones de libro de código.

Los bits asignados para las actualizaciones de libro de código representan los bits de datos necesarios para cuantificar vectorialmente el residuo de predicción de tono. Para las velocidades completa, media y cuarto, cada actualización de libro de código consiste en 7 bits de índice de libro de código más 3 bits de ganancia de libro de código para un total de 10 bits. La ganancia de código de libro se codifica utilizando un codificador de modulación diferencial por impulsos codificados (DPCM) que funciona en el dominio logarítmico. Aunque para octavo de velocidad puede utilizarse una disposición de bits parecida, es preferible utilizar un modelo alternativo. A octavo de velocidad, la ganancia de libro de código es representada por 2 bits, mientras que se utilizan 4 bits generados de forma aleatoria con los datos recibidos, como simiente para el generador de números pseudoaleatorios que sustituye al libro de código.

Con respecto al diagrama de bloques del codificador ilustrado en la Figura 3, el análisis LPC se lleva a cabo en una modalidad de bucle abierto. Para cada trama de muestras de voz de entrada s(n), se calculan los coeficientes LPCO ( α1 -α10 ) como se describirá más adelante, mediante análisis/cuantificación LPC 50, para utilizarlos en el filtro de síntesis de formantes 60.

No obstante, el cálculo de la búsqueda del tono se efectúa en una modalidad de bucle cerrado que a menudo se denomina procedimiento de análisis por síntesis. Sin embargo, en la implementación se utiliza una nueva técnica híbrida de bucle cerrado/bucle abierto para dirigir la búsqueda del tono. En la búsqueda del tono, se lleva a cabo una codificación seleccionando parámetros que reducen al mínimo el error cuadrático medio entre la voz de entrada y la voz sintetizada. Para simplificar, en esta parte de la descripción no se tratará el tema de la velocidad. No obstante, más adelante se proporciona información adicional detallada acerca del efecto de la velocidad seleccionada en las búsquedas de tono y de libro de código.

En la forma de realización conceptual ilustrada en la Figura 3, el filtro de ponderación perceptiva 52 se caracteriza mediante las siguientes ecuaciones:

imagen1

donde

imagen1

es el filtro de predicción de formantes y µ es un parámetro de ponderación perceptiva, que en la forma de realización a modo de ejemplo es igual a 0,8. El filtro de síntesis de tono 58 se caracteriza mediante la siguiente ecuación:

imagen1

El filtro de síntesis de formantes 60, un filtro ponderado que se describe a continuación, se caracteriza mediante la siguiente ecuación:

imagen1

Las muestras de voz de entrada s(n) son ponderadas por el filtro de ponderación perceptiva 52, y las muestras de voz ponderadas x(n) son proporcionadas a una entrada de suma del sumador 62. La ponderación perceptiva se utiliza para ponderar el error en las frecuencias donde hay menos potencia de señal. Es en estas frecuencias de baja potencia de señal cuando el ruido es más apreciable perceptivamente. Las muestras de voz sintetizada x'(n) se pasan desde el filtro de síntesis de formantes 60 hasta una entrada de resta del sumador 62 donde se sustraen de las x(n) muestras. La diferencia de muestras obtenida desde el sumador 62 se introduce en el elemento de error cuadrático medio (MSE) 64 donde se eleva al cuadrado y se suma. Los resultados del elemento MSE 64 se proporcionan al elemento de minimización 66 que genera valores para el retardo de tono L, la ganancia de tono b, el índice de libro de código I y la ganancia de libro de código.

En el elemento de minimización 66, se introducen todos los valores posibles de L, el parámetro de retardo de tono de P(z), en el filtro de síntesis de tono 58 junto con el valor c(n) del multiplicador 56. Durante la búsqueda del tono no hay contribución alguna del libro de código, es decir, c(n) = 0. Los valores de L y b que reducen al mínimo el error ponderado entre la voz de entrada y la voz sintetizada son elegidos por el elemento de minimización 66. El filtro de síntesis de tono 58 genera y proporciona el valor p(n) al filtro de síntesis de formantes 60. Una vez hallado el retardo de tono L y la ganancia de tono b para el filtro de tonos, se lleva a cabo la búsqueda de libro de código de forma parecida.

Debe sobrentenderse que la Figura 3 es una representación conceptual del planteamiento de análisis por síntesis tomado en la presente invención. En la implementación a modo de ejemplo de la presente invención, los filtros no se utilizan en la configuración de retroalimentación en bucle cerrado habitual. En la presente invención, la conexión de retroalimentación se rompe durante la búsqueda y se sustituye por un residuo de formantes de bucle abierto, cuyos detalles se proporcionan más adelante en este documento.

El elemento de minimización 66 genera a continuación valores para el índice de libro de código i y la ganancia de libro de código G. Los valores de salida del libro de código 54, seleccionados entre una pluralidad de valores vectoriales aleatorios gaussianos según el índice de libro de código I, se multiplican en el multiplicador 56 por la ganancia de libro de código G para generar la secuencia de valores c(n) utilizada en el filtro de síntesis de tono 58. El índice de libro de código I y la ganancia de libro de código G que se eligen para la transmisión son los que reducen al mínimo el error cuadrático medio.

Debe observarse que la ponderación perceptiva W(z) se aplica tanto a la voz de entrada

mediante el filtro de ponderación perceptiva 52 como a la voz sintetizada mediante la función

de ponderación incorporada dentro del filtro de síntesis de formantes 60. Por lo tanto, el filtro de

síntesis de formantes 60 es en realidad un filtro de síntesis de formantes ponderados, que

combina la función de ponderación de la ecuación 1 con la característica típica de filtro de

predicción de formantes

imagen1 para proporcionar la función de síntesis de formantes ponderados

5

10

15

20

25

30 16

de la ecuación 3.

Debe sobrentenderse que como alternativa, el filtro de ponderación perceptiva 52 puede situarse entre el sumador 62 y el elemento MSE 64. En este caso, el filtro de síntesis de

imagen2

formantes 60 tendrá la característica de filtro normal de

La Figura 4 ilustra un diagrama de flujo de las etapas relativas a la codificación de voz con el codificador de la Figura 3. Con fines descriptivos, las etapas relativas a la decisión de velocidad se incluyen en el diagrama de flujo de la Figura 4. Las muestras de voz digitalizada se obtienen (bloque 80) de los circuitos de muestreo a partir de los cuales se calculan después los coeficientes LPC (bloque 82). En el cálculo de coeficientes LPC, se utilizan la ventana de Hamming y técnicas de autocorrelación. Para la trama que interesa, se toma una decisión inicial de velocidad (bloque 84) basada en la energía de trama en la forma de realización preferida.

Para codificar eficazmente los coeficientes LPC en un número pequeño de bits, los coeficientes LPC se transforman en frecuencias de pares de líneas espectrales (LSP) (bloque 86) y luego se cuantifican (bloque 88) para la transmisión. Opcionalmente, puede efectuarse una determinación de velocidad adicional (bloque 90), aumentándose la velocidad si la cuantificación de los coeficientes LSP para la velocidad inicial se considera insuficiente (bloque 92).

Para la primera subtrama de tono de la trama de voz que se está analizando, las frecuencias LSP se interpolan y transforman en coeficientes LPC (bloque 94) para su utilización en la dirección de la búsqueda del tono. En la búsqueda del tono, la excitación del libro de código se establece en cero. En la búsqueda del tono (bloques 96 y 98) que es un procedimiento de análisis por síntesis como el descrito anteriormente, para cada retardo de tono L posible, se compara la voz sintetizada con la voz original. Para cada valor de L, se determina un valor entero, la ganancia de tono óptima b. De los grupos de valores de L y b, el grupo de valores de L y b óptimos proporciona el mínimo error cuadrático medio ponderado perceptivamente entre la voz sintetizada y la voz original. Para los valores óptimos determinados de L y b para esa subtrama de tono, se cuantifica el valor de b (bloque 100) para su transmisión junto con el correspondiente valor de L. En una implementación alternativa de la búsqueda del tono, los valores de b pueden ser valores cuantificados que participan en la búsqueda del tono, siendo utilizados estos valores cuantificados para dirigir la búsqueda del tono. Por lo tanto, en esta implementación, dejará de ser necesario cuantificar el valor de b seleccionado tras la búsqueda del tono (bloque 100).

Para la primera subtrama de libro de código de la trama de voz que se está analizando, las frecuencias LSP se interpolan y transforman en coeficientes LPC (bloque 102), para su utilización en la dirección de la búsqueda de libro de código. No obstante, en la forma de realización a modo de ejemplo, a velocidad completa las frecuencias LSP sólo se interpolan hasta el nivel de subtrama de tono. Esta etapa de interpolación y transformación se lleva a cabo tanto para la búsqueda de libro de código como para la búsqueda del tono, debido a la diferencia en tamaño de las subtramas de tono y libro de código para cada velocidad, excepto para la velocidad 1/8 donde es irrelevante ya que no se calcula ningún dato de tono. En la búsqueda de libro de código (bloques 104 y 106), se utilizan los valores de retardo L y de ganancia b de tono óptimos en el filtro de síntesis de tono, para comparar, para cada índice de libro de código l posible, la voz sintetizada con la voz original. Para cada valor de I, se determina un valor entero; la ganancia de libro de código G óptima. De los grupos de valores de I y G, el grupo de valores de I y G óptimos proporciona el mínimo error entre la voz sintetizada y la voz original. Para los valores óptimos determinados de I y G para dicha subtrama de código de libro, se cuantifica el valor G (bloque 108), para su transmisión junto con el correspondiente valor I. Por otra parte, en una implementación alternativa de la búsqueda de libro de código, la cuantificación de los valores G puede llevarse a cabo como parte de la búsqueda de libro de código, siendo utilizados estos valores cuantificados en la dirección de la búsqueda de código. En esta implementación alternativa, deja de ser necesaria la cuantificación del valor G seleccionado tras la búsqueda de libro de código (bloque 108).

Después de la búsqueda de libro de código, se ejecuta el decodificador del codificador con los valores I, G, L y b óptimos. La ejecución del decodificador del codificador reconstruye las memorias de filtro del codificador para su utilización en futuras subtramas.

A continuación, se efectúa una comprobación (bloque 110) para determinar si la subtrama de libro de código cuyo análisis acaba de terminar es la última subtrama de libro de código del grupo de subtramas de libro de código correspondiente a la subtrama de tono para la cual va destinada la búsqueda del tono. En otras palabras, se determina si quedan más subtramas de libro de código que correspondan a la subtrama de tono. En la forma de realización a modo de ejemplo sólo existen dos subtramas de libro de código por subtrama de tono. Si se determina que queda otra subtrama de libro de código que corresponde a la trama de tono, se repiten las etapas 102-108 para dicha subtrama de libro de código.

En caso de que no queden más subtramas de libro de código correspondientes a la trama de tono, se efectuará una comprobación (bloque 112) para determinar si queda alguna subtrama de tono dentro de la trama de voz que se está analizando. Si en la trama de voz actual que se está analizando queda otra subtrama de tono, se repiten las etapas 94-110 para cada subtrama de tono y correspondientes subtramas de libro de código. Cuando hayan finalizado todos los cálculos para la trama de voz actual que se está analizando, los valores representativos de los coeficientes LPC para la trama de voz, el retardo L y la ganancia b de tono para cada subtrama de tono y el índice I y la ganancia G de libro de código para cada subtrama de libro de código se empaquetan para la transmisión (bloque 114).

En relación con la Figura 5, se ilustra un diagrama de bloques del decodifícador en el que los valores recibidos para los coeficientes LPC ( α i ), los retardos y ganancias de tono (L y b) y los índices y ganancias de libro de código (l y G) se utilizan para sintetizar la voz. De nuevo, en la Figura 5, como en la Figura 3, no se tiene en cuenta la información de velocidad para simplificar la descripción. La información de velocidad de transmisión de datos puede enviarse como información suplementaria y, en ciertos casos, puede obtenerse en la etapa de demodulación del canal.

El decodificador comprende en un libro de código 130 que está provisto de los índices de libro de código recibidos o, para octavo de velocidad, la simiente aleatoria. La salida del libro de código 130 se proporciona a una entrada del multiplicador 132, mientras que la otra entrada del multiplicador 132 recibe la ganancia de libro de código G. La salida del multiplicador 132 se proporciona junto con el retardo L y la ganancia b de tono al filtro de síntesis de tono 134. La salida del filtro de síntesis de tono 134 se proporciona junto con los coeficientes LPC α i al filtro de síntesis de formantes 136. La salida del filtro de síntesis de formantes 136 se proporciona al postfiltro adaptativo 138 donde se filtra y se proporciona como voz reconstruida. Como se describe más adelante, en el codificador se implementa una versión del decodificador. El decodificador del codificador no incluye un postfiltro adaptativo 138, sino que incluye un filtro de ponderación perceptiva.

La Figura 6 es un diagrama de flujo que corresponde al funcionamiento del decodificador de la Figura 5. En el decodificador, la voz se reconstruye a partir de los parámetros recibidos (bloque 150). En particular, el valor recibido del índice de libro de código se introduce en el libro de código que genera un vector del código o valor de salida del libro de código (bloque 152). El multiplicador recibe el vector de código junto con la ganancia de libro de código G recibida y multiplica estos valores (bloque 154), siendo proporcionada la señal resultante al filtro de síntesis de tono. Debe observarse que la ganancia de libro de código G se reconstruye decodificando y cuantificando inversamente los parámetros DPCM recibidos. Al filtro de síntesis de tono se le facilitan los valores de retardo L y ganancia b de tono recibidos, junto con la señal de salida del multiplicador, para permitir el filtrado de la salida del multiplicador (bloque 156).

Los valores que se obtienen tras el filtrado del vector de libro de código por el filtro de síntesis de tono se introducen en el filtro de síntesis de formantes. Asimismo, al filtro de síntesis de formantes se le facilitan los coeficientes LPC α i para su utilización en el filtrado de la señal de salida del filtro de síntesis de tono (bloque 158). Los coeficientes LPC se reconstruyen en el decodificador para su interpolación mediante decodificación de los parámetros DPCM recibidos en frecuencias LSP cuantificadas, cuantificación inversa de las frecuencias LSP y

5 transformación de las frecuencias LSP en coeficientes LPC α i . La salida del filtro de síntesis de formantes se proporciona al postfiltro adaptativo en el que se enmascara el ruido de cuantificación y en el que la voz reconstruida se somete a control de ganancia (bloque 160). Se obtiene voz reconstruida (bloque 162) para su conversión analógica.

Con referencia a la ilustración del diagrama de bloques de las Figuras 7a y 7b, se

10 proporciona más información acerca de las técnicas de codificación de voz de la presente invención. En la Figura 7a, cada una de las tramas de las muestras de voz digitalizada se proporciona a un subsistema de ventana de Hamming 200, en el que la voz de entrada se somete a enventanado antes del cálculo de los coeficientes de autocorrelación en el subsistema de autocorrelación 202.

15 El subsistema de ventana de Hamming 200 y el subsistema de autocorrelación 202 se ilustran en un ejemplo de implementación en la Figura 8. El subsistema de ventana de Hamming 200 comprende una tabla de consulta 250, que habitualmente es una memoria de sólo lectura (ROM) de 80x16 bits, y un multiplicador 252. Para cada velocidad, la ventana de voz se centra entre las muestras 139a y 140a de cada trama de análisis que tiene una longitud

20 de 160 muestras. La ventana para calcular los coeficientes de autocorrelación está pues desplazada 60 tramas respecto de la trama de análisis. La selección de ventana se efectúa utilizando una tabla ROM que contiene 80 de los 160 valores WH(n), puesto que la ventana de Hamming es simétrica respecto del centro. El desplazamiento de la ventana de Hamming se lleva a cabo desviando el puntero de dirección

25 de la ROM 60 posiciones con respecto a la primera muestra de una trama de análisis. Estos valores son multiplicados con precisión simple con las correspondientes muestras de voz de entrada por el multiplicador 252. Supongamos que s(n) sea la señal de voz de entrada en la ventana de análisis. La señal de voz sometida a selección de ventana sw(n) es definida por:

imagen3

En la Tabla II se proporcionan ejemplos de valores hexadecimales del contenido de la tabla de consulta 250. Estos valores se interpretan como números en complemento a dos que tienen 14 bits fraccionarios, siendo leída la tabla de izquierda a derecha y de arriba abajo.

5 TABLA II

0x051f 0x0525 0x0536 0x0554 0x057d 0x05b1 0x05f2 0x063d

0x0694 0x06f6 0x0764 0x07dc 0x085e 0x08ec 0x0983 0x0a24 0x0ad0 0x0b84 0x0c42 0x0d09 0x0dd9 0x0eb0 0x0f90 0x1077 0x1166 0x125b 0x1357 0x1459 0x1560 0x166d 0x177f 0x1895 0x19af 0x1acd 0x1bee 0x1d11 0x1e37 0x1f5e 0x2087 0x21b0 0x22da 0x2403 0x252d 0x2655 0x277b 0x28a0 0x29c2 0x2ae1 0x2bfd 0x2d15 0x2e29 0x2f39 0x3043 0x3148 0x3247 0x333f 0x3431 0x351c 0x3600 0x36db 0x37af 0x387a 0x393d 0x39f6 0x3aa6 0x3b4c 0x3be9 0x3c7b 0x3d03 0x3d80 0x3df3 0x3e5b

0x3eb7 0x3f09 0x3f4f 0x3f89 0x3fb8 0x3fdb 0x3ff3 0x3fff

El subsistema de autocorrelación 202 comprende un registro 254, un multiplexor 256, un registro de desplazamiento 258, un multiplicador 260, un sumador 262, un registro de 10 desplazamiento circular 264 y una memoria tampón 266. Cada 20 ms, se obtienen muestras de voz de selección de ventana sw(n) y se bloquean en el registro 254. En la muestra sw(0), la primera muestra de una trama de análisis LPC, los registros de desplazamiento 258 y 264 se ponen a 0. En cada nueva muestra sw(n), el multiplexor 256 recibe una nueva señal de selección de muestra que permite la entrada de la muestra desde el registro 254. La nueva

15 muestra sw(n) se pasa también al multiplicador 260 donde se multiplica por la muestra sw(n-10), que es la última posición SR10 del registro de desplazamiento 258. El valor resultante se suma en el sumador 262 con el valor de la última posición CSR11 del registro de desplazamiento circular 264. Los registros de desplazamiento 258 y 260 son desplazados iterativamente una vez,

20 sustituyendo sw(n-1) por sw(n) en la primera posición SR1 del registro de desplazamiento 258 y sustituyendo el valor que previamente estaba presente en la posición CSR10. Tras el desplazamiento iterativo del registro de desplazamiento 258, la nueva señal de selección de muestra se retira de la entrada del multiplexor 256, permitiendo de ese modo que la muestra sw(n-9) que actualmente se halla en la posición SR10 del registro de desplazamiento 260 entre

25 en el multiplexor 256. En el registro de desplazamiento circular 264, el valor que se hallaba previamente en la posición CSR11 se desplaza hasta la primera posición CSR1. Una vez que la nueva señal de selección de muestra es retirada del multiplexor, el registro de desplazamiento 258 se prepara para proporcionar un desplazamiento circular de los datos del registro de desplazamiento como el del registro de desplazamiento circular 264.

Los registros de desplazamiento 258 y 264 se desplazan iterativamente 11 veces en total para cada muestra, efectuándose de ese modo 11 operaciones de multiplicación/acumulación. Una vez que se han introducido iterativamente 160 muestras, los resultados de autocorrelación, que están contenidos en el registro de desplazamiento circular

5 264, se transmiten iterativamente a la memoria tampón 266 como valores R(0)-R(10). Todos los registros de desplazamiento se ponen a cero, y el proceso se repite para la siguiente trama de muestras de voz enventanadas.

Con referencia de nuevo a la Figura 7a, cuando los coeficientes de autocorrelación para la trama de voz ya han sido calculados, el subsistema de determinación de velocidad 204 y el

10 subsistema de análisis LPC 206 utilizan estos datos para calcular, respectivamente, una velocidad de transmisión de datos de trama y los coeficientes LPC. Puesto que estas operaciones son independientes entre sí pueden calcularse en cualquier orden o incluso de forma simultánea. Con fines explicativos, la determinación de velocidad será descrita en primer lugar.

15 El subsistema de determinación de velocidad 204 tiene dos funciones: (1) determinar la velocidad de la trama actual, y (2) calcular un nuevo valor aproximado del nivel de ruido de fondo. La velocidad de la trama de análisis actual se determina inicialmente basándose en la energía de la trama actual, el cálculo aproximado anterior del nivel de ruido de fondo, la velocidad anterior y el mandato de velocidad del microprocesador de control. El nuevo nivel de

20 ruido de fondo se calcula utilizando el cálculo previo de nivel de ruido de fondo y la energía de trama actual. La presente invención utiliza una técnica de ajuste de umbral adaptativo para la determinación de la velocidad. Junto con el cambio de ruido de fondo se produce el cambio de umbrales que se utilizan para la selección de la velocidad. En la realización a modo de ejemplo

25 se calculan tres umbrales para determinar una selección de velocidad preliminar RTP. Los umbrales son las funciones cuadráticas del cálculo de ruido de fondo anterior, las cuales se muestran a continuación:

imagen3

siendo B el cálculo de ruido de fondo anterior.

La energía de la trama se compara con los tres umbrales T1(B), T2(B) y T3(B). Si la energía de la trama se halla por debajo de los tres umbrales, se selecciona la velocidad de transmisión más baja (de 1 Kbit/s), es decir, la velocidad 1/8, en la que RTP = 4. Si la energía de trama se halla por debajo de dos umbrales, se selecciona la segunda velocidad de transmisión (de 2 Kbit/s), es decir, la velocidad 1/4, en la que RTP = 3. Si la energía de trama se halla por debajo de un umbral sólo, se selecciona la tercera velocidad de transmisión (de 4 Kbit/s), es decir, la velocidad 1/2, en la que RTP = 2. Si la energía de la trama se halla por encima de los tres umbrales, se selecciona la velocidad de transmisión más alta (de 8 Kbit/s), es decir, la velocidad 1, en la que RTP = 1.

La velocidad preliminar RTP puede modificarse, entonces, basándose en la velocidad final de la trama anterior RTr. Si la velocidad preliminar RTP es inferior a la velocidad final de la trama anterior menos uno (RTr-1), se establece una velocidad intermedia RTm, siendo RTm= (RTr-1). Este procedimiento de modificación determina que la velocidad descienda lentamente al producirse una transición de una señal de alta energía a una señal de baja energía. No obstante, si la selección de velocidad inicial es mayor o igual a la velocidad anterior menos uno (RTr-1), la velocidad intermedia RTm se establece en el mismo valor que la velocidad preliminar RTP, es decir, RTm = RTP. En esta situación, la velocidad aumenta de inmediato, por lo tanto, cuando se produce una transición de una señal de baja energía a una señal de alta energía.

Por último, la velocidad intermedia RTm se modifica todavía más mediante mandatos de límite de velocidad de un microprocesador. Si la velocidad RTm es superior a la velocidad más alta permitida por el microprocesador, la velocidad inicial RT¡ se establece en el valor más alto posible. Del mismo modo, si la velocidad intermedia RTm es inferior a la velocidad más baja permitida por el microprocesador, la velocidad inicial RT¡ se establece en el valor más bajo permitido.

En ciertos casos, tal vez sea deseable codificar toda la voz a una velocidad determinada por el microprocesador. Los mandatos de límite de velocidad pueden utilizarse para establecer la velocidad de trama a la velocidad deseada, estableciendo las velocidades máxima y mínima permitidas en la velocidad deseada. Los mandatos de límite de velocidad pueden utilizarse en situaciones de control de velocidad especiales como, por ejemplo, el interbloqueo de velocidad, y la transmisión "atenuación-ráfaga", ambas descritas a continuación.

La Figura 9 proporciona un ejemplo de implementación del algoritmo de decisión de velocidad. Para iniciar el cálculo, el registro 270 se carga previamente con el valor 1 que se proporciona al sumador 272. Los registros de desplazamiento circulares 274, 276 y 278 se cargan respectivamente con el primer, el segundo y el tercer coeficiente de las ecuaciones cuadráticas de umbral (7)-(9). Por ejemplo, las posiciones última, intermedia y primera del registro de desplazamiento circular 274 se cargan respectivamente con el primer coeficiente de las ecuaciones con las cuales se calculan T1, T2 y T3. Del mismo modo, las posiciones última, intermedia y primera del registro de desplazamiento circular 276 se cargan respectivamente con el segundo coeficiente de las ecuaciones con las cuales se calculan T1, T2 y T3. Por último, las posiciones última, intermedia y primera del registro de desplazamiento circular 278 se cargan respectivamente con el término constante de las ecuaciones con las cuales se calculan T1, T2 y T3. En cada uno de los registros de desplazamiento circular 274, 276 y 278, el valor se obtiene desde la última posición.

Al calcular el primer umbral T1, el cálculo de ruido de fondo de la trama anterior B se eleva al cuadrado multiplicando el valor por sí mismo en el multiplicador 280. E! valor B2 resultante se multiplica por el primer coeficiente, -5,544613(10-6), que se obtiene desde la última posición del registro de desplazamiento circular 274. Este valor resultante se suma en el sumador 286 con el producto del ruido de fondo B y el segundo coeficiente, 4,047152, obtenido desde la última posición del registro de desplazamiento circular 276, del multiplicador 284. El valor de salida del sumador 286 se suma a continuación en el sumador 288 con el término constante, 363,1293, obtenido desde la última posición del registro de desplazamiento circular 278. La salida del sumador 288 es el valor calculado de T1.

El valor calculado de T1 obtenido del sumador 290 se resta en el sumador 288 del valor de energía de trama Ef que, en la realización a modo de ejemplo, es el valor R(0) del dominio lineal, proporcionado por el subsistema de autocorrelación.

En una implementación alternativa, la energía de trama Ef también puede representarse en el dominio logarítmico en dB, donde se calcula aproximadamente mediante el logaritmo del primer coeficiente de autocorrelación R(0) normalizado por la longitud efectiva de la ventana:

imagen1

siendo LA la longitud de la ventana de autocorrelación. También debe sobrentenderse que la actividad vocal puede medirse asimismo a partir de otros parámetros diversos, que incluyen la ganancia de predicción de tono o la ganancia de predicción de formantes Ga:

imagen1

siendo E(10) la energía del residuo de predicción tras la 10a iteración y E(0) la energía del residuo de predicción LPC inicial, descrita posteriormente con respecto al análisis LPC, que es igual a R(0).

A partir de la salida del sumador 290, el complemento del bit de signo de la diferencia en complemento a dos resultante es extraído por el comparador o el limitador 292 y proporcionado al sumador 272, donde se suma con la salida del registro 270. Por lo tanto, si la diferencia entre R(0) y T1 es positiva, el registro 270 se aumenta en uno. Si la diferencia es negativa, el registro 270 permanece igual.

Los registros circulares 274, 276 y 278 se desplazan iterativamente, obteniéndose en la salida de los mismos los coeficientes de la ecuación para T2, es decir, la ecuación (8). El proceso de calcular el valor umbral T2 y compararlo con la energía de la trama se repite como se ha descrito en relación con el proceso para el valor umbral T1. Los registros circulares 274, 276 y 278 vuelven a desplazarse iterativamente, obteniéndose los coeficientes de la ecuación para T3, es decir, la ecuación (9), a la salida de los mismos. El cálculo del valor umbral T3 y la comparación con la energía de trama ya han sido descritos anteriormente. Una vez realizados los tres cálculos y comparaciones de umbral, el registro 270 contendrá el cálculo de velocidad inicial RT¡. El cálculo de velocidad preliminar RTP es proporcionado a la lógica de descenso de velocidad 294. A la lógica 294 también se le proporciona la velocidad final de la trama anterior RTr desde el subsistema de cuantificacíón de frecuencias LSP que está almacenado en el registro 298. La lógica 296 calcula el valor (RTr-1) y, en la salida, proporciona el valor más alto entre el cálculo de velocidad preliminar RTP y el valor (RTr-1). El valor RTm se proporciona a la lógica del limitador de velocidad 296.

Como se ha mencionado anteriormente, el microprocesador proporciona mandatos de límite de velocidad al vocodificador, en particular, a la lógica 296. En una implementación de procesador de señales digitales, este mandato se recibe en la lógica 296 antes de que la parte de análisis LPC del proceso de codificación haya terminado. La lógica 296 asegura que la velocidad no sobrepase los límites de velocidad y modifica el valor RTm si rebasa los límites. Si el valor RTm se halla dentro del intervalo de velocidades permitidas, la lógica 296 lo proporciona como valor de velocidad inicial RTi. El valor de velocidad inicial RTi es pasado desde la lógica 296 hasta el subsistema de cuantificación LSP 210 de la Figura 7a.

El cálculo de ruido de fondo mencionado anteriormente se utiliza en el cálculo de los umbrales de velocidad adaptativos. Para la trama actual, el cálculo de ruido de fondo de trama anterior B se utiliza para establecer los umbrales de velocidad para la trama actual. No obstante, para cada trama, el cálculo de! ruido de fondo se actualiza para su utilización en la determinación de los umbrales de velocidad para la siguiente trama. El nuevo cálculo de ruido de fondo B' se determina en la trama actual basándose en el cálculo de ruido de fondo de trama anterior B y la energía de la trama actual Ef.

Cuando se determina el nuevo cálculo de ruido de fondo B' para su utilización durante la siguiente trama (como el cálculo de ruido de fondo de trama anterior B) se calculan dos valores. El primer valor V1 es simplemente la energía de la trama actual Ef. El segundo valor V2 es el mayor de B+1 y KB, siendo K = 1,00547. Para impedir que el segundo valor aumente demasiado, éste es obligado a permanecer por debajo de una constante alta M = 160.000. Se elige el menor de los dos valores V1 y V2 como el nuevo cálculo de ruido de fondo B'.

Matemáticamente,

imagen1

y el nuevo cálculo de ruido de fondo B' es:

imagen1

siendo mín(x, y) el mínimo de x e y, y max(x, y) el máximo de x e y.

La Figura 9 muestra además un ejemplo de implementación del algoritmo de cálculo de ruido de fondo. El primer valor V1, es simplemente la energía de trama actual Ef proporcionada directamente a una entrada del multiplexor 300.

El segundo valor V2 se calcula a partir de los valores KB y B+1, que se calculan en primer lugar. Cuando se calculan los valores KB y B+1, el cálculo de ruido de fondo de trama anterior B almacenado en el registro 302 se pasa al sumador 304 y al multiplicador 306. Debe observarse que el cálculo de ruido de fondo de trama anterior B almacenado en el registro 302 para su utilización en la trama actual es igual al nuevo cálculo de ruido de fondo B' efectuado en la trama anterior. Al sumador 304 también se le proporciona un valor de entrada de 1 a sumar con el valor B para generar el término B+1. Al multiplicador 304 también se le proporciona un valor de entrada K a multiplicar con el valor B para generar el término KB. Los términos B+1 y KB se pasan respectivamente desde el sumador 304 y el multiplicador 306 hasta entradas independientes del multiplexor 308 y el sumador 310.

El sumador 310 y el comparador o limitador 312 se utilizan para seleccionar el mayor de los términos B+1 y KB. El sumador 310 resta el término B+1 de KB y proporciona el valor resultante al comparador o limitador 312. El limitador 312 proporciona una señal de control al multiplexor 308 para seleccionar como salida el mayor de los términos B+1 y KB. El término B+1 o KB seleccionado pasa desde el multiplexor 308 hasta el limitador 314, que es un limitador de tipo de saturación, que proporciona el término seleccionado si éste es inferior al valor

5 constante M, o el valor M si éste es superior al valor M. La salida del limitador 314 es proporcionada como segunda entrada al multiplexor 300 y como entrada al sumador 316.

Asimismo, el sumador 316 recibe en otra entrada el valor de energía de trama Ef. El sumador 316 y el comparador o limitador 318 se utilizan para seleccionar el menor valor entre el valor Ef y el término proporcionado por el limitador 314. El sumador 316 resta el valor de

10 energía de trama del valor proporcionado por el limitador 314 y pasa el valor resultante al comparador o limitador 318. El limitador 318 proporciona una señal de control al multiplexor 300 para seleccionar el menor entre el valor Ef y la salida del limitador 314. El valor seleccionado proporcionado por el multiplexor 300 se pasa como nuevo cálculo de ruido de fondo B' al registro 302 donde se almacena para su utilización durante la siguiente trama como cálculo de ruido de

15 fondo de trama anterior B. En relación nuevamente con la Figura 7, cada uno de los coeficientes de autocorrelación R(0)-R(10) pasa del subsistema de autocorrelación 202 al subsistema de análisis LPC 206. Los coeficientes LPC se calculan en el subsistema de análisis LPC 206, en el filtro de ponderación perceptiva 52 y en el filtro de síntesis de formantes 60.

20 Los coeficientes LPC pueden obtenerse mediante el procedimiento de autocorrelación utilizando la recursión de Durbin como se indica en el documento Digital Processing of Speech Signals (Tratamiento digital de señales de voz), de Rabiner y Schafer, Prentice-Hall, Inc., 1978. Esta técnica es un procedimiento de cálculo eficaz para obtener los coeficientes LPC. El algoritmo puede expresarse mediante las siguientes ecuaciones:

imagen4

imagen5

Los diez coeficientes LPC se designan mediante las etiquetas αj(10), para 1 < j < 10.

10 Antes de codificar los coeficientes LPC, debe asegurarse la estabilidad del filtro. La estabilidad del filtro se consigue escalando radialmente los polos del filtro hacia dentro por una pequeña cantidad, reduciéndose de este modo la magnitud de las respuestas de frecuencia de cresta y ampliándose al mismo tiempo el ancho de banda de las crestas. Esta técnica se denomina comúnmente ampliación de ancho de banda y se describe en mayor detalle en el

15 artículo "Spectral Smoothing in PARCOR Speech Analysís-Synthesis" ("Suavizado espectral en el análisis por síntesis de voz Parcor") de Tohkura et al., ASSP Transactions, diciembre de 1978. En el presente caso, la ampliación de ancho de banda puede llevarse a cabo de forma eficaz escalando cada coeficiente LPC. Por consiguiente, como se expone en la Tabla III, cada uno de los coeficientes LPC resultantes se multiplica por un correspondiente valor hexadecimal

20 para dar los coeficientes LPC de salida definitivos α1 -α10 del subsistema de análisis LPC 206. Debe observarse que los valores presentados en la Tabla III son hexadecimales y que los 15 bits fraccionarios se proporcionan en notación de complemento dos. De esta forma, el valor 0x8000 representa -1,0 y el valor 0x7333 (o 29491) representa 0,899994 = 29491/32768.

25 TABLA III

α1 = α1 (10) • 0x7333 α 2 = α 2 (10) • 0x67ae α 3 = α 3 (10) • 0x5d4f α 4 = α 4 (10) • 0x53fb α 5 = α 5 (10) • 0x4b95 α 6 = α 6 (10) • 0x4406 α 7 = α 7 (10) • 0x3d38 α 8 = α 8 (10) • 0x3719 α 9 = α 9 (10) • 0x3196

5

10

15

20

25

30 28

α = α (10) •0x2ca1

10 10

Las operaciones se llevan a cabo preferentemente con doble precisión, es decir, con divisiones, multiplicaciones y sumas de 32 bits. Se prefiere la exactitud de la doble precisión para mantener el rango dinámico de las funciones de autocorrelación y los coeficientes de filtro.

En la Figura 10, se muestra un diagrama de bloques de un ejemplo de forma de realización del subsistema LPC 206, que implementa las ecuaciones (15)-(20) anteriores. El subsistema LPC 206 consiste en tres partes de circuito, un circuito de cálculo principal 330 y dos circuitos de actualización de memoria tampón 332 y 334 que se utilizan para actualizar los registros del circuito de cálculo principal 330. El calculo empieza cargando en primer lugar los valores R(1)-R(10) en la memoria tampón 340. Para empezar el cálculo, el registro 348 se carga previamente con el valor R(1) por medio del multiplexor 344. El registro se inicializa con

( i −1)

R(0) por medio del multiplexor 350, la memoria tampón 352 (que contiene 10 α j valores) se inicializa con sólo ceros por medio del multiplexor 354, la memoria tampón 356 (que contiene

( i )

α j valores) se inicializa con todo ceros por medio del multiplexor 358, e i se establece en 1 para el ciclo de cálculo. Para mayor claridad, los contadores para i y j y otros controles de ciclo de cálculo no se muestran, ya que las personas expertas en la materia de diseño de lógica digital están muy capacitadas para llevar a cabo el diseño y la integración de este tipo de circuitos de lógica.

El valor αj (i-l) se obtiene de la memoria tampón 356 para calcular el término ki E(i-1) indicado en la ecuación (14). Cada valor R(i-j) se obtiene de la memoria tampón 340 para su multiplicación con el valor αj (i-l) en el multiplicador 360. Cada valor resultante se resta en el sumador 362 del valor del registro 346. El resultado de cada resta se almacena en el registro 346 desde donde se resta el siguiente término. Existen i-1 multiplicaciones y acumulaciones en el iésimo ciclo, como se indica en el término de suma de la ecuación (14). Al final de este ciclo, el valor del registro 346 se divide en el divisor 264 por el valor E(i-1) del registro 348 para proporcionar el valor ki.

El valor ki se utiliza a continuación en el circuito de actualización de la memoria tampón 332 para calcular el valor E(i) como en la ecuación (19) anterior, que se utiliza como valor E(i-1) durante el siguiente ciclo de cálculo de ki. El valor del ciclo actual ki se multiplica por sí mismo en el multiplicador 366 para obtener el valor ki2. El valor ki2 se resta a continuación del valor de 1 en el sumador 368. El resultado de esta suma se multiplica en el multiplicador 370 con el valor E(i) del registro 348. El valor resultante E(i) se introduce en el registro 348 por medio del multiplexor 350 para su almacenamiento como valor E(i-1) para el siguiente ciclo.

( i )

A continuación, el valor ki se utiliza para calcular el valor α i como en la ecuación (15). En este caso, el valor ki se introduce en la memoria tampón 356 por medio del multiplexor 358. Asimismo, el valor ki se utiliza en el circuito de actualización de memoria tampón 334 para calcular los valores αj (i-l) a partir de los valores αj (i-l) como en la ecuación (18). Los valores almacenados actualmente en la memoria tampón 352 se utilizan para calcular los valores αj (i) . Como se indica en la ecuación (18), existen i-1 cálculos en el ciclo i-ésimo. En la iteración i = 1, no se requieren dichos cálculos. Para cada valor de j del ciclo i-ésimo, se calcula un valor de αj (i) .

( i )( i −1)

Al calcular cada valor de α , cada valor de α se multiplica en el multiplicador 372 con el

ji − j

( i −1)

valor ki para pasarlo al sumador 374. En el sumador 374, el valor ki αi-j se resta del valor α j que también se introduce en el sumador 374. El resultado de cada multiplicación y suma se proporciona como valor de αj (i) a la memoria tampón 356 por medio del multiplexor 358.

( i ) (i)

Una vez que se han calculado los valores α i y αj para el ciclo actual, los valores recién calculados y almacenados en la memoria tampón 356 se pasan a la memoria tampón 352 por medio del multiplexor 354. Los valores almacenados en la memoria tampón 356 se almacenan en las correspondientes posiciones de la memoria tampón 352. De este modo, la memoria tampón 352 se actualiza para el cálculo del valor ki del ciclo i+1.

Es importante observar que los datos αj (i-l) generados al final del un ciclo anterior se utilizan durante el ciclo actual para generar actualizaciones αj (i) para el siguiente ciclo. Los datos del ciclo anterior deben conservarse para generar por completo datos actualizados para el siguiente ciclo. De esta manera, las dos memorias tampón 356 y 352 se utilizan para conservar estos datos de ciclo anterior hasta que se han generado por completo los datos actualizados.

La anterior descripción hace referencia a una transferencia paralela de datos desde la memoria tampón 356 hasta la memoria tampón 352 hasta finalizar el cálculo de los valores actualizados. Esta implementación asegura que los datos antiguos se conserven durante todo el proceso de cálculo de los nuevos datos, sin pérdida de datos antiguos hasta que no han sido totalmente utilizados, como ocurre en una disposición de una sola memoria tampón. La implementación descrita es una de las diversas implementaciones disponibles que logran el mismo resultado. Por ejemplo, las memorias tampón 352 y 356 pueden multiplexarse de tal forma que, tras calcular el valor ki para un ciclo actual a partir de los valores almacenados en una primera memoria tampón, las actualizaciones se almacenan en la segunda memoria tampón para su utilización durante el siguiente ciclo de cálculo. En este siguiente ciclo, el valor ki se calcula a partir de los valores almacenados en la segunda memoria tampón. Los valores de la segunda memoria tampón y el valor ki se utilizan para generar actualizaciones para el siguiente ciclo, siendo estas actualizaciones almacenadas en la primera memoria tampón. Esta alternancia de memorias tampón permite la retención de los valores del ciclo de cálculo en curso, a partir de los cuales se generan las actualizaciones, y al mismo tiempo, el almacenamiento de los valores de actualización sin sobrescribir los valores en curso que son necesarios para generar las actualizaciones. Utilizando esta técnica, puede reducirse al mínimo el retardo asociado al cálculo del valor ki para el siguiente ciclo. Por consiguiente, las actualizaciones para las multiplicaciones/acumulaciones del cálculo de ki pueden llevarse a cabo al mismo tiempo que se

(i-l)

calcula el siguiente valor de αj.

Los diez coeficientes LPC αj (10) , almacenados en la memoria tampón 356 tras la finalización del último ciclo de cálculo (i = 10), se escalan para llegar a los correspondientes coeficientes LPC αj finales. La conversión a escala se lleva a cabo proporcionando una señal de selección de escala a los multiplexores 344, 376 y 378 para que los valores de escala almacenados en la tabla de consulta 342, los valores hexadecimales de la Tabla III, se seleccionen para ser proporcionados a través del multiplexor 344. Los valores almacenados en la tabla de consulta 342 se extraen de forma iterativa en secuencia y se introducen en el multiplicador 360. Asimismo, el multiplicador 360 recibe por medio del multiplexor 376 los αj (10) valores obtenidos de forma secuencial del registro 356. Los valores escalados se proporcionan desde el multiplicador 360 por medio del multiplexor 378 como salida al subsistema de transformación LPC-LSP 208 (Figura 7).

Para codificar con eficacia cada uno de los diez coeficientes LPC escalados en un número reducido de bits, los coeficientes se transforman en frecuencias de pares de líneas espectrales como se describe en el artículo "Line Spectrum Pair (LSP) and Speech Data Compression" ("Par de líneas espectrales (LSP) y compresión de datos de voz"), de Soong y Juang, ICASSP '84. A continuación, se muestra el cálculo de los parámetros LSP en las ecuaciones (21) y (22) junto con la Tabla IV.

Las frecuencias LSP son las diez raíces existentes entre 0 yπ de las siguientes ecuaciones:

imagen1

en las que los valores pn y qn para n = 1, 2, 3, 4 y 5 se definen de forma recursiva en la Tabla IV.

5

10

15

20

25

30 31

TABLA IV

p1 =-( α + α )-1 q1=-( α -α )+1

1 10 110

p2 =-( α + α )-p1 q2=-( α -α ) +q1

29 29 p3 =-( α 3 + α 8 )-p2 q3=-( α 3 -α 8 ) +q2 p4 =-( α + α )-p3 q4=-( α -α ) +q3

47 47

p5 =-( α + α )-p4 q5=-( α -α ) +q4

56 56

En la Tabla IV, los valores α1 ,…, α10 son los coeficientes escalados resultantes del análisis LPC. Para simplificar, las diez raíces de las ecuaciones (21) y (22) se escalan por un valor entre 0 y 0,5. Una propiedad de las frecuencias LSP es que, si el filtro LPC es estable, las raíces de las dos funciones se alternan; es decir, la raíz más baja, ω1, es la raíz mas baja de P(ω), la siguiente raíz más baja, ω2, es la raíz más baja de Q(ω) y así sucesivamente. De las diez frecuencias, las frecuencias impares son las raíces de P(ω) y las frecuencias pares son las raíces de Q(ω).

La búsqueda de raíces se lleva a cabo como se describe a continuación En primer lugar, se calculan los coeficientes p y q con doble precisión sumando los coeficientes LPC como se ha mostrado anteriormente. A continuación, cada π /256 radianes se efectúa la evaluación de P(ω) y estos valores se evalúan después para comprobar cambios de signo que indican una raíz en dicha subzona. Si se halla una raíz, entonces se efectúa una interpolación lineal entre los dos límites de esta zona para calcular aproximadamente la ubicación de la raíz. La existencia de una raíz Q está garantizada entre cada par de raíces P (la quinta raíz Q se haya entre la quinta raíz Py π ), debido a la propiedad de ordenación de las frecuencias. Se lleva a cabo una búsqueda binaria entre cada par de raíces P para determinar la ubicación de las raíces Q. Para facilitar la implementación cada raíz P se calcula aproximadamente mediante el valor π /256 más cercano y la búsqueda binaria se efectúa entre estos cálculos aproximados. Si no se encuentra ninguna raíz, se utilizan los valores no cuantificados anteriores de las frecuencias LSP de la última trama en la que se hallaron las raíces.

En la Figura 11, se ilustra un ejemplo de implementación de los circuitos utilizados para generar las frecuencias LSP. La operación descrita anteriormente requiere un total de 257 posibles valores de coseno entre 0 y π , que se almacenan con doble precisión en una tabla de consulta, la tabla de consulta de cosenos 400, a la que accede el contador 402 de modulo 256. Para cada valor de j introducido en la tabla de consulta 400 se proporciona una salida de cos ω, cos 2ω, cos 3ω, cos 4ω y cos 5ω, donde:

imagen1

siendo j un valor del contador.

Los valores cos ω, cos 2ω, cos 3ω, cos 4ω obtenidos de la tabla de consulta 400 se introducen en un respectivo multiplicador 404, 406, 408 y 410, mientras que el valor de cos 5ω se introduce directamente en el sumador 412. Estos valores se multiplican en un respectivo multiplicador 404, 406, 408 y 410 con un respectivo valor de los valores p4, p3, p2 y p1 introducido en el mismo por medio de los multiplexores 414, 416, 418 y 420. Los valores resultantes de esta multiplicación también se introducen en el sumador 412. Además, el valor p5 se proporciona a través del multiplexor 422 al multiplicador 424, siendo el valor constante 0,5, es decir, 1/2, proporcionado también al multiplicador 424. El valor resultante obtenido del multiplicador 424 es proporcionado como otra entrada al sumador 412. Los multiplexores 414422 seleccionan entre los valores p1-p5 o q1-q5, en respuesta a una señal de selección de coeficientes p/q, para utilizar los mismos circuitos para calcular tanto los valores P(ω) como los valores Q(ω). Los circuitos para generar los valores p1-p5 o q1-q5 no se muestran, pero se implementan fácilmente utilizando una serie de sumadores para sumar y restar los coeficientes LPC y los valores p1-p5 o q1-q5, junto con registros para almacenar los valores p1-p5 o q1-q5.

El sumador 412 suma los valores de entrada para proporcionar el valor de salida P(ω)o Q(ω) según el caso. Para facilitar la descripción, se considerará el caso de los valores de P(ω), siendo calculados los valores de Q(ω) de forma parecida utilizando los valores q1-q5. El valor actual de P(ω) se obtiene del sumador 412 y se almacena en el registro 426. El valor precedente de P(ω), almacenado previamente en el registro 426, se desplaza hasta el registro 428. Los bits de signo de los valores actual y anterior de P(ω) se someten a O exclusiva en la puerta O exclusiva 430 para dar una indicación de cruce por cero o de cambio de signo, en forma de una señal de habilitación que se envía al interpolador lineal 434. El valor actual y anterior de P(ω) también se pasan de los registros 426 y 428 al interpolador lineal 434, que es sensible a la señal de habilitación, para interpolar el punto entre los dos valores de P(ω) en el que se produce el cruce por cero. Este resultado de valor fraccionario de interpolación lineal, es decir, la distancia desde el valor j-1, se proporciona a la memoria tampón 436 junto con el valor j del contador 256. La puerta 430 también proporciona la señal de habilitación a la memoria tampón 436 que permite el almacenamiento del valor j y del correspondiente valor fraccionario FVj.

El valor fraccionario se resta del valor j cuando se introduce en el sumador 438 desde la memoria tampón 436 o, como alternativa, puede restarse del mismo cuando se introduce en la memoria tampón 436. Por otro lado, puede utilizarse un registro de la línea j introducido en la memoria tampón 436 para que el valor j-1 se introduzca en la memoria tampón 436, siendo introducido el valor fraccionario también en la misma. El valor fraccionario puede sumarse al valor j-1 ya sea antes del almacenamiento en el registro 436 o bien tras la salida del mismo. En cualquier caso, el valor combinado de j + FVj o (j-1) + FVj se pasa al divisor 440 donde se divide

5 por el valor constante de entrada de 512. La operación de división puede efectuarse simplemente cambiando la ubicación binaria del punto en la palabra binaria representativa. Esta operación de división proporciona la conversión a escala necesaria para llegar a una frecuencia LSP entre 0 y 0,5.

Cada evaluación de función de P(ω) o Q(ω) requiere 5 consultas de coseno, 4

10 multiplicaciones con doble precisión y 4 sumas. Las raíces calculadas habitualmente sólo tienen una precisión de alrededor de 13 bits, y se almacenan con precisión simple. Las frecuencias LSP se proporcionan al subsistema de cuantificación LSP 210 (Figura 7) para la cuantificación.

Una vez que se han calculado las frecuencias LSP, éstas deben cuantificarse para la transmisión. Cada una de las diez frecuencias LSP se centra aproximadamente en torno a un 15 valor de descentramiento. Debe observarse que las frecuencias LSP se aproximan a los valores de descentramiento cuando la voz de entrada tiene características espectrales uniformes y no puede llevarse a cabo la predicción a corto plazo. Los descentramientos se restan en el codificador, y se utiliza un cuantificador DPCM simple. En el decodificador, se vuelve a sumar el descentramiento. En la tabla V se exponen los valores negativos hexadecimales del valor de

20 descentramiento, para cada frecuencia LSP, ω1-ω10, proporcionados por el subsistema de transformación LPC-LSP. Nuevamente, los valores dados en la Tabla V se hallan en notación de complemento dos con 15 bits fraccionarios. El valor hexadecimal 0x8000 (o -32768) representa -1,0. Por lo tanto, el primer valor de la Tabla V, el valor 0xfa2f (o -1489) representa 0,045441 = -1489/32768.

25

TABLA V

Frecuencia LSP: Valor de descentramiento negativo

ω1: 0xfa2f

ω2: 0xf45e

ω3: 0xee8c

ω4: 0xe8bb

ω5: 0xe2e9

ω6: 0xdd18

ω7: 0xd746

ω8: 0xd175

ω9: 0xcba3

ω10: 0xc5d2

EL predictor utilizado en el subsistema es 0,9 veces la frecuencia LSP cuantificada de la anterior trama almacenada en una memoria tampón del subsistema. Esta constante de disminución de 0,9 se inserta para que los errores de canal desaparezcan finalmente.

5 Los cuantificadores utilizados son lineales, pero varían en gama dinámica y tamaño de paso con la velocidad. Asimismo, en tramas de alta velocidad, se transmiten más bits para cada frecuencia LSP y, por consiguiente, el número de niveles de cuantificación depende de la velocidad. En la Tabla VI se muestra la asignación de bits y la gama dinámica de la cuantificación para cada frecuencia a cada una de las velocidades. Por ejemplo, a la velocidad

10 1, ω1 se cuantifica uniformemente utilizando 4 bits (es decir, en 16 niveles) siendo el nivel de cuantificación más alto 0,025 y el más bajo, -0,025.

TABLA VI

VELOCIDAD: Completa Media Cuarto Octavo

ω1: 4: ±.0,025 2: ±.0,015 1: ±.0,01 1: ±.0,01

ω2: 4: ±.0,04 2: ±.0,015 1: ±.0,01 1: ±.0,015

ω3: 4: ±.0,07 2: ±.0,03 1: ±.0,01 1: ±.0,015

ω4: 4: ±.0,07 2: ±.0,03 1: ±.0,01 1: ±.0,015

ω5: 4: ±.0,06 2: ±.0,03 1: ±.0,01 1: ±.0,015

ω6: 4: ±.0,06 2: ±.0,02 1: ±.0,01 1: ±.0,015

ω7: 4: ±.0,05 2: ±.0,02 1: ±.0,01 1: ±.0,01

ω8: 4: ±.0,05 2: ±.0,02 1: ±.0,01 1: ±.0,01

ω9: 4: ±.0,04 2: ±.0,02 1: ±.0,01 1: ±.0,01

ω10: 4: ±.0,04 2: ±.0,02 1: ±.0,01 1: ±.0,01

Total: 40 bits 20 bits 10 bits 10 bits

15

Si los intervalos de cuantificación para la velocidad elegida por el algoritmo de decisión de velocidad no son suficientemente amplios o se produce un desbordamiento de pendiente, la velocidad se sube hasta la siguiente velocidad más alta. La velocidad continúa subiendo hasta 20 que da cabida a la gama dinámica o se alcanza la velocidad completa. En la Figura 12 se proporciona un ejemplo de ilustración de diagrama de bloques de una implementación de la

técnica de ascenso de velocidad opcional.

La Figura 12 es un diagrama de bloques que ilustra un ejemplo de implementación del subsistema de cuantificación LSP 210 que incluye los circuitos de ascenso de velocidad. En la Figura 12, las frecuencias LSP de la trama actual se pasan del divisor 440 (Figura 11) al registro 442, en el que se almacenan para ser proporcionadas durante una determinación de ascenso de velocidad en la siguiente trama. Las frecuencias LSP de la trama anterior y las frecuencias LSP de la trama actual son pasadas respectivamente del registro 440 y el divisor 440 a una lógica de ascenso de velocidad 442 para una determinación de ascenso de velocidad de la trama actual. La lógica de ascenso de velocidad 442 también recibe la decisión de velocidad inicial, junto con los mandatos de límite de velocidad desde el subsistema de determinación de velocidad 204. Para determinar si es necesario llevar a cabo un aumento de velocidad, la lógica 442 compara las frecuencias LSP de la trama anterior con las frecuencias LSP de la trama actual, basándose en la suma del cuadrado de la diferencia entre las frecuencias LSP de la trama actual y la trama anterior. El valor resultante se compara a continuación con un valor umbral que, si se sobrepasa, indica que es necesario un aumento de velocidad para asegurar la codificación de alta calidad de la voz. Cuando se sobrepasa el valor umbral, la lógica 442 aumenta la velocidad inicial en un nivel de velocidad para proporcionar una salida de la velocidad final a utilizar siempre en el codificador.

En la Figura 12, los valores de frecuencia LSP ω1-ω10 se introducen de uno en uno en el sumador 450 junto con el correspondiente valor de descentramiento. El valor de descentramiento se resta del valor LSP introducido y el resultado se pasa al sumador 452. El sumador 452 también recibe como entrada un valor del predictor, un valor LSP correspondiente a la trama anterior multiplicado por una constante de disminución. El valor de predictor es restado de la salida del sumador 450 por el sumador 452. La salida del sumador 452 se proporciona como entrada al cuantificador 454.

El cuantificador 454 consiste en el limitador 456, la tabla de consulta de gama dinámica mínima 458, la tabla de consulta de tamaño de paso inverso 460, el sumador 462, el multiplicador 464 y la máscara de bits 466. La cuantificación se lleva a cabo en el cuantificador 454, determinando en primer lugar si el valor de entrada se halla dentro de la gama dinámica del cuantificador 454. El valor de entrada se proporciona al limitador 456 que limita el valor de entrada a los límites superior e inferior de la gama dinámica si la entrada sobrepasa los límites proporcionados por la tabla de consulta 458. La tabla de consulta 458 proporciona los límites almacenados, según la Tabla VI, al limitador 456 en respuesta a la entrada de velocidad y al índice de frecuencia LSP i introducidos en el mismo. El valor obtenido del limitador 456 se introduce en el sumador 462 donde se resta del mínimo de la gama dinámica, proporcionado por la tabla de consulta 458. El valor obtenido de la tabla de consulta 458 se determina nuevamente mediante la velocidad y el índice de frecuencia LSP i, según los valores de gama dinámica mínima (prescindiendo del signo de los mismos) expuestos en la Tabla VI. Por ejemplo, el valor de la tabla de consulta 458 para (velocidad completa, ω1) es 0,025.

A continuación, la salida del sumador 462 se multiplica en el multiplicador 464 por un valor seleccionado en la tabla de consulta 460. La tabla de consulta 460 contiene valores correspondientes al inverso del tamaño de paso para cada valor LSP de cada velocidad, según los valores expuestos en la Tabla VI. El valor obtenido de la tabla de consulta 460 se selecciona mediante la velocidad y el índice de frecuencia LSP i. Para cada velocidad e índice de frecuencia LSP i, el valor almacenado en la tabla de consulta 460 es la cantidad ((2n-1)/gama dinámica), siendo n el número de bits que representan el valor cuantificado. Además, por ejemplo, el valor de la tabla de consulta 460 para (velocidad 1, ω1) es (15/0,05) ó 300.

La salida del multiplicador 464 es un valor entre 0 y 2n-1 que se proporciona a la máscara de bits 466. La máscara de bits 466, en respuesta a la velocidad y al índice de frecuencia LSP, extrae del valor de entrada el número adecuado de bits según la Tabla VI. Los bits extraídos son los n bits de valor entero del valor de entrada para proporcionar una salida de bits limitada �ωi. Los valores �ωi son las frecuencias LSP cuantificadas centradas de codificación diferencial que se transmiten a través del canal representativo de los coeficientes LPC.

El valor �ωi también se aplica como retroalimentación a través de un predictor que comprende en el cuantificador inverso 468, el sumador 470, la memoria tampón 472 y el multiplicador 474. El cuantificador inverso 468 consiste en la tabla de consulta de tamaño de paso 476, la tabla de consulta de gama dinámica mínima 478, el multiplicador 480 y el sumador

482.

El valor �ωi se introduce en el multiplicador 480 junto con un valor seleccionado en la tabla de consulta 476. La tabla de consulta 476 contiene los valores correspondientes al tamaño de paso de cada valor LSP para cada una de las velocidades, según los valores expuestos en la Tabla VI. El valor obtenido de la tabla de consulta 476 se selecciona mediante la velocidad y el índice de frecuencia LSP i. Para cada velocidad e índice de frecuencia LSP i, el valor almacenado en la tabla de consulta 460 es la cantidad (gama dinámica/2n-1), siendo n el número de bits que representan el valor cuantificado. El multiplicador 480 multiplica los valores de entrada y proporciona una salida al sumador 482.

El sumador 482 recibe como otra entrada un valor de la tabla de consulta 478. El valor obtenido de la tabla de consulta 478 es determinado mediante la velocidad y el índice de frecuencia LSP i, según los valores de gama dinámica mínima (prescindiendo del signo de los mismos) expuestos en la Tabla VI. El sumador 482 suma el valor de gama dinámica mínima proporcionado por la tabla de consulta 478 con el valor obtenido del multiplicador 480, pasándose el valor resultante al sumador 470.

El sumador 470 recibe como otra entrada el valor de predictor obtenido del multiplicador

474. Estos valores se suman en el sumador 470 y se almacenan en la memoria tampón de almacenamiento de diez palabras 472. Cada valor de trama anterior obtenido de la memoria tampón 472 durante la trama actual se multiplica en el multiplicador 474 por la constante 0,9. Los valores de predictor obtenidos del multiplicador 474 se proporcionan a los sumadores 452 y 470 como se ha descrito anteriormente.

En la trama actual, el valor almacenado en la memoria tampón 472 es el valor LSP reconstruido de la trama anterior menos el valor de descentramiento. Del mismo modo, en la trama actual, el valor obtenido del sumador 470 es el valor LSP reconstruido de la trama actual al que también se ha sustraído el descentramiento. En la trama actual, las salidas de la memoria tampón 472 y del sumador 470 se proporcionan, respectivamente, a los sumadores 484 y 486, en los que el descentramiento se suma a los valores. Los valores obtenidos de los sumadores 484 y 486 son, respectivamente, los valores de frecuencia LSP reconstruidos de la trama anterior y los valores de frecuencia LSP reconstruidos de la trama actual. El suavizado LSP se lleva a cabo en las velocidades más bajas según la ecuación:

imagen1

siendo a = 0 para velocidad completa; a = 0,1 para media velocidad; a = 0,5 para cuarto de velocidad; y a = 0,85 para octavo de velocidad.

Los valores ω’i,f-1 de frecuencia LSP reconstruidos de la trama anterior (f-1) y los valores ω’i,f de frecuencia LSP reconstruidos de la trama actual (f) se obtienen del subsistema de cuantificación 210 y se pasan al subsistema de interpolación LSP de subtramas de tono 216 y al subsistema de interpolación LSP de subtramas de libro de código 226. Los valores cuantificados de frecuencia LSP �ωi se pasan del subsistema de cuantificación LSP 210 al subsistema ensamblador de datos 236 para la transmisión.

Los coeficientes LPC utilizados en el filtro de ponderación y el filtro de síntesis de formantes descritos a continuación son adecuados para la subtrama de tono que se está codificando. Para las subtramas de tono, la interpolación de los coeficientes LPC se efectúa una vez para cada subtrama de tono tal como se indica en la Tabla VIl:

TABLA VII Velocidad 1:

para subtrama de tono 1 ωi = 0.75ω’i,f-1 + 0.25ω’i,f para subtrama de tono 2 ωi = 0.5ω’i,f-1 + 0.5ω’i,f para subtrama de tono 3 ωi = 0.25ω’i,f-1 + 0.75ω’i,f para subtrama de tono 4

ωi= ω’i,f

Velocidad 1/2:

ωi = 0.625ω’i,f-1 + 0.375ω’i,f para subtrama de tono 1 ωi = 0.125ω’i,f-1 + 0.875ω’i,f para subtrama de tono 2

Velocidad 1/4:

ωi = 0.625ω’i,f-1 + 0.375ω’i,f para subtrama de tono 1

Velocidad 1/8:

No se efectúa búsqueda del tono.

El contador de subtramas de tono 224 se utiliza para mantener un registro de las

5 subtramas de tono para las que se calculan los parámetros de tono, siendo la salida del contador proporcionada al subsistema de interpolación LSP de subtramas de tono 216 para su utilización en la interpolación LSP de subtramas de tono. El contador de subtramas de tono 224 también proporciona una salida que indica la finalización de la subtrama de tono para la velocidad seleccionada al subsistema de empaquetamiento de datos 236.

10 La Figura 13 ilustra un ejemplo de implementación del subsistema de interpolación LSP de subtramas de tono 216 para interpolar las frecuencias LSP para la subtrama de tono pertinente. En la Figura 13, las frecuencias LSP anteriores y actuales ω’i,f-1 y ω’i,f se pasan, respectivamente, desde el subsistema de cuantificación LSP a los multiplicadores 500 y 502 donde se multiplican, respectivamente, por una constante proporcionada por la memoria 504.

15 La memoria 504 almacena un grupo de valores constantes y, de conformidad con una entrada del número de subtramas de tono de un contador de subtramas de tono, que se describirá más adelante, proporciona una salida de constantes como las expuestas en la Tabla VII para su multiplicación con los valores LSP de trama anterior y actual. Las salidas de los multiplicadores 500 y 502 se suman, en el sumador 506, para proporcionar los valores de frecuencia LSP para

20 la subtrama de tono según las ecuaciones de la Tabla VIl. Para cada subtrama de tono, una vez que se ha llevado a cabo la interpolación de las frecuencias LSP, se efectúa una transformación LSP-LPC inversa para obtener los coeficientes actuales de A(z) y el filtro de ponderación perceptiva. Los valores de frecuencia LSP interpolados se proporcionan, por lo tanto, al subsistema de transformación LSP-LPC 218 de la Figura 7.

25 El subsistema de transformación LSP-LPC 218 convierte las frecuencias LSP interpoladas nuevamente en coeficientes LPC para su utilización en la resíntesis de voz. Otra vez, el artículo de referencia mencionado anteriormente "Line Spectrum Pair (LSP) and Speech Data Compression" (Par de líneas espectrales (LSP) y compresión de datos de voz), de Soong y Juang describe detalladamente el algoritmo implementado en la presente invención en el proceso de transformación e indica cómo puede deducirse. Los aspectos de cálculo permiten expresar P(z) y Q(z) en términos de las frecuencias LSP mediante las ecuaciones:

imagen1

siendo wi las raíces del polinomio P' (frecuencias impares), y

imagen1

siendo wi las raíces del polinomio Q' (frecuencias pares), y

imagen1

El cálculo se lleva a cabo calculando en primer lugar los valores 2cos(ωi) para todas las frecuencias impares i. Este cálculo se realiza utilizando una expansión en serie de Taylor de quinto orden del coseno alrededor de cero (0) con precisión simple. Una expansión de Taylor alrededor del punto más cercano de la tabla de cosenos podría ser en potencia más precisa, pero la expansión alrededor de 0 consigue una precisión suficiente y no conlleva una cantidad excesiva de cálculos.

Seguidamente, se calculan los coeficientes del polinomio P. Los coeficientes de un producto de polinomios es la convolución de las secuencias de coeficientes de los polinomios individuales. A continuación, se calcula la convolución de las 6 secuencias de z coeficientes de polinomio de la ecuación (25) anterior, {1, -2cos(ω1), 1}, {1, -2cos(ω3), 1}... {1,-2cos(ω9), 1} y {1,1}.

Una vez calculado el polinomio P, se repite el mismo procedimiento para el polinomio Q, en el que las 6 secuencias de z coeficientes de polinomio de la ecuación (26) anterior, {1, 2cos(ω2), 1}, {1, -2cos(ω4), 1} ... {1, -2cos(ω10), 1} y {1, -1} y los coeficientes adecuados se suman y dividen entre 2, es decir, se desplazan 1 bit, para generar los coeficientes LPC.

La Figura 13 muestra además en detalle un ejemplo de implementación del subsistema de transformación LSP-LPC. La parte de circuito 508 calcula el valor de -2cos(ωi) a partir del valor de entrada de ωi. La parte de circuito 508 consiste en la memoria tampón 509, los sumadores 510 y 515, los multiplicadores 511, 512, 514, 516 y 518 y los registros 513 y 515. Cuando se calculan los valores de -2cos(ωi), los registros 513 y 515 se ponen a cero. Puesto que este circuito calcula sen(ωi), primero se resta ωi, en el sumador 510, del valor constante de entrada π /2. Este valor es elevado al cuadrado por el multiplicador 511 y, a continuación, se calculan en secuencia los valores (π /2 -ωi)2, (π /2 -ωi)4, (π /2 -ωi)6y (π /2 -ωi)8 utilizando el multiplicador 512 y el registro 513.

Los coeficientes de la expansión en serie de Taylor c[1]-c[4] se introducen en secuencia en el multiplicador 514 junto con los valores obtenidos del multiplicador 512. Los valores obtenidos del multiplicador 514 se introducen en el sumador 515 donde se suman con la salida del registro 516 para proporcionar la salida c[1] (π /2 -ωi)2+ c[2] (π /2 -ωi)4+ c[3] (π /2 -ωi)6 + c[4] (π /2 -ωi)8 al multiplicador 517. La entrada al multiplicador 517 del registro 516 se multiplica en el multiplicador 517 por la salida (π /2 -ωi) del sumador 510. La salida del multiplicador 517, es decir, el valor cos(ωi), se multiplica en el multiplicador 518 por la constante -2 para proporcionar la salida -2cos(ωi). El valor -2cos(ωi) se proporciona a la parte de circuito 520.

La parte de circuito 520 se utiliza en el cálculo de los coeficientes del polinomio P. La parte de circuito 520 consiste en la memoria 521, el multiplicador 522 y el sumador 523. El conjunto de ubicaciones de memoria P(1) ... P(11) se establecen en 0 excepto P(1) que establece en 1. Los valores indexados antiguos -2cos(ωi) se introducen en el multiplicador 524 para efectuar la convolución de (1, -2cos(ωi), 1) siendo 1 ≤ i ≤ 5, 1 ≤ j ≤ 2i+1, P(j) = 0 para j<1. La parte de circuito 520 se duplica (no se muestra) para calcular los coeficientes del polinomio Q. Los nuevos valores finales resultantes de P(1) -P(11) y Q(1) -Q(11) se proporcionan a la parte de circuito 524.

A la parte de circuito 524 se le proporcionan diez coeficientes LPC α i , siendo i un valor entre 1 y 10, para acabar el cálculo de la subtrama de tono. La parte de circuito 524 consiste en las memorias tampón 525 y 526, los sumadores 527, 528 y 529 y el divisor o desplazador de bits 530. Los valores P(i) y Q(i) finales se almacenan en las memorias tampones 525 y 526. Los valores P(i) y P(i+1) se suman en el sumador 527, mientras que los correspondientes valores Q(i) y Q(i+1) se restan en el sumador 528, para 1 ≤ i ≤ 10. La salida de los sumadores 527 y 528, respectivamente P(z) y Q(z), se introducen en el sumador 529 donde se suman y se proporcionan como el valor (P(z) + Q(z)). La salida del sumador se divide entre dos desplazando los bits una posición. Cada valor con desplazamiento de bit de (P(z) + Q(z))/2 es un coeficiente LPC α i de salida. Los coeficientes LPC de subtrama de tono se proporcionan al subsistema de búsqueda de tono 220 de la Figura 7.

Asimismo, las frecuencias LSP se interpolan para cada subtrama de libro de código

determinada mediante la velocidad seleccionada, excepto para la velocidad completa. La interpolación se calcula de idéntica manera a las interpolaciones LSP de subtrama de tono. Las interpolaciones LSP de subtrama de libro de código se calculan en el subsistema de interpolación LSP de subtramas de libro de código 226 y se proporcionan al subsistema de transformación LSP-LPC 228 donde la transformación se calcula de modo parecido al subsistema de transformación LSP-LPC 218.

Como se ha descrito en relación con la Figura 3, la búsqueda del tono es una técnica de análisis por síntesis, en la que la codificación se efectúa seleccionando parámetros que reducen al mínimo el error entre la voz de entrada y la voz sintetizada utilizando dichos parámetros. En la búsqueda del tono, la voz se sintetiza utilizando el filtro de síntesis de tono cuya respuesta se expresa en la ecuación (2). Cada 20 ms, la trama de voz se subdivide en un número de subtramas de tono que, como se ha descrito anteriormente, depende de la velocidad de transmisión de datos elegida para la trama. Una vez por cada subtrama de tono, se calculan los parámetros b y L, es decir, la ganancia y el retardo de tono, respectivamente. En el presente ejemplo de implementación, el retardo de tono L oscila entre 17 y 143 y, por motivos de transmisión, L=16 se reserva para el caso en que b=0.

El codificador de voz utiliza un filtro de ponderación perceptiva de ruido de la forma establecida en la ecuación (1). Como se ha mencionado anteriormente, el propósito del filtro de ponderación perceptiva es ponderar el error a frecuencias de menos potencia para reducir el efecto del ruido relacionado con el error. El filtro de ponderación perceptiva se obtiene a partir del filtro de predicción a corto plazo hallado anteriormente. Los coeficientes LPC utilizados en el filtro de ponderación, y el filtro de síntesis de formantes descrito más adelante, son los valores interpolados adecuados para la subtrama que se está codificando.

Cuando se efectúan las operaciones de análisis por síntesis, se utiliza una copia del decodificador/sintetizador de voz en el codificador. La forma del filtro de síntesis utilizado en el codificador de voz es obtenida mediante las ecuaciones (3) y (4). Las ecuaciones (3) y (4) corresponden a un filtro de síntesis de voz del decodificador seguido del filtro de ponderación perceptiva, denominado pues filtro de síntesis ponderada.

La búsqueda del tono se lleva a cabo bajo el supuesto de una contribución cero del libro de código en la trama actual, es decir, G = 0. Para cada retardo de tono posible, L, la voz se sintetiza y compara con la voz original. El error entre la voz de entrada y la voz sintetizada es ponderado por el filtro de ponderación perceptiva antes de que su error cuadrático medio (MSE) sea calculado. El objetivo de esto es elegir valores de L y b, de entre todos los valores posibles de L y b, que reducen al mínimo el error entre la voz ponderada perceptivamente y la voz sintetizada ponderada perceptivamente. La reducción al mínimo del error puede expresarse

mediante la siguiente ecuación:

imagen1

siendo LP el número de muestras de la subtrama de tono que, en el ejemplo de forma de realización, es 40 para una subtrama de tono de velocidad completa. Se calcula la ganancia de tono, b, que reduce al mínimo el MSE. Estos cálculos se repiten para todos los valores permitidos de L, y se eligen los valores de L y b que generan el MSE mínimo para el filtro de tonos.

El cálculo del retardo de tono óptimo incluye el residuo de formantes (p(n) en la Figura 3) para el tiempo entre n = -Lmáx y n = (LP-Lmln) -1, siendo Lmáx el valor de retardo de tono máximo, Lmln el valor de retardo de tono mínimo y LP la longitud de la subtrama de tono para la velocidad seleccionada, y siendo n = 0 el inicio de la subtrama de tono. En el ejemplo de forma de realización Lmáx = 143 y Lmln = 17. Utilizando el modelo de numeración proporcionado en la Figura 14, para velocidad 1/4, n = -143 a n = 142; para velocidad 1/2, n = -143 a n = 62; y para velocidad 1, n = -143 a n = 22. Para n<0, el residuo de formantes es sencillamente la salida del filtro de tonos de las subtramas de tono anteriores, que se conserva en la memoria del filtro de tonos y se denomina residuo de formantes de bucle cerrado. Para n ≥ 0, el residuo de formantes es la salida de un filtro de análisis de formantes que tiene una característica de filtro de A(z) en el que la entrada son las muestras de voz de la trama de análisis actual. Para n ≥ 0, el residuo de formantes se denomina residuo de formantes de bucle abierto y será exactamente p(n) si el filtro de tonos y el libro de código realizan una predicción perfecta en esta subtrama. En relación con las Figuras 14-17, se proporcionará más información acerca del cálculo del retardo de tono óptimo a partir de los valores de residuo de formantes asociados.

La búsqueda del tono se efectúa con respecto a 143 muestras reconstruidas de residuos de formantes de bucle cerrado, p(n) para n < 0, más LP -Lmin muestras no cuantificadas de residuos de formantes de bucle abierto, po(n) para n ≥ 0. De forma eficaz y gradual, la búsqueda que fundamentalmente es una búsqueda de bucle abierto en la que L es pequeño, y por lo tanto la mayoría de las muestras de residuo utilizadas son n > 0, se convierte en una búsqueda que principalmente es una búsqueda de bucle cerrado donde L es grande, y por lo tanto todas las muestras de residuo utilizadas son n < 0. Por ejemplo, utilizando el modelo de numeración proporcionado en la Figura 14 a velocidad completa, en el que la subtrama de tono consiste en 40 muestras de voz, la búsqueda del tono empieza utilizando el grupo de muestras de residuos de formantes numeradas de n = -17 a n = 22. En este modelo, desde n = -17 hasta n = -1, las muestras son muestras de residuos de formantes de bucle cerrado, mientras que desde n = 0 hasta n = 22, las muestras son muestras de residuos de formantes de bucle abierto. El siguiente grupo de muestras de residuos de formantes utilizado en la determinación del retardo de tono óptimo son las muestras numeradas de n = -18 a n = 21. Nuevamente, desde n = -18 hasta n =

5 -1, las muestras son muestras de residuos de formantes de bucle cerrado, mientras que desde n = 0 hasta n = 21, las muestras son muestras de residuos de formantes de bucle abierto. Este proceso continúa con los grupos de muestras hasta que se obtiene el retardo de tono para el último grupo de muestras de residuos de formantes, n = -143 a n = -104.

Como se ha descrito anteriormente en relación con la ecuación (28), el objetivo es

10 reducir al mínimo el error entre x(n), la voz ponderada perceptivamente menos la respuesta de entrada cero (ZIR) del filtro de formantes ponderados, y x'(n), la voz sintetizada ponderada perceptivamente que no tiene asignada memoria en los filtros, respecto de todos los valores posibles de L y b, dada una contribución cero del libro de código estocástico (G=0). La ecuación

(28) puede rescribirse en relación con b de la siguiente forma: 15

imagen1

20 donde

imagen1

25 siendo y(n) la voz sintetizada ponderada con el retardo de tono L cuando b=1, y h(n) la respuesta impulsiva del filtro de síntesis de formantes ponderados que tiene la característica de filtro según la ecuación (3).

Este proceso de reducción al mínimo es equivalente a incrementar al máximo el valor EL, donde: 30

imagen1

35 donde,

y,

imagen1

La b óptima para el L dado resulta ser:

imagen1

Esta búsqueda se repite para todos los valores permitidos de L. La b óptima se limita a valores positivos y, por ello, un L que dé por resultado un valor Exy negativo se ignora en la búsqueda. Por último, se eligen para la transmisión el retardo, L, y la ganancia de tono, b, que incrementan al máximo EL.

Como se ha mencionado anteriormente, x(n) es en realidad la diferencia ponderada perceptivamente entre la voz de entrada y la ZIR del filtro de formantes ponderados, debido a que para la convolución recursiva, expuesta más adelante en las ecuaciones (35) -(38), el supuesto es que el filtro A(z) siempre empieza por 0 en la memoria de filtro. No obstante, el caso real no es el del filtro que empieza con un 0 en la memoria de filtro. En síntesis, el filtro tendrá un estado que persiste desde la subtrama anterior. En la implementación, los efectos del estado inicial se restan de la voz ponderada perceptivamente al inicio. De esta forma, sólo es necesario calcular para cada L la respuesta a p(n) del filtro de régimen permanente A(z), con todas las memorias inicialmente establecidas en 0, pudiéndose utilizar la convolución recursiva. Sólo es necesario calcular una vez este valor de x(n), pero es necesario calcular y(n), la respuesta a estado cero del filtro de formantes a la salida del filtro de tonos, para cada retardo L. El cálculo de cada y(n) incluye muchas multiplicaciones redundantes, que no es necesario calcular para cada retardo. El procedimiento de convolución recursiva descrito a continuación se utiliza para reducir al mínimo los cálculos necesarios.

En relación con la convolución recursiva, el valor yL(n) es definido por el valor y(n), siendo:

o

imagen1

A partir de las ecuaciones (32) y (33) puede observarse que:

imagen1

De esta forma, una vez que se ha realizado la convolución inicial para y17(n), el resto de convoluciones puede efectuarse de forma recursiva, reduciendo en gran medida el número de cálculos necesarios. En el ejemplo proporcionado anteriormente para la velocidad 1, el valor y17(n) se calcula mediante la ecuación (36) utilizando el grupo de muestras de residuos de formantes numerados de n = -17 a n = 22.

En relación con la Figura 15, el codificador incluye un duplicado del decodificador de la Figura 5, el subsistema de decodificador 235 de la Figura 7, en ausencia del postfiltro adaptativo. En la Figura 15, la entrada al filtro de síntesis de tono 550 es el producto del valor de libro de código C|(n) y la ganancia G de libro de código. Las muestras de residuos de formantes proporcionadas p(n) se introducen en el filtro de síntesis de formantes 552 donde se filtran y proporcionan como muestras de voz reconstruidas s'(n). Las muestras de voz reconstruidas s’(n) se restan de las correspondientes muestras de voz de entrada s(n) en el sumador 554. La diferencia entre las muestras s(n)' y s(n) se introduce en el filtro de ponderación perceptiva 556. En cuanto al filtro de síntesis de tono 550, el filtro de síntesis de formantes 552 y el filtro de ponderación perceptiva 556, cada uno de estos filtros contiene una memoria del estado del filtro, siendo MP la memoria del filtro de síntesis de tono 550, Ma la memoria del filtro de síntesis de formantes 552 y Mw la memoria del filtro de ponderación perceptiva 556.

El estado de filtro Ma del filtro de síntesis de formantes 552 del subsistema del decodificador es proporcionado al subsistema de búsqueda del tono 220 de la Figura 7. En la Figura 16, se proporciona el estado de filtro Ma para calcular la respuesta a la entrada cero (ZIR) del filtro 560 que calcula la ZIR del filtro de síntesis de formantes 552. El valor ZIR calculado se resta de las muestras de voz de entrada s(n) en el sumador 562, siendo el resultado ponderado por el filtro de ponderación perceptiva 564. La salida del filtro de ponderación perceptiva 564, xp(n), se utiliza como voz de entrada ponderada en las ecuaciones (28)-(34), en las que x(n) = xp(n).

De nuevo en relación con las Figuras 14 y 15, el filtro de síntesis de tono 550 ilustrado en la Figura 14 proporciona las muestras de residuo de formantes de bucle cerrado y bucle abierto, calculadas de la forma descrita anteriormente, al libro de código adaptativo 568 que, en esencia, es una memoria para almacenarlas. El residuo de formantes de bucle cerrado se almacena en la parte de memoria 570, mientras que el residuo de formantes de bucle abierto se almacena en la parte de memoria 572. Las muestras se almacenan según el ejemplo de modelo de numeración descrito anteriormente. El residuo de formantes de bucle cerrado se organiza como se ha descrito anteriormente en relación con la utilización para cada búsqueda de retardo de tono L. El residuo de formantes de bucle abierto se calcula a partir de las muestras de voz de entrada s(n) de cada subtrama de tono que utiliza el filtro de análisis de formantes 574 que utiliza la memoria Ma del filtro de síntesis de formantes 552 del subsistema del decodificador para calcular los valores de p0(n). Los valores de p0(n) para la subtrama de tono actual se desplazan a través de una serie de elementos de retardo 576 para proporcionarse a la parte de memoria 572 del libro de código adaptativo 568. Los residuos de formantes de bucle abierto se almacenan con la primera muestra de residuo generada numerada como 0 y la última numerada como 142.

En relación ahora con la Figura 16, la respuesta impulsiva h(n) del filtro de formantes se calcula en el filtro 566 y se pasa al registro de desplazamiento 580. Como se ha indicado anteriormente en relación con la respuesta impulsiva del filtro de formantes h(n), ecuaciones (29)-(30) y (35)-(38), estos valores se calculan para todas las subtramas de tono en el filtro. Para reducir más los requisitos de cálculo del subsistema del filtro de tonos, la respuesta impulsiva del filtro de formantes h(n) se trunca en 20 muestras.

El registro de desplazamiento 580 junto con el multiplicador 582, el sumador 584 y el registro de desplazamiento 586 se configuran para llevar a cabo la convolución recursiva entre los valores h(n) del registro de desplazamiento 580 y los valores c(m) del libro de código adaptativo 568, como se ha descrito anteriormente. Esta operación de convolución se efectúa para hallar la respuesta a estado cero (ZSR) del filtro de formantes a la entrada procedente de la memoria del filtro de tonos, suponiendo que la ganancia de tono está establecida en 1. Con el funcionamiento de los circuitos de convolución, n se desplaza iterativamente de Lp a 1 para cada m, mientras que m se desplaza iterativamente de (Lp-17)-1 a -143. En el registro 586, los datos no se transmiten cuando n = 1, y los datos no se bloquean cuando n = Lp. Los datos se proporcionan como salida desde los circuitos de convolución cuando m ≤ -17.

Después de los circuitos de convolución, se hallan los circuitos de correlación y comparación que llevan a cabo la búsqueda para hallar el retardo de tono L y la ganancia de tono b óptimos. Los circuitos de correlación, denominados también circuitos de error cuadrático medio (MSE), calculan la autocorrelación y la correlación cruzada de la ZSR con la diferencia ponderada perceptivamente entre la ZIR del filtro de formantes y la voz de entrada, es decir, x(n). Utilizando estos valores, los circuitos de correlación calculan el valor de la ganancia de tono b óptima para cada valor del retardo de tono. Los circuitos de correlación consisten en el registro de desplazamiento 588, los multiplicadores 590 y 592, los sumadores 594 y 596, los registros 598 y 600, y el divisor 602. En los circuitos de correlación, los cálculos determinan que n se desplace iterativamente de Lp a 1, mientras que m se desplaza iterativamente de (Lp-17) -1 a

143.

Los circuitos de correlación van seguidos de los circuitos de comparación que llevan a cabo las comparaciones y almacenan los datos para determinar el valor óptimo del retardo L y la ganancia b de tono. Los circuitos de comparación consisten en el multiplicador 604, el comparador 606, los registros 608, 610 y 612 y el cuantificador 614. Los circuitos de comparación proporcionan para cada subtrama de tono los valores de L y b que reducen al mínimo el error entre la voz sintetizada y la voz de entrada. El valor de b es cuantificado en ocho niveles por el cuantificador 614 y es representado mediante un valor de 3 bits, siendo inferido un nivel adicional, el nivel b=0, cuando L=16. Estos valores de L y b son proporcionados al subsistema de búsqueda de libro de código 230 y a la memoria tampón de datos 222. Estos valores son proporcionados por medio del subsistema de empaquetamiento de datos 238 o la memoria tampón de datos 222 al decodificador 234 para su utilización en la búsqueda del tono.

Como la búsqueda del tono, la búsqueda de libro de código es un sistema de codificación de análisis por síntesis, en el que la codificación se efectúa seleccionando parámetros que reducen al mínimo el error entre la voz de entrada y la voz sintetizada utilizando los parámetros. Para velocidad 1/8, la ganancia de tono b se establece en cero.

Como se ha descrito anteriormente, cada 20 ms se subdivide en un número de subtramas de libro de código que, como se ha indicado anteriormente, depende de la velocidad de transmisión de datos elegida para la trama. Los parámetros G e I, la ganancia y el índice de libro de código, respectivamente, se calculan una vez por subtrama de libro de código. En el cálculo de estos parámetros, las frecuencias LSP para la subtrama, excepto para velocidad completa, se interpolan en el subsistema de interpolación LSP de subtramas de libro de código 226 de forma parecida a la descrita en relación con el subsistema de interpolación LSP de subtramas de tono 216. Las frecuencias LSP interpoladas de subtramas de libro de código también son convertidas en coeficientes LPC por el subsistema de transformación LSP-LPC 228 para cada subtrama de libro de código. El contador de subtramas de libro de código 232 se utiliza para mantener un registro de las subtramas de libro de código para las cuales se calculan los parámetros de libro de código, siendo proporcionada la salida del contador al subsistema de interpolación LSP de subtramas de libro de código 226 para su utilización en la interpolación LSP de subtramas de libro de código. Asimismo, el contador de subtramas de libro de código 232 proporciona una salida, que indica la finalización de una subtrama de libro de código para la velocidad seleccionada, al contador de subtramas de tono 224.

El libro de código de excitación consta de 2M vectores de códigos que se construyen a partir de una secuencia aleatoria blanca gaussiana de varianza unitaria. Existen 128 entradas en el libro de código para M=7. El libro de código está organizado de forma recursiva de modo que cada vector de código difiere del vector de código adyacente en una muestra; es decir, las muestras de un vector de código se desplazan una posición para que una nueva muestra entre por un extremo y otra muestra salga por el otro. Por consiguiente, un libro de código recursivo puede almacenarse como una ordenación lineal que tiene una longitud 2M + (Lc-1), siendo Lc la longitud de la subtrama de libro de código. No obstante, para simplificar la implementación y conservar espacio de memoria, se utiliza un libro de código circular de 2M muestras de longitud (128 muestras).

Para reducir los cálculos, los valores gaussianos del libro de código se recortan por el centro. En un principio, los valores se eligen mediante un procedimiento blanco gaussiano de varianza 1. Luego, cualquier valor con una magnitud inferior a 1,2 se establece en cero. Y de esta forma, alrededor del 75% de los valores se establecen de forma eficaz en cero, generándose un libro de código de impulsos. Este recorte central del libro de código reduce en un factor de 4 el número de multiplicaciones necesarias para llevar a cabo la convolución recursiva de la búsqueda de libro de código, puesto que no es necesario efectuar las multiplicaciones por cero. El libro de código utilizado en la implementación actual es proporcionado a continuación en la Tabla VIII.

TABLA VIII

0x0000 0x0000 0x0000 0x0000 0x2afe 0x0000 0x0000 0x0000 0x41da 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x3bb3 0x0000 0x363e 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x417d 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x9dfe 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0xc58a 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0xc8db 0xd365 0x0000 0x0000 0xd6a8 0x0000 0x0000 0x0000 0x3e53 0x0000 0x0000 0xd5ed 0x0000 0x0000 0x0000 0xd08b 0x0000 0x0000 0x0000 0x0000 0x3d14 0x396a 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x4ee7 0xd7ca 0x0000 0x0000 0x438c 0x0000 0x0000 0xad49 0x30b1 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x3fcd 0x0000 0x0000 0xd187 0x2e16 0xd09b 0xcb8d 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x32ff

Nuevamente, el codificador de voz utiliza un filtro de ponderación perceptiva del ruido de

la forma indicada en la ecuación (1) que incluye un filtro de síntesis ponderada de la forma

indicada en la ecuación (3). Para cada índice de libro de código, I, la voz se sintetiza y se

5 compara con la voz original. El error es ponderado por el filtro de ponderación perceptiva antes

de que sea calculado el MSE.

Como se ha indicado anteriormente, el objetivo es reducir al mínimo el error entre x(n) y

x'(n) respecto de todos los valores posibles de I y G. La reducción al mínimo del error puede

expresarse mediante la siguiente ecuación:

10

imagen1

siendo Lc el número de muestras de la subtrama de libro de código. La ecuación (38) puede rescribirse en relación con G, donde:

imagen6

donde y se deduce sometiendo a convolución la respuesta impulsiva del filtro de formantes con el l-ésimo vector de código, suponiendo que G=1. Reducir al mínimo el MSE es, a su vez, equivalente a incrementar al máximo:

imagen7

y

imagen1

La G óptima para el I dado se halla mediante la siguiente ecuación:

imagen1

Esta búsqueda se repite para todos los valores permitidos de I. A diferencia de la búsqueda del tono, la ganancia óptima, G, puede ser positiva o negativa. Por último, se eligen para la transmisión el índice l y la ganancia G de libro de código que incrementan al máximo EI.

De nuevo, debe observarse que sólo es necesario calcular una vez x(n), es decir, la diferencia ponderada perceptivamente entre la voz de entrada y la ZIR de los filtros de tono y formantes ponderados. Sin embargo, para cada índice l, es necesario calcular y(n), es decir, la respuesta a estado cero de los filtros de tono y de formantes de cada vector de código. Debido a que se utiliza un libro de código circular, puede utilizarse el procedimiento de convolución recursiva descrito para la búsqueda del tono para reducir al mínimo los cálculos necesarios.

En relación otra vez con la Figura 15, el codificador incluye un duplicado del decodificador de la Figura 5, el subsistema de decodificador 235 de la Figura 7, en el que se calculan los estados del filtro, siendo Mp la memoria del filtro de síntesis de tono 550, Ma la memoria del filtro de síntesis de formantes 552 y Mw la memoria del filtro de ponderación perceptiva 556.

Los estados de filtro Mp y Ma de los filtros de síntesis de tono y de formantes 550 y 552 (Figura 15) del subsistema del decodificador, son proporcionados al subsistema de búsqueda de libro de código 230 de la Figura 7. En la Figura 17, los estados de filtro Mp y Ma se proporcionan al filtro de respuesta a impulso cero (ZIR) 620 que calcula la ZIR de los filtros de tono y de síntesis de formantes 550 y 552. La ZIR calculada de los filtros de tono y de síntesis de formantes se resta de las muestras de voz de entrada s(n) en el sumador 622, siendo el resultado ponderado por el filtro de ponderación perceptiva 624. La salida del filtro de ponderación perceptiva 564, xc(n), se utiliza como voz de entrada ponderada en las ecuaciones de MSE anteriores (39)-(44), en las que x(n) = xc(n).

En la Figura 17, la respuesta impulsiva h(n) del filtro de formantes se calcula en el filtro 626 y se proporciona al registro de desplazamiento 628. La respuesta impulsiva del filtro de formantes h(n) se calcula para cada subtrama de libro de código. Para reducir más los requisitos de cálculo, la respuesta impulsiva h(n) del filtro de formantes se trunca en 20 muestras.

El registro de desplazamiento 628 junto con el multiplicador 630, el sumador 632 y el registro de desplazamiento 634 se configuran para llevar a cabo la convolución recursiva entre los valores h(n) del registro de desplazamiento 628 y los valores c(m) del libro de código 636 que contiene los vectores de libro de código descritos anteriormente. Esta operación de convolución se lleva a cabo para hallar la respuesta a estado cero (ZSR) del filtro de formantes a cada vector de código, suponiendo que la ganancia de libro de código está establecida en 1. Con el funcionamiento de los circuitos de convolución, n se desplaza iterativamente de Lc a 1 para cada m, mientras que m se desplaza iterativamente de 1 a 256. En el registro 586, los datos no se transmiten cuando n = 1 y los datos no se bloquean cuando n = Lc. Los datos se proporcionan como salida desde los circuitos de convolución cuando m ≤ 1. Debe observarse que los circuitos de convolución deben inicializarse para dirigir la operación de convolución recursiva desplazando iterativamente m veces el tamaño de la subtrama antes de iniciar los circuitos de correlación y comparación que siguen a los circuitos de convolución.

Los circuitos de correlación y comparación dirigen la presente búsqueda de libro de código para proporcionar los valores del índice de libro de código I y de ganancia de libro de código G. Los circuitos de correlación, también denominados circuitos de error cuadrático medio (MSE), calculan la autocorrelación y la correlación cruzada de la ZSR con la diferencia ponderada perceptivamente entre la ZIR de los filtros de tono y de formantes, y la voz de entrada x'(n). Es decir, los circuitos de correlación calculan el valor de la ganancia de libro de código G para cada valor de índice de libro de código I. Los circuitos de correlación consisten en el registro de desplazamiento 638, los multiplicadores 640 y 642, los sumadores 644 y 646, los registros 648 y 650 y el divisor 652. En los circuitos de correlación, los cálculos determinan que n se desplace iterativamente de Lc a 1, mientras que m se desplaza iterativamente de 1 a 256.

Los circuitos de correlación van seguidos de los circuitos de comparación que llevan a cabo las comparaciones y el almacenamiento de datos para determinar el valor óptimo del índice I y la ganancia G de libro de código. Los circuitos de comparación consisten en el multiplicador 654, el comparador 656, los registros 658, 660 y 662, y el cuantificador 664. Los circuitos de comparación proporcionan para cada subtrama de libro de código los valores de I y G que reducen al mínimo el error entre la voz sintetizada y la voz de entrada. La ganancia de libro de código G se cuantifica en el cuantificador 614 que somete a codificación DPCM los valores, durante la cuantificación, de una forma parecida a la cuantificación y codificación de frecuencias LSP con sustracción de descentramiento descritas en relación con la Figura 12. Estos valores de I y G se proporcionan a continuación a la memoria tampón de datos 222.

En la cuantificación y en la codificación DPCM del libro de código, la ganancia G se calcula según la siguiente ecuación:

imagen1

siendo 20 log Gi-1 y 20 log Gi-2 los respectivos valores calculados para la trama inmediatamente anterior (i-1) y la trama que precede a la trama inmediatamente anterior (i-2).

Los valores LSP, I, G, L y b junto con la velocidad se proporcionan al subsistema de empaquetamiento de datos 236, en el que los datos se disponen para su transmisión. En una implementación, los valores LSP, I, G, L y b junto con la velocidad pueden proporcionarse al decodificador 234 por medio del subsistema de empaquetamiento de datos 236. En otra implementación, estos valores pueden proporcionarse por medio de la memoria tampón de datos 222 al decodificador 234 para su utilización en la búsqueda del tono. No obstante, en la forma de realización preferida, se emplea una protección del bit de signo del libro de código en el subsistema de empaquetamiento de datos 236 que puede afectar al índice de libro de código. Por consiguiente, esta protección debe tenerse en cuenta si los datos I y G se proporcionan directamente desde la memoria tampón de datos 222.

En el subsistema de empaquetamiento de datos 236, los datos pueden empaquetarse según diversos formatos para la transmisión. La Figura 18 ilustra una forma de realización a modo de ejemplo de los elementos funcionales del subsistema de empaquetamiento de datos

236. El subsistema de empaquetamiento de datos 236 consiste en el generador pseudoaleatorio (PN) 670, el elemento de cálculo de verificación por redundancia cíclica (CRC) 672, la lógica de protección de datos 674 y el combinador de datos 676. El generador PN 670 recibe la velocidad y, para octavo de velocidad, genera un número aleatorio de 4 bits que se proporciona al combinador de datos 676. El elemento CRC 672 recibe la ganancia de libro de código y los valores LSP junto con la velocidad y, para velocidad completa, genera un código CRC interno de 11 bits que se proporciona al combinador de datos 676.

El combinador de datos 674 recibe el número aleatorio, el código CRC y, junto con la velocidad y los valores LSP, I, G, L y b de la memoria tampón de datos 222 (Figura 7b)

5

10

15

20

25

30

35 53

proporciona una salida al subsistema del procesador de datos del canal de transmisión 234. En la implementación en la que los datos se proporcionan directamente desde la memoria tampón de datos 222 al decodificador 234 a una velocidad mínima, el número de 4 bits del generador PN pasa del generador PN 670, por medio del combinador de datos 676, al decodificador 234. A velocidad completa, los bits CRC se incluyen junto con los datos de trama obtenidos del combinador de datos 674, mientras que a octavo de velocidad, el valor de índice de libro de código es excluido y sustituido por el número aleatorio de 4 bits.

En la forma de realización a modo de ejemplo, es preferible proporcionar protección para el bit de signo de ganancia de libro de código. La finalidad de la protección de este bit es que el decodificador del vocodificador sea menos sensible a los errores de un bit en este bit. Si el bit de signo cambia debido a un error no detectado, el índice de libro de código señalará un vector no relacionado con el óptimo. En la situación de error sin protección, se seleccionará el negativo del vector óptimo, un vector que en esencia es el peor vector posible a utilizar. El modelo de protección empleado aquí asegura que un error de un bit en el bit de signo de ganancia no ocasione la selección del negativo del vector óptimo en la situación de error. La lógica de protección de datos 674 recibe el índice y la ganancia de libro de código y examina el bit de signo del valor de ganancia. Si se comprueba que el bit de signo del valor de ganancia es negativo, se suma el valor 89 (módulo 128) al índice de libro de código asociado. El índice de libro de código, tanto si está modificado como si no lo está, es proporcionado por la lógica de protección de datos 674 al combinador de datos 676.

En la realización a modo de ejemplo, es preferible que a velocidad completa los bits más perceptivamente sensibles de los datos del paquete de voz comprimido estén protegidos, por ejemplo, mediante una CRC (verificación por redundancia cíclica) interna. Se utilizan once bits adicionales para llevar a cabo esta función de detección y de corrección de errores que es capaz de corregir cualquier error en el bloque protegido. El bloque protegido consta del bit más significativo de las 10 frecuencias LSP y del bit más significativo de los 8 valores de ganancia de libro de código. Si se produce un error incorregible en este bloque, el paquete se rechaza y se declara una operación de borrado, descrita más adelante. En los otros casos, la ganancia de tono se establece en cero, pero el resto de los parámetros se utilizan a medida que se reciben. En el ejemplo de forma de realización, se elige un código cíclico que tenga un polinomio generador de:

imagen1

que proporciona un código cíclico (31, 21). No obstante, debe sobrentenderse que pueden

utilizarse otros polinomios generadores. Para que este código sea un código (32, 31), se añade un bit de paridad global en el extremo. Puesto que solo hay 18 bits de información, los 3 primeros dígitos de la palabra del código se establecen en cero y no se transmiten. Esta técnica proporciona protección adicional y, de este modo, si el síndrome indica un error en estas posiciones, significa que se trata de un error incorregible. La codificación de un código cíclico de forma sistemática conlleva el cálculo de bits de paridad según: x10 u(x) módulo g(x), siendo u(x) el polinomio del mensaje.

En el extremo de decodificación, el síndrome se calcula como el resto de dividir el vector recibido por g(x). Si el síndrome no indica ningún error, el paquete se acepta sin tener en cuenta el estado del bit de paridad global. Si el síndrome indica un error, el error se corrige si el estado del bit de paridad global no es de verificación. Sí el síndrome indica más de un error, el paquete se rechaza. En la sección 4.5 del documento "Error Control coding: Fundamentals and Applications" (Codificación de control de errores: principios fundamentales y aplicaciones) de Lin y Costello, puede obtenerse más información acerca de dicho modelo de protección de errores y del cálculo del síndrome.

En una implementación de sistema telefónico celular CDMA, los datos son proporcionados por el combinador de datos 674 al subsistema del procesador de datos de canal de transmisión 238 para el empaquetamiento de datos para la transmisión en tramas de transmisión de datos de 20 ms. En una trama de transmisión en la que el vocodificador está preparado para velocidad completa, se transmiten 192 bits para una velocidad binaria efectiva de 9,6 Kbit/s. La trama de transmisión en este caso consiste en un bit de modo mixto utilizado para indicar el tipo de trama mixta (0 = sólo voz, 1 = voz y datos/señalización), 160 bits de datos del vocodificador junto con 11 bits de CRC interna; 12 bits de CRC externa o de trama y 8 bits de cola o de nivelado. A media velocidad, se transmiten 80 bits de datos de vocodificador junto con 8 bits de CRC de trama y 8 bits de cola para una velocidad binaria efectiva de 4,8 Kbit/s. A cuarto de velocidad, se transmiten 40 bits de datos de vocodificador junto con 8 bits de cola para una velocidad binaria efectiva de 2,4 Kbit/s. Por último, a octavo de velocidad, se transmiten 16 bits de datos de vocodificador junto con 8 bits de cola para una velocidad binaria efectiva de 1,2 Kbit/s.

La solicitud de patente U.S. en trámite junto con la presente n° de serie 07/543.496, presentada el 25 de junio de 1990 y titulada "SYSTEM AND METHOD FOR GENERATING SIGNAL WAVEFORMS IN A CDMA CELLULAR TELEPHONE SYSTEM" (SISTEMA Y PROCEDIMIENTO PARA GENERAR FORMAS DE ONDA DE SEÑALES EN UN SISTEMA TELEFÓNICO CELULAR CDMA), cedida al cesionario de la presente invención, proporciona más información acerca de la modulación empleada en un sistema CDMA en el que se empleará el vocodificador de la presente invención. En este sistema, a velocidades diferentes de la completa, se utiliza un modelo en el que los bits de datos se organizan en grupos, estando los grupos de bits situados de forma pseudoaleatoria dentro de la trama de transmisión de datos de 20 ms. Debe sobrentenderse que es posible emplear con facilidad otras velocidades de tramas y representaciones de bits aparte de las presentadas con fines ilustrativos aquí, en relación con la implementación del vocodificador y el sistema CDMA, para que de este modo queden disponibles otras implementaciones para el vocodificador y otras aplicaciones del sistema.

En el sistema CDMA, y también aplicable a otros sistemas, el subsistema de procesador 238 puede interrumpir de una trama a otra la transmisión de datos de vocodificador para transmitir otros datos como, por ejemplo, datos de señalización u otros datos de información no vocal. Este tipo particular de situación de transmisión se denomina "espacio-ráfaga". El subsistema de procesador 238 en esencia sustituye los datos de vocodificador por los datos de transmisión deseados para la trama.

Puede plantearse otra situación en la que se desea transmitir tanto datos de vocodificador como otros datos durante la misma trama de transmisión de datos. Este tipo particular de situación de transmisión se denomina "atenuación-ráfaga". En una transmisión de "atenuación-ráfaga", el vocodificador recibe mandatos de límite de velocidad que fijan la velocidad final del vocodificador en la velocidad deseada, por ejemplo, media velocidad. Los datos de vocodificador codificados a media velocidad se proporcionan al subsistema de procesador 238, que inserta los datos adicionales junto con los datos de vocodificador para la trama de transmisión de datos.

Una función adicional proporcionada para enlaces telefónicos dúplex completos es el interbloqueo de velocidad. Si una dirección del enlace está transmitiendo a la velocidad de transmisión más alta, entonces la otra dirección del enlace es obligada a transmitir a la velocidad más baja. Incluso a la velocidad más baja, queda disponible suficiente inteligibilidad para que el hablante activo se dé cuenta de que ha sido interrumpido y deje de hablar, permitiendo de ese modo que la otra dirección del enlace asuma el papel de hablante activo. Además, si el hablante activo continúa hablando durante un intento de interrupción, probablemente no percibirá una degradación de la calidad porque su propia voz "interfiere" en la capacidad de percibir calidad. De nuevo, utilizando los mandatos de límite de velocidad, el vocodificador puede adaptarse a la codificación vocal de la voz a una velocidad inferior a la normal.

Debe sobrentenderse que los mandatos de límite de velocidad pueden utilizarse para establecer la velocidad máxima del vocodificador en una velocidad inferior a la velocidad completa cuando se necesita capacidad adicional en el sistema CDMA. En un sistema CDMA en el que se utiliza un espectro de frecuencias común para la transmisión, la señal de un usuario se muestra como una interferencia para los otros usuarios del sistema. La capacidad de usuarios del sistema se ve pues limitada por la interferencia total ocasionada por los usuarios del sistema. A medida que aumenta el nivel de interferencias, normalmente debido a un aumento de usuarios en el sistema, los usuarios experimentan una degradación de la calidad a causa del incremento de las interferencias.

La contribución de cada usuario a las interferencias del sistema CDMA es una función de la velocidad de transmisión de datos de los usuarios. Adaptando el vocodificador para la codificación de voz a una velocidad inferior a la normal, los datos codificados se transmiten a la correspondiente velocidad de transmisión de datos reducida, disminuyendo de ese modo el nivel de interferencias ocasionado por el usuario. Por lo tanto, la capacidad del sistema puede aumentarse de forma considerable mediante la codificación vocal a una velocidad más baja. Cuando la demanda del sistema aumenta, los vocodificadores de los usuarios pueden ser controlados por el controlador del sistema o por la estación base de la célula para reducir la velocidad de codificación. La calidad del vocodificador de la presente invención determina que exista muy poca, aunque alguna, diferencia perceptible entre la voz codificada a velocidad completa y a media velocidad. Por consiguiente, el efecto sobre la calidad de las comunicaciones entre los usuarios del sistema cuando la voz se somete a codificación vocal a velocidad baja, por ejemplo, a media velocidad, es menos importante que el ocasionado por un nivel creciente de interferencias resultante de un número mayor de usuarios en el sistema.

Por consiguiente, pueden emplearse diversos modelos para establecer límites de velocidad de vocodificador individuales para velocidades de codificación de voz inferiores a las normales. Por ejemplo, todos los usuarios de una célula pueden ser controlados para codificar voz a media velocidad. Dicha acción reduce considerablemente las interferencias del sistema, con un efecto insignificante sobre la calidad de las comunicaciones entre los usuarios, a la vez que proporciona un considerable aumento de capacidad para usuarios adicionales. Hasta que el total de interferencias del sistema no haya aumentado hasta el nivel de degradación debido a los usuarios adicionales, éstas no incidirán en la calidad de las comunicaciones entre los usuarios.

Como se ha indicado anteriormente, el codificador incluye una copia del decodificador para aplicar la técnica de análisis por síntesis a la codificación de las tramas de las muestras de voz. Como se ilustra en la Figura 7, el decodificador 234 recibe los valores L, b, I y G ya sea por medio del subsistema de empaquetamiento de datos 238 o bien por medio de la memoria tampón de datos 222 para reconstruir la voz sintetizada y compararla con la voz de entrada. Las salidas del decodificador son los valores Mp, Ma y Mw descritas anteriormente. La utilización del decodificador 234 en el codificador y en la reconstrucción de la voz sintetizada en el otro extremo del canal de transmisión se describirá conjuntamente con mayor detalle en relación

con las Figuras 19-24.

La Figura 19 es un diagrama de flujo para un ejemplo de implementación del decodificador de la presente invención. Debido a la estructura común del decodificador implementando en el codificador y el implementado en el receptor, dichas implementaciones se describen de forma conjunta. La descripción relativa a la Figura 19 se refiere principalmente al decodificador en el extremo del canal de transmisión, puesto que los datos que allí se reciben deben procesarse previamente en el decodificador, mientras que en el decodificador del codificador se reciben los datos adecuados (velocidad, I, G, L y b) directamente desde el subsistema de empaquetamiento de datos 238 o la memoria tampón de datos 222. No obstante, la función básica del decodificador es la misma tanto para la implementación del codificador como para la del decodificador.

Como se ha indicado en relación con la Figura 5, para cada subtrama de libro de código, el vector de libro de código indicado por el índice de libro de código I se extrae del libro de código almacenado. El vector es multiplicado por la ganancia de libro de código G y luego filtrado por el filtro de tonos para cada subtrama de tono para obtener el residuo de formantes. Este residuo de formantes es filtrado por el filtro de formantes y luego se hace pasar por un postfiltro de formantes adaptativo y un postfiltro de brillo, y por un control automático de ganancia (AGC), para generar la señal de voz de salida.

Aunque la longitud de la subtrama de libro de código y tono varia, la decodificación se lleva a cabo en bloques de 40 muestras para facilitar la implementación. En primer lugar, se desempaquetan los datos comprimidos recibidos para convertirlos en ganancias de libro de código, índices de libro de código, ganancias de tono, retardos de tono y frecuencias LSP. Las frecuencias LSP deben procesarse a través de sus respectivos cuantificadores inversos y decodificadores DPCM como se ha descrito en relación con la Figura 22. Del mismo modo, los valores de ganancia de libro de código deben procesarse de forma parecida a las frecuencias LSP, salvo en lo que respecta al descentramiento. Asimismo, los valores de ganancia de tono se someten a cuantificación inversa. A continuación, se proporcionan los parámetros de cada subtrama de decodificación. En cada subtrama de decodificación, se necesitan 2 grupos de parámetros de libro de código (G e f), 1 grupo de parámetros de tono (b y L) y 1 grupo de coeficientes LPC para generar 40 muestras de salida. Las Figuras 20 y 21 ilustran ejemplos de parámetros de decodificación de subtramas para las diversas velocidades y otras condiciones de trama.

Para tramas de velocidad completa, existen 8 grupos de parámetros de libro de código recibidos y 4 grupos de parámetros de tono recibidos. Las frecuencias LSP se interpolan cuatro veces para proporcionar 4 grupos de frecuencias LSP. Los parámetros recibidos y la

correspondiente información de subtramas se enumeran en la Figura 20a.

Para tramas de media velocidad, cada grupo de los cuatro parámetros de libro de código recibidos se repite una vez, cada grupo de los dos parámetros de tono recibidos se repite una vez. Las frecuencias LSP se interpolan tres veces para proporcionar 4 grupos de frecuencias LSP. Los parámetros recibidos y la correspondiente información de subtramas se enumeran en la Figura 20b.

Para tramas de cuarto de velocidad, cada grupo de los dos parámetros de libro de código recibidos se repite cuatro veces, y el grupo de parámetros de tono también se repite cuatro veces. Las frecuencias LSP se interpolan una vez para proporcionar 2 grupos de frecuencias LSP. Los parámetros recibidos y la correspondiente información de subtramas se enumeran en la Figura 20c.

Para tramas de octavo de velocidad, el grupo de parámetros de libro de código recibido se utiliza para toda la trama. No hay ningún parámetro de tono presente para tramas de octavo de velocidad y la ganancia de tono simplemente se establece en cero. Las frecuencias LSP se interpolan una vez para proporcionar 1 grupo de frecuencias LSP. Los parámetros recibidos y la correspondiente información de subtramas se enumeran en la Figura 20d.

A veces, los paquetes de voz pueden dejarse en blanco para que la célula CDMA o estación móvil transmita información de señalización. Cuando el vocodificador recibe una trama en blanco, éste continúa con una ligera modificación en los parámetros de la trama anterior. La ganancia de libro de código se establece en cero. El retardo y la ganancia de tono de la trama anterior se utilizan como retardo y ganancia de tono de la trama actual, pero la ganancia está limitada a un valor uno o inferior. Las frecuencias LSP de la trama anterior se utilizan tal cual, sin interpolación. Debe observarse que el extremo de codificación y el extremo de decodificación todavía siguen sincronizados y que el vocodificador puede recuperarse de una trama en blanco muy rápidamente. Los parámetros recibidos y la correspondiente información de subtramas se enumeran en la Figura 21a.

En caso de que una trama se pierda debido a un error de canal, el vocodificador intenta enmascarar dicho error manteniendo una fracción de la energía de la trama anterior y efectuando una transición suave hacia el ruido de fondo. En este caso, la ganancia de tono se establece en cero, se selecciona un libro de código aleatorio utilizando el índice de libro de código de la trama anterior más 89 y la ganancia de libro de código es 0,7 veces la ganancia de libro de código de la subtrama anterior. Debe observarse que el número 89 no se utiliza por ningún motivo concreto, sino que constituye sólo una forma conveniente de seleccionar un vector de libro de código pseudoaleatorio. Las frecuencias LSP de la trama anterior son obligadas a disminuir hacia sus valores descentrados según:

ωi =0,9(ωi anterior -valor de descentramiento de ωi) + valor de descentramiento de ωi (47)

Los valores de descentramiento de las frecuencias LSP se muestran en la Tabla 5. Los parámetros recibidos y la correspondiente información de subtramas se enumeran en la Figura 21b.

Si no puede determinarse la velocidad en el receptor, el paquete se rechaza y se declara una operación de borrado. No obstante, si el receptor determina que es muy probable que la trama se haya transmitido a velocidad completa, aunque con errores, se emprende la acción descrita a continuación. Como se ha descrito anteriormente para velocidad completa, los bits más sensibles perceptivamente de los datos del paquete de voz comprimida son protegidos mediante una CRC interna. En el extremo de decodificación, se calcula el síndrome como el resto de dividir el vector recibido por g(x), de la ecuación (46). Si el síndrome no indica ningún error, el paquete se acepta sin tener en cuenta el estado del bit de paridad global. Si el síndrome indica un error, el error se corrige si el estado del bit de paridad global no es de verificación. Si el síndrome indica más de un error, el paquete se rechaza. Si se produce un error incorregible en este bloque, el paquete se rechaza y se declara una operación de borrado. En otros casos, la ganancia de tono se establece en cero, pero el resto de parámetros se utiliza a medida que se reciben con correcciones, como se ilustra en la Figura 21c.

Los postfiltros utilizados en esta implementación se describieron por primera vez en el documento "Real-Time Vector APC Speech Coding At 4800 BPS with Adaptive postfiltering" ("Codificación de voz CPA vectorial en tiempo real a 4800 bits/s con postfiltrado adaptativo") de

J.H. Chen et al., Proc. ICASSP, 1987. Puesto que los formantes de voz son perceptivamente más importantes que los valles espectrales, el postfiltro refuerza ligeramente los formantes para mejorar la calidad perceptiva de la voz codificada. Esto se lleva a cabo escalando los polos del filtro de síntesis de formantes radialmente hacia el origen. No obstante, un postfiltro todo polos por lo general introduce una inclinación espectral que da por resultado la amortiguación de la voz filtrada. La inclinación espectral de este postfiltro todo polos se reduce añadiendo ceros que tengan los mismos ángulos de fase que los polos, pero radios más pequeños, dando por resultado un postfiltro de la siguiente forma:

imagen1

siendo A(z) el filtro de predicción de formantes y los valores ρ y σ los factores de escala de postfiltro establecidos en 0,5 y 0,8, respectivamente.

Se añade un filtro de brillo adaptativo para compensar más la inclinación espectral introducida por el postfiltro de formantes. El filtro de brillo es de la siguiente forma:

imagen1

siendo determinado el valor de κ (el coeficiente de este filtro de una toma) mediante el valor medio de las frecuencias LSP que proporciona un valor aproximado del cambio en la inclinación espectral de A(z).

Para evitar desplazamientos grandes de la ganancia como consecuencia del postfiltrado, se implementa un bucle AGC para escalar la salida de voz de forma que tenga aproximadamente la misma energía que la voz que no ha sido postfiltrada. El control de ganancia se lleva a cabo dividiendo la suma de los cuadrados de las 40 muestras introducidas en el filtro por la suma de los cuadrados de las 40 muestras extraídas del filtro para obtener la ganancia inversa del filtro. A continuación, se procede al suavizado de la raíz cuadrada de este factor de ganancia:

β alisada = 0,2 β actual + 0,98 β anterior (50)

y a continuación la salida del filtro se multiplica por esta ganancia inversa suavizada para generar la voz de salida.

En la Figura 19, los datos del canal junto con la velocidad, ya sean transmitidos con los datos o bien obtenidos por otros medios, se proporcionan al subsistema de empaquetamiento de datos 700. En un ejemplo de implementación para un sistema CDMA, una decisión de velocidad que puede obtenerse a partir de la tasa de errores son los datos recibidos cuando se decodifican a cada una de las diferentes velocidades. En el subsistema de desempaquetamiento de datos 700, a velocidad completa, se lleva a cabo una CRC de errores, siendo el resultado de esta verificación proporcionado al subsistema de desempaquetamiento de datos de subtramas 702. El subsistema 700 proporciona una indicación de las condiciones de trama anómalas como, por ejemplo, las tramas en blanco, el borrado de tramas o las tramas erróneas con datos aprovechables al subsistema 702. El subsistema 700 proporciona la velocidad junto con los parámetros I, G, L y b de la trama al subsistema 702. Cuando se proporcionan los valores de índice I y ganancia G de libro de código, el bit de signo del valor de ganancia se verifica en el subsistema 702. Si el bit de signo es negativo, se resta el valor 89 (módulo 128) del índice de libro de código asociado. Además, en el subsistema, la ganancia de libro de código se somete a cuantificación inversa y a decodificación DPCM, mientras que la ganancia de tono se somete a cuantificación inversa.

Asimismo, el subsistema 700 proporciona la velocidad y las frecuencias LSP al subsistema de cuantificación inversa/interpolación LSP 704. El subsistema 700 proporciona además una indicación de trama en blanco, de borrado de trama o de trama errónea con datos aprovechables al subsistema 704. El contador de subtramas de decodificación 706 proporciona una indicación del valor del contador de subtramas i y j a los subsistemas 702 y 704.

En el subsistema 704, las frecuencias LSP son inversamente cuantificadas e interpoladas. La Figura 22 ilustra una implementación de la parte de cuantificación inversa del subsistema 704, siendo la parte de interpolación prácticamente idéntica a la descrita en relación con la Figura 12. En la Figura 22, la parte de cuantificación inversa del subsistema 704 consiste en el cuantificador inverso 750, de construcción idéntica a la del cuantificador inverso 468 de la Figura 12 y de funcionamiento parecido. La salida del cuantificador inverso 750 se proporciona como entrada al sumador 752. La otra entrada del sumador 752 se proporciona como salida del multiplicador 754. La salida del sumador 752 se proporciona al registro 756, en el que se almacena y proporciona para su multiplicación con la constante 0,9 en el multiplicador 754. La salida del sumador 752 también se proporciona al sumador 758, en el que el valor de descentramiento se suma nuevamente a la frecuencia LSP. La ordenación de las frecuencias LSP es asegurada por la lógica 760 que obliga a las frecuencias LSP a tener una separación mínima. Por lo general, la necesidad de forzar la separación no se plantea a menos que se produzca un error en la transmisión. A continuación, las frecuencias LSP se interpolan como se ha descrito en relación con la Figura 13 y en relación con las Figuras 20a-20d y 21a-21c.

En relación otra vez con la Figura 19, la memoria 708 se acopla al subsistema 704 para almacenar las frecuencias LSP de trama anterior, ωi,f-1, y puede utilizarse también para almacenar los valores de descentramiento bωi. Estos valores de trama anterior se utilizan en la interpolación para todas las velocidades. En condiciones de tramas en blanco, borrado de tramas o tramas erróneas con datos aprovechables, se utilizan las frecuencias LSP anteriores ωi,f-1 según el gráfico de las Figuras 21a-21c. En respuesta a una indicación de trama en blanco del subsistema 700, el subsistema 704 recupera las frecuencias LSP de trama anterior almacenadas en la memoria 708 para utilizarlas en la trama actual. En respuesta a una indicación de borrado de trama, el subsistema 704 otra vez recupera las frecuencias LSP de trama anterior de la memoria 708 junto con los valores de descentramiento para calcular las frecuencias LSP de la trama actual como se ha descrito anteriormente. Cuando se efectúa este cálculo, el valor de descentramiento almacenado se resta de la frecuencia LSP de la trama anterior en un sumador, siendo el resultado multiplicado en el multiplicador por un valor constante de 0,9 y siendo este resultado sumado en el sumador al valor de descentramiento almacenado. En respuesta a una indicación de trama errónea con datos aprovechables, las frecuencias LSP se interpolan de la misma forma que para velocidad completa si la CRC resulta satisfactoria.

Las frecuencias LSP se proporcionan al subsistema de transformación LSP-LPC 710, en el que las frecuencias LSP vuelven a convertirse en valores LPC. El subsistema 710 es prácticamente idéntico a los subsistemas de transformación LSP-LPC 218 y 228 de la Figura 7 descritos en relación con la Figura 13. Los coeficientes LPC α i se proporcionan a continuación al filtro de formantes 714 y al postfiltro de formantes 716. Asimismo, se calcula el valor medio de las frecuencias LSP a través de la subtrama en el subsistema promediador LSP 712 y se proporciona al filtro de brillo adaptativo 718 como valor κ .

El subsistema 702 recibe los parámetros I, G, L y b para la trama desde el subsistema 700, junto con la velocidad o la indicación de condición de trama anómala. Asimismo, el subsistema 702 recibe del contador de subtramas 706 los recuentos j para cada recuento i de cada subtrama de decodificación 1-4. El subsistema 702 se acopla también a la memoria 720 que almacena los valores de trama anterior de G, I, L y b, para utilizarlos en condiciones de tramas anómalas. El subsistema 702, en condiciones de tramas normales, salvo en octavo de velocidad, proporciona el valor de índice de libro de código lj al libro de código 722, el valor de ganancia de libro de código Gj al multiplicador 724, y los valores de retardo L y ganancia b de tono al filtro de tonos 726, según la Figura 20a-20d. Para octavo de velocidad, puesto que no se envía ningún valor para el índice de libro de código, se proporciona una simiente de paquete, que es el valor de parámetro de 16 bits (Figura 2d) para octavo de velocidad, al libro de código 722 junto con una indicación de velocidad. Para condiciones de tramas anómalas, los valores se proporcionan desde el subsistema 702 según las Figuras 21a-21c. Además, para octavo de velocidad, se proporciona una indicación al libro de código 722 como la descrita en relación con la Figura 23.

En respuesta a una indicación de trama en blanco del subsistema 700, el subsistema 702 recupera los valores de retardo L y de ganancia b de tono de la trama anterior, aunque aquí la ganancia está limitada al valor uno o inferior, almacenados en la memoria 708, para utilizarlos en las subtramas de decodificación de la trama actual. Además, no se proporciona ningún índice de libro de código I y la ganancia de libro de código G se establece en cero. En respuesta a una indicación de borrado de trama, el subsistema 702 recupera también el índice de libro de código de subtrama de la trama anterior de la memoria 720 y suma, en el sumador, el valor 89. La ganancia de libro de código de subtrama de trama anterior se multiplica en el multiplicador por la constante 0,7 para generar los respectivos valores G de las subtramas. No se proporciona ningún valor de retardo de tono y la ganancia de tono se establece en cero. En respuesta a una indicación de trama errónea con datos aprovechables, el índice y la ganancia de libro de código se utilizan como en una trama de velocidad completa, siempre que la CRC resulte satisfactoria, y no se proporciona ningún valor de retardo de tono y la ganancia de tono se establece en cero.

Como se ha descrito en relación con el decodificador del codificador de la técnica de análisis por síntesis, el índice de libro de código I se utiliza como dirección inicial para el valor de libro de código a proporcionar al multiplicador 724. El valor de ganancia de libro de código se multiplica en el multiplicador 724 por el valor de salida del libro de código 722, siendo el resultado proporcionado al filtro de tonos 726. El filtro de tonos 726 utiliza los valores de retardo L y ganancia b de tono de entrada para generar el residuo de formantes que es proporcionado al filtro de formantes 714. En el filtro de formantes 714, los coeficientes LPC se utilizan para filtrar el residuo de formantes y reconstruir la voz. En el decodificador del receptor, la voz reconstruida es filtrada nuevamente por el postfiltro de formantes 716 y el filtro de brillo adaptativo 718. El bucle AGC 728 se utiliza en la salida del filtro de formantes 714 y del postfiltro de formantes 716, siendo la salida de los mismos multiplicada en el multiplicador 730 por la salida del filtro de brillo adaptativo 718. La salida del multiplicador 730 es la voz reconstruida que luego se convierte en voz analógica utilizando técnicas conocidas y se presenta al oyente. En el decodificador del codificador, el filtro de ponderación perceptiva se coloca en la salida de éste para actualizar sus memorias.

En la Figura 22, se ilustran más detalles de la implementación del propio decodificador. El codificador 722 de la Figura 22 consiste en una memoria 750 parecida a la descrita con referencia a la Figura 17. No obstante, con fines explicativos, en la Figura 22 se ilustra un planteamiento ligeramente diferente para la memoria 750 y el direccionamiento de la misma. El libro de código 722 consiste además en un conmutador 752, un multiplexor 753 y un generador de números pseudoaleatorios (PN) 754. El conmutador 752 es sensible al índice de libro de código para señalar la ubicación de la dirección del índice de la memoria 750, como se indicó con referencia a la Figura 17. La memoria 750 es una memoria circular, en la que el conmutador 752 señala la ubicación de memoria inicial, siendo desplazados los valores a través de la memoria para su salida. Los valores de libro de código se obtienen de la memoria 750 a través del conmutador 752 como entrada para el multiplexor 753. El multiplexor 753 es sensible a la velocidad completa, media velocidad y cuarto de velocidad para proporcionar una salida de los valores proporcionados, a través del conmutador 752, al amplificador de ganancia de libro de código, el multiplicador 724. El multiplexor 753 también es sensible a la indicación de octavo de velocidad para seleccionar la salida del generador PN 754 como salida del libro de código 722 para el multiplicador 724.

Para mantener voz de alta calidad en la codificación CELP, el codificador y el decodificador deben tener los mismos valores almacenados en sus memorias de filtro internas. Esto se lleva a cabo transmitiendo el índice de libro de código, para que los filtros del decodificador y del codificador sean excitados por la misma secuencia de valores. Sin embargo, para la voz de calidad más alta, estas secuencias constan en su mayor parte de ceros con algunos picos distribuidos entre éstos. Este tipo de excitación no resulta óptima para la codificación de ruido de fondo.

Cuando se codifica ruido de fondo, a la velocidad de transmisión de datos más baja, puede implementarse una secuencia pseudoaleatoria para excitar los filtros. Para asegurar que las memorias de filtro sean iguales tanto en el codificador y como en el decodificador, las dos secuencias pseudoaleatorias deben ser iguales. Es necesario transmitir de cualquier manera una simiente al decodificador del receptor. Puesto que no existen bits adicionales que puedan utilizarse para enviar la simiente, los bits del paquete transmitido pueden utilizarse como simiente, como si constituyeran un número. Es posible llevar a cabo esta técnica ya que a velocidad baja, se utiliza exactamente la misma estructura de análisis por síntesis CELP para determinar la ganancia e índice de libro código. La diferencia es que el índice de libro de código se desecha y, en cambio, las memorias de filtro del codificador se actualizan utilizando una secuencia pseudoaleatoria. Por consiguiente, la simiente para la excitación puede determinarse una vez efectuado el análisis. Para asegurar que los propios paquetes no se desplacen de forma iterativa y periódica entre un grupo de configuraciones binarias, se insertan cuatro bits aleatorios en el paquete de octavo de velocidad en lugar de los valores de índice libro de código. Por lo tanto, la simiente del paquete es el valor de 16 bits indicado en la Figura 2d.

El generador PN 754 se construye utilizando técnicas bien conocidas y puede implementarse mediante diversos algoritmos. En la forma de realización a modo de ejemplo, el algoritmo empleado es del tipo descrito en el artículo "DSP chips can produce random numbers using proven algorithm" ("Los chips DSP pueden generar números aleatorios utilizando el algoritmo comprobado") de Paul Mennen, EDN, 21 de enero de 1991. El paquete de bits transmitido se utiliza como simiente (del subsistema 700 de la Figura 18) para generar la secuencia. En una implementación, la simiente se multiplica por el valor 521, sumándose el valor 259 al resultado. A partir del valor resultante, los bits menos significativos se utilizan como un número de 16 bits con signo. A continuación, este valor se utiliza como simiente para generar el siguiente valor de libro de código. La secuencia generada por el generador PN se

normaliza para que tenga una varianza de 1.

Cada valor obtenido del libro de código 722 se multiplica en el multiplicador 724 por la ganancia de libro de código G proporcionada durante la subtrama de decodificador. Este valor se proporciona como entrada al sumador 756 del filtro de tonos 726. El filtro tonos 726 consiste además en el multiplicador 758 y la memoria 760. El retardo de tono L determina la posición de una toma de la memoria 760 que es pasada al multiplicador 758. La salida de la memoria 760 se multiplica en el multiplicador 758 por el valor de ganancia de tono b, siendo el resultado pasado al sumador 756. La salida del sumador 756 proporciona a una entrada de la memoria 760 que es una serie de elementos de retardo como, por ejemplo, un registro de desplazamiento. Los valores se desplazan a través de memoria 760 (en la dirección Indicada por la flecha) y se proporcionan a la salida de toma seleccionada determinada por el valor de L. Puesto que los valores se desplazan a través de la memoria 760, los valores de antigüedad superior a 143 desplazamientos se rechazan. La salida del sumador 756 también se proporciona como entrada al filtro de formantes 714.

La salida del sumador 756 se proporciona a una entrada del sumador 762 del filtro de formantes 714. El filtro de formantes 714 consiste además en el grupo de multiplicadores 764a764j y la memoria 766. La salida del sumador 762 se proporciona como entrada a la memoria 766 que también está construida como una serie de elementos de retardo con tomas como, por ejemplo, un registro de desplazamiento. Los valores se desplazan por la memoria 766 (en la dirección indicada por la flecha) y se descartan por el extremo. Cada elemento tiene una toma que proporciona el valor almacenado como salida al correspondiente multiplicador de los multiplicadores 764a-764j. Cada uno de los multiplicadores 764a-764j recibe también el correspondiente coeficiente LPC de los coeficientes LPC α1 -α10 para multiplicarlo por la salida de la memoria 766. La salida del sumador 762 se proporciona como salida del filtro de formantes 714.

La salida del filtro de formantes 714 se proporciona como entrada al postfiltro de formantes 716 y al subsistema AGC 728. El postfiltro de formantes 716 consiste en los sumadores 768 y 770, junto con la memoria 772 y los multiplicadores 774a-774j, 776a-776j, 780a-780j y 782a-782j. A medida que los valores se desplazan por la memoria 772, se proporcionan por las correspondientes tomas para su multiplicación por los valores de coeficientes LPC escalados y su suma en los sumadores 768 y 770. La salida del postfiltro de formantes 716 se proporciona como entrada al filtro de brillo adaptativo 718.

El filtro de brillo adaptativo 718 consiste en los sumadores 784 y 786, los registros 788 y 790 y los multiplicadores 792 y 794. La Figura 24 es un gráfico que ilustra las características del filtro de brillo adaptativo. La salida del postfiltro de formantes 716 se proporciona al sumador 784 como una de sus entradas, mientras que la otra entrada procede de la salida del multiplicador 792. La salida del sumador 784 es proporcionada al registro 788, almacenada durante un ciclo y proporcionada durante el siguiente ciclo a los multiplicadores 792 y 794, junto con el valor -κ proporcionado por el promediador LSP 712 de la Figura 19. La salida de los multiplicadores 792 y 794 se proporciona a los sumadores 784 y 786. La salida del sumador 786 se proporciona al subsistema AGC 728 y al registro de desplazamiento 790. El registro 790 se utiliza como línea de retardo para asegurar la coordinación en los datos proporcionados por el filtro de formantes 714 al subsistema AGC 728, y proporcionados al filtro de brillo adaptativo 718 por medio del postfiltro de formantes 716.

El subsistema AGC 728 recibe los datos del postfiltro de formantes 716 y del filtro de brillo adaptativo 718 para escalar la energía de voz de salida hasta aproximadamente la energía de voz de entrada en el postfiltro de formantes 716 y el filtro de brillo adaptativo 718. El subsistema AGC 728 consiste en los multiplicadores 798, 800, 802 y 804, los sumadores 806, 808 y 810, los registros 812, 814 y 816, el divisor 818 y el elemento de raíz cuadrada 820. La salida de 40 muestras del postfiltro de formantes 716 se eleva al cuadrado en el multiplicador 798 y se suma en un acumulador, que consiste en el sumador 806 y el registro 812, para generar el valor “x”. Del mismo modo, la salida de 40 muestras del filtro de brillo adaptativo 718, tomada antes del registro 790, se eleva al cuadrado en el multiplicador 800 y se suma en un acumulador, que consiste en el sumador 808 y el registro 814, para generar el valor "y". El valor "y" es dividido por el valor "x" en el divisor 816 para dar la ganancia inversa de los filtros. La raíz cuadrada del factor de ganancia inversa es obtenida en el elemento 818, siendo el resultado sometido a suavizado. La operación de suavizado se lleva a cabo multiplicando el valor actual de ganancia G por el valor constante 0,02 en el multiplicador 802, siendo este resultado sumado en el sumador 810 al resultado de multiplicar por 0,98 la ganancia previa calculada utilizando el registro 820 y el multiplicador 804. La salida del filtro 718 se multiplica a continuación por la ganancia inversa suavizada en el multiplicador 730 para proporcionar la voz reconstruida de salida. La voz de salida se convierte luego en voz analógica utilizando las diversas técnicas de conversión bien conocidas para proporcionarla al usuario.

Debe sobrentenderse que la forma de realización de la presente invención dada a conocer aquí es solo un ejemplo de forma de realización, y que pueden efectuarse variantes de la forma de realización con funcionalidad equivalente. La presente invención puede implementarse en un procesador de señales digitales bajo control de un programa adecuado que proporciona la operación funcional dada a conocer aquí para codificar las muestras de voz y decodificar la voz codificada. En otras implementaciones, la presente invención puede adoptar la forma de realización de un circuito integrado para aplicación específica (ASIC) utilizando técnicas muy conocidas de integración a escala muy grande (VLSI).

La descripción anterior de las formas de realización preferidas se proporciona para permitir a los expertos en la materia la utilización de la presente invención. Las diversas modificaciones a estas formas de realización resultarán muy evidentes para los expertos en la materia, pudiéndose aplicar los principios genéricos definidos aquí a otras formas de realización sin utilizar la capacidad inventiva. Por lo tanto, la presente invención no pretende limitarse a las formas de realización mostradas en la presente memoria, sino que se le concede el alcance definido en las reivindicaciones adjuntas.

Claims

REIVINDICACIONES

1.-Un procedimiento de procesamiento de una señal de voz que comprende una

pluralidad de tramas, comprendiendo el procedimiento: calcular un nivel de energía de una trama de la señal de voz; obtener una estimación de ruido de fondo (B) en una trama anterior de la señal de voz; generar una estimación actual de ruido de fondo (B’); asignar bits para la trama de la señal de voz, donde se asignan menos bits en función de si el nivel de energía es inferior a al menos una función de la estimación de ruido de fondo (B) en la trama anterior; y codificar la señal de voz en un paquete según los bits asignados. 2.-El procedimiento según la reivindicación 1, en el que la generación comprende limitar

un incremento en la estimación actual de ruido de fondo (B') sobre la estimación de ruido de fondo (B) por debajo de un valor predefinido.
3.-El procedimiento según la reivindicación 2, en el que la limitación comprende restringir la estimación actual de ruido de fondo (B’) a un valor que sea inferior o igual a la función del nivel de energía.
4.-El procedimiento según cualquiera de las reivindicaciones 1 a 3, en el que el nivel de energía de una trama de la señal de voz es un primer coeficiente de autocorrelación proporcionado por una autocorrelación de muestras de voz digitalizadas en una ventana de Hamming.
5.-El procedimiento según cualquiera de las reivindicaciones 1 a 3, en el que el nivel de energía de una trama de la señal de voz se aproxima mediante el logaritmo de un primer coeficiente de autocorrelación normalizado por una longitud de ventana de Hamming efectiva.
6.-El procedimiento según cualquiera de las reivindicaciones 1 a 5, en el que dicha al menos una función de la estimación de ruido de fondo (B) es una función cuadrática. 7.-Un procesador de voz configurado para procesar una señal de voz, que comprende

una pluralidad de tramas, comprendiendo el procesador de voz: medios para calcular un nivel de energía de una trama de la señal de voz; medios para obtener una estimación de ruido de fondo (B) en una trama anterior de la señal de voz; medios para generar una estimación actual de ruido de fondo (B’); medios para asignar bits para la trama de la señal de voz, donde se asignan menos bits en función de si el nivel de energía es inferior a al menos una función de la estimación de ruido de fondo (B) en la trama anterior; y

medios para codificar la señal de voz en un paquete según los bits asignados.
8.-El procesador de voz según la reivindicación 7, en el que los medios de generación comprenden medios para limitar un incremento en la estimación actual de ruido de fondo (B') sobre la estimación de ruido de fondo (B) por debajo de un valor predefinido.
9.-El procesador de voz según la reivindicación 8, en el que los medios de limitación comprenden medios para restringir la estimación actual de ruido de fondo (B’) a un valor que sea inferior o igual a la función del nivel de energía.
10.-El procesador de voz según la reivindicación 7, en el que: los medios para calcular un nivel de energía de una trama de la señal de voz es un primer circuito configurado para calcular un nivel de energía de una trama de la señal de voz; los medios para obtener una estimación de ruido de fondo (B) en una trama anterior de la señal de voz son un segundo circuito configurado para calcular una estimación de ruido de fondo (B) en una trama anterior de la señal de voz y para incrementar la estimación de ruido de fondo en una trama anterior de la señal de voz en una cantidad predefinida para generar un valor de estimación incrementado; los medios para generar una estimación actual de ruido de fondo (B’) son un primer multiplexor acoplado al primer y al segundo circuito y configurado para recibir el valor de estimación incrementado y el nivel de energía, y para seleccionar o bien el valor de estimación incrementado o bien el nivel de energía como una estimación de ruido de fondo (B’) en una trama actual de la señal de voz; y los medios para asignar bits para la trama de la señal de voz son un ensamblador de datos configurado para asignar bits para la trama de la señal de voz, donde se asignan menos bits en base a si una función del nivel de energía es inferior a al menos una función de la estimación de ruido de fondo (B). 11.-El procesador de voz según la reivindicación 10, que comprende además un primer

limitador acoplado al segundo circuito y configurado para limitar el valor de estimación incrementado a un valor que sea inferior a un nivel predefinido.
12.-El procesador de voz según la reivindicación 11, que comprende además un segundo limitador acoplado al primer multiplexor y configurado para limitar la estimación de ruido de fondo en una trama actual de la señal de voz a un valor que sea inferior o igual al nivel de energía.
13.-El procesador de voz según cualquiera de las reivindicaciones 7 a 12, en el que el nivel de energía de una trama de la señal de voz es un primer coeficiente de autocorrelación proporcionado por una autocorrelación de muestras de voz digitalizadas en una ventana de Hamming.
14.-El procesador de voz según cualquiera de las reivindicaciones 7 a 12, en el que el nivel de energía de una trama de la señal de voz se aproxima mediante el logaritmo de un primer coeficiente de autocorrelación normalizado por una longitud de ventana de Hamming efectiva.
15.-El procesador de voz según cualquiera de las reivindicaciones 7 a 12, en el que dicha al menos una función de la estimación de ruido de fondo (B) es una función cuadrática.