ES2299175T3

ES2299175T3 - Procedimiento y aparato para realizar vocodificacion con tasa reducida y tasa variable.

Info

Publication number: ES2299175T3
Application number: ES95928266T
Authority: ES
Inventors: Andrew P. Dejaco
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1994-08-05
Filing date: 1995-08-01
Publication date: 2008-05-16
Anticipated expiration: 2015-08-01
Also published as: HK1015184A1; FI961445A7; FI122726B; JPH09503874A; EP0722603B1; WO1996004646A1; KR100399648B1; DE69535723T2; JP2004361970A; US6240387B1; TW271524B; EP0722603A1; FI20070642L; BR9506307B1; US6484138B2; MY114777A; ATE470932T1; RU2146394C1; EP1339044A2; KR960705306A

Abstract

Un aparato para seleccionar una tasa de codificación a partir de un conjunto predeterminado de tasas de codificación para codificar una trama de habla que incluye una pluralidad de muestras del habla, que comprende: medios (12) de medición de modo, sensibles a dichas muestras del habla y a al menos una señal derivada de dichas muestras del habla, para generar un conjunto de parámetros indicativo de características de dicha trama del habla; y medios de lógica (14) de determinación de la tasa para recibir dicho conjunto de parámetros, para determinar la importancia psicoacústica de dichas muestras del habla según dicho conjunto de parámetros y para seleccionar una tasa de codificación a partir de dicho conjunto predeterminado de tasas de codificación según dicha importancia psicoacústica determinada utilizando reglas de selección de la tasa predeterminadas.

Description

Procedimiento y aparato para realizar vocodificación con tasa reducida y tasa variable.

Antecedentes de la invención I. Campo de la invención

La presente invención se refiere a comunicaciones. Más en particular, la presente invención se refiere a un procedimiento y a un aparato novedosos y mejorados para realizar codificación por predicción lineal excitada por código (CELP) con tasa, o velocidad, variable.

II. Descripción de la técnica relacionada

La transmisión de voz mediante técnicas digitales se ha extendido, particularmente en aplicaciones de larga distancia y de radiotelefonía digital. Esto, a su vez, ha despertado interés en determinar la menor cantidad de información que puede enviarse por el canal que mantiene la calidad percibida del habla reconstruida. Si el habla se transmite simplemente muestreando y digitalizando, se requiere una tasa de transmisión de datos del orden de 64 kilobits por segundo (kbps) para conseguir una calidad del habla del teléfono analógico convencional. Sin embargo, a través del uso de análisis del habla, seguido de la codificación, la transmisión, y la resíntesis apropiadas en el receptor, puede lograrse una reducción significativa en la tasa de transmisión de datos.

Los dispositivos que emplean técnicas para comprimir habla sonora extrayendo parámetros que se refieren a un modelo de generación del habla humana normalmente se denominan vocodificadores. Tales dispositivos están compuestos por un codificador, que analiza el habla entrante para extraer los parámetros pertinentes, y un descodificador, que resintetiza el habla utilizando los parámetros que recibe por el canal de transmisión. Con el fin de ser precisos, el modelo debe cambiar continuamente. Así el habla se divide en bloques de tiempo, o tramas de análisis, durante los que se calculan los parámetros. Los parámetros entonces se actualizan para cada nueva trama.

De las diversas clases de codificadores del habla la codificación por predicción lineal excitada por código (CELP), la codificación estocástica o la codificación del habla excitada por vector son de una clase. Un ejemplo de un algoritmo de codificación de esta clase particular se describe en el artículo "A 4.8kbps Code Excited Linear Predictive Coder" de Thomas E. Tremain et al., Proceedings of the Mobile Satellite Conference, 1988.

La función del vocodificador es comprimir la señal del habla digitalizada en una señal de tasa de transmisión de bits baja eliminando todas las redundancias naturales inherentes al habla. El habla normalmente tiene redundancias a corto plazo debidas principalmente a la operación de filtrado del tracto vocal, y redundancias a largo plazo debidas a la excitación del tracto vocal por las cuerdas vocales. En un codificador CELP, estas operaciones se modelan mediante dos filtros, un filtro formante a corto plazo y un filtro de altura tonal a largo plazo. Una vez eliminadas estas redundancias, la señal residual resultante puede modelarse como ruido blanco gaussiano, que también debe codificarse. La base de esta técnica es calcular los parámetros de un filtro, llamado el filtro LPC, que realiza predicción a corto plazo de la forma de onda del habla utilizando un modelo del tracto vocal humano. Además, los efectos a largo plazo, relacionados con la altura tonal del habla, se modelan calculando los parámetros de un filtro de altura tonal, que esencialmente modela las cuerdas vocales humanas. Finalmente, estos filtros deben excitarse, y esto se hace determinando cuál, de un número de formas de onda de excitación aleatorias en un libro de códigos (codebook), tiene como resultado la aproximación más próxima al habla original cuando la forma de onda excita los dos filtros mencionados anteriormente. Así los parámetros transmitidos se refieren a tres elementos (1) el filtro LPC, (2) el filtro de altura tonal y (3) la excitación del libro de códigos.

Aunque el uso de técnicas de vocodificación favorece el objetivo de intentar reducir la cantidad de información enviada por el canal mientras se mantiene habla reconstruida de calidad, es necesario emplear otras técnicas para lograr reducción adicional. Una técnica utilizada previamente para reducir la cantidad de información enviada es desconexión de actividad vocal. En esta técnica no se transmite información durante las pausas del habla. Aunque esta técnica logra el resultado deseado de reducción de datos, tiene varias deficiencias.

En muchos casos, la calidad del habla se reduce debido al recorte de las partes iniciales de las palabras. Otro problema de desconectar el canal durante la inactividad es que los usuarios del sistema perciben la falta de ruido de fondo que normalmente acompaña al habla y juzgan la calidad del canal como inferior a una llamada telefónica normal. Un problema adicional de la desconexión de actividad es que ruidos repentinos ocasionales en el fondo pueden disparar el transmisor cuando no se produce habla, lo que tiene como resultado ráfagas de ruido molestas en el receptor.

En un intento de mejorar la calidad del habla sintetizada en sistemas de desconexión de actividad vocal, se añade ruido de comodidad sintetizado durante el proceso de descodificación. Aunque se logra alguna mejora de la calidad de añadir ruido de comodidad, no mejora sustancialmente la calidad global ya que el ruido de comodidad no modela el ruido de fondo real en el codificador.

Una técnica preferida para llevar a cabo la compresión de datos, para que tenga como resultado una reducción de información que necesita enviarse, es realizar vocodificación con tasa variable. Debido a que el habla contiene inherentemente periodos de silencio, es decir pausas, la cantidad de datos requeridos para representar estos periodos puede reducirse. La vocodificación con tasa variable aprovecha de la manera más eficaz este hecho reduciendo la tasa de transmisión de datos para estos periodos de silencio. Una reducción en la tasa de transmisión de datos, en contraposición a una detención completa en la transmisión de datos, para periodos de silencio supera los problemas asociados con desconexión de actividad vocal mientras se facilita una reducción en la información transmitida.

La patente estadounidense en tramitación junto con la presente 5.414.796, expedida el 9 de mayo de 1995, titulada "Variable Rate Vocoder" y transferida al cesionario de la presente invención, detalla un algoritmo de vocodificación de la clase de codificadores del habla mencionada anteriormente, codificación por predicción lineal excitada por código (CELP), codificación estocástica o vocodificación excitada por vector. La técnica CELP por sí misma proporciona una reducción significativa en la cantidad de datos necesarios para representar el habla de una manera que tras la resíntesis tiene como resultado habla de alta calidad. Tal como se mencionó anteriormente los parámetros del vocodificador se actualizan para cada trama. El vocodificador detallado en la solicitud de patente en tramitación junto con la presente proporciona una tasa de transmisión de datos de salida variable cambiando la frecuencia y la precisión de los parámetros del modelo.

El algoritmo de vocodificación de la solicitud de patente mencionada anteriormente difiere de manera más marcada de las técnicas de CELP anteriores produciendo una tasa de transmisión de datos de salida variable basándose en actividad del habla. La estructura se define para que los parámetros se actualicen con menos frecuencia, o con menos precisión, durante las pausas en el habla. Esta técnica permite un descenso incluso mayor en la cantidad de información que va a transmitirse. El fenómeno que se aprovecha para reducir la tasa de transmisión de datos es el factor de actividad vocal, que es el porcentaje medio de tiempo que un hablante dado está realmente hablando durante una conversación. Para conversaciones telefónicas bidireccionales típicas, la tasa de transmisión de datos media se reduce por un factor de 2 o más. Durante las pausas en el habla, el vocodificador sólo está codificando el ruido de fondo. En estos momentos, no es necesario que se transmitan algunos de los parámetros relacionados con el modelo del tracto vocal humano.

Tal como se mencionó anteriormente un enfoque anterior para limitar la cantidad de información transmitida durante el silencio se llama desconexión de actividad vocal, una técnica en la que no se transmite información durante los momentos de silencio. En el lado de recepción el periodo puede llenarse con "ruido de comodidad" sintetizado. En contraposición, un vocodificador con tasa variable está transmitiendo datos continuamente que, en la realización ejemplar de la solicitud en tramitación junto con la presente, está en tasas que varían entre aproximadamente 8 kbps y 1 kbps. Un vocodificador que proporciona una transmisión de datos continua elimina la necesidad de "ruido de comodidad" sintetizado, con la codificación del ruido de fondo proporcionando una calidad más natural al habla sintetizada. La invención de la solicitud de patente mencionada anteriormente por tanto proporciona una mejora significativa en la calidad del habla sintetizada respecto a la de desconexión de actividad vocal permitiendo una transición suave entre habla y fondo.

El algoritmo de vocodificación de la solicitud de patente mencionada anteriormente permite detectar pausas cortas en el habla, se lleva a cabo un descenso en el factor de actividad vocal efectivo. Pueden tomarse decisiones de tasa trama a trama sin retención, de modo que la tasa de transmisión de datos puede bajarse para pausas en el habla tan cortas como la duración de trama, normalmente 20 ms. Por tanto pueden capturarse pausas tales como aquellas entre sílabas. Esta técnica disminuye el factor de actividad vocal más allá de lo que se ha considerado tradicionalmente, ya que no sólo las pausas de larga duración entre frases, sino también las pausas más cortas pueden codificarse con tasas más bajas.

Puesto que las decisiones de tasas se toman basándose en una trama, no hay recorte de la parte inicial de la palabra, tal como en un sistema de desconexión de actividad vocal. El recorte de esta naturaleza se produce en el sistema de desconexión de actividad vocal debido a un retardo entre la detección del habla y una reanudación de la transmisión de datos. El uso de una decisión de tasa basándose en cada trama tiene como resultado un habla en la que todas las transiciones tienen un sonido natural.

Con el vocodificador siempre transmitiendo, el ruido de fondo ambiente del hablante se escuchará continuamente en el extremo de recepción produciendo de ese modo un sonido más natural durante las pausas del habla. La presente invención proporciona por tanto una transición suave al ruido de fondo. Lo que escucha el oyente en el fondo durante el habla no cambiará de repente a un ruido de comodidad sintetizado durante las pausas como en un sistema de desconexión de actividad vocal.

Debido a que el ruido de fondo se vocodifica continuamente para su transmisión, pueden enviarse eventos interesantes en el fondo con total claridad. En ciertos casos el ruido de fondo interesante puede incluso codificarse con la tasa más alta. Puede producirse codificación con la tasa máxima, por ejemplo, cuando alguien está hablando alto en el fondo, o si pasa una ambulancia al lado de un usuario que está en la esquina de una calle. El ruido de fondo constante o que varía lentamente, sin embargo, se codificará con tasas bajas.

El uso de vocodificación con tasa variable promete aumentar la capacidad de un sistema telefónico celular digital basado en acceso múltiple por división de código (CDMA) por más de un factor de dos. CDMA y la vocodificación con tasa variable se corresponden unívocamente, ya que, con CDMA, la interferencia entre canales cae automáticamente a medida que la tasa de transmisión de datos por cualquier canal disminuye. En contraposición, considérense sistemas en los que se asignan ranuras de transmisión, tales como TDMA o FDMA. Con el fin de que un sistema de este tipo se aproveche de cualquier caída en la tasa de transmisión de datos, se requiere intervención externa para coordinar la reasignación de ranuras no utilizadas a otros usuarios. El retardo inherente en un esquema de este tipo implica que el canal puede reasignarse sólo durante largas pausas del habla. Por tanto, no puede aprovecharse totalmente el factor de actividad vocal. Sin embargo, con coordinación externa, la vocodificación con tasa variable es útil en sistemas distintos de CDMA debido a las otras razones mencionadas.

En un sistema CDMA la calidad del habla puede degradarse ligeramente en momentos en los que se desea capacidad de sistema adicional. Hablando en abstracto, puede pensarse en el vocodificador como múltiples vocodificadores operando todos con tasas diferentes con calidades del habla resultantes diferentes. Por tanto las calidades del habla pueden mezclarse con el fin de reducir adicionalmente la tasa de transmisión de datos media. Experimentos iniciales muestran que mezclando habla vocodificado con tasas total y de la mitad, por ejemplo, se varía la tasa de transmisión de datos admisible máxima trama a trama entre 8 kbps y 4 kbps, el habla resultante tiene una calidad que es mejor que la mitad de la tasa variable, 4 kbps como máximo, pero no tan buena como la tasa variable total, 8 kbps como máximo.

Se conoce ampliamente que en la mayor parte de las conversaciones telefónicas, sólo habla una persona a la vez. Como función adicional para enlaces telefónicos dúplex total puede proporcionarse un interbloqueo de tasa. Si una dirección del enlace está transmitiendo con la tasa de transmisión más alta, entonces se fuerza a la otra dirección del enlace a transmitir con la tasa más baja. Un interbloqueo entre las dos direcciones del enlace puede garantizar no más del 50% de utilización media de cada dirección del enlace. Sin embargo, cuando el canal se desconecta, tal como en el caso para un interbloqueo de tasa en desconexión de actividad, no hay manera de que un oyente interrumpa al hablante para asumir el papel de hablante en la conversación. El procedimiento de vocodificación de la solicitud de patente mencionada anteriormente proporciona fácilmente la capacidad de un interbloqueo de tasa adaptativo mediante señales de control que establecen la tasa de vocodificación.

En la solicitud de patente mencionada anteriormente el vocodificador se opera o bien con la tasa total cuando hay habla o con un octavo de la tasa no hay habla. La operación del algoritmo de vocodificación con la mitad y con un cuarto de la tasa se reserva para condiciones especiales de capacidad impactada o cuando van a transmitirse otros datos en paralelo con los datos del habla.

La solicitud de patente estadounidense en tramitación junto con la presente número de serie 08/118.473, presentada el 8 de septiembre de 1993, titulada "Method and Apparatus for Determining the Transmission Data Rate in a Multi-User Communication System" y transferida al cesionario de la presente invención detalla un procedimiento por el que un sistema de comunicación según mediciones de capacidad de sistema limita la tasa de transmisión de datos media de tramas codificadas mediante un vocodificador con tasa variable. El sistema reduce la tasa de transmisión de datos media forzando que se codifiquen tramas predeterminadas en una cadena de tramas de tasa total con una tasa menor, es decir la mitad de la tasa. El problema de reducir la tasa de codificación para tramas del habla activa de esta manera es que la limitación no corresponde a ninguna característica del habla de entrada y por tanto no está optimizada para calidad de compresión del habla.

Asimismo, en la patente estadounidense número 5.341.456 titulada "Improved Method for Determining Speech Encoding Rate in a Variable Rate Vocoder", expedida el 23 de agosto de 1994, y transferida al cesionario de la presente invención, se da a conocer un procedimiento para distinguir habla sorda de habla sonora. El procedimiento dado a conocer examina la energía del habla y la inclinación espectral del habla y utiliza la inclinación espectral para distinguir el habla sorda de ruido de fondo.

Los vocodificadores con tasa variable que varían la tasa de codificación basándose completamente en la actividad vocal del fallo del habla de entrada para llevar a cabo la eficacia de compresión de un codificador con tasa variable que varía la tasa de codificación basándose en la complejidad o contenido de información que está variando dinámicamente durante el habla activa. Haciendo corresponder las tasas de codificación con la complejidad de la forma de onda de entrada pueden construirse codificadores del habla más eficaces. Además, los sistemas que buscan ajustar dinámicamente la tasa de transmisión de datos de salida de los vocodificadores con tasa variable deberían variar las tasas de transmisión de datos según características del habla de entrada para conseguir una calidad de voz óptima para una tasa de transmisión de datos media deseada.

Se llama la atención adicionalmente al documento WO 92/22891, que da a conocer un aparato y un procedimiento para llevar a cabo compresión de señal del habla, mediante codificación con tasa variable de tramas de muestras del habla digitalizadas. Se determina el nivel de actividad del habla para cada trama de muestras del habla digitalizadas y se selecciona una tasa por paquetes de datos de salida a partir de un conjunto de tasas basándose en el nivel determinado de la actividad del habla de tramas. Una tasa más baja del conjunto de tasas corresponde a un nivel mínimo detectado de actividad del habla, tal como ruido de fondo o pausas del habla, mientras que la tasa más alta corresponde a un nivel máximo detectado de actividad del habla, tal como vocalización activa. Cada trama se codifica entonces según un formato de codificación predeterminado para la tasa seleccionada en el que cada tasa tiene un número correspondiente de bits representativo de la trama codificada. Se proporciona un paquete de datos para cada trama codificada con cada paquete de datos de salida de una tasa de transmisión de bits correspondiente a la tasa seleccionada.

Se llama la atención además al documento EP 0 578 436, que da a conocer un procedimiento de codificación del habla y un aparato que aplica selectivamente técnicas de codificación del habla a segmentos de tiempo de señales de información del habla, tales como, por ejemplo formas de onda de ciclo de altura tonal. Se está enseñando a usar dos codificadores CELP para conseguir una tasa de transmisión de bits reducida aplicando selectivamente el segundo codificador. Sin embargo, esta referencia no se refiere a codificación con tasa variable, en la que la determinación de la tasa se realiza "sobre la marcha" basándose en características de la trama del habla.

También se llama la atención al documento Proceedings of Melecon, 1994, Vol. 1, 12 a 14 de abril de 1994, Antalya, TR, páginas 47 a 50, Paksoy E. et al., "Variable Rate Speech Coding for Multiple Access Wireless Networks", que da a conocer un algoritmo de codificación del habla con tasa variable controlada por la fuente, en el que la tasa y la estrategia de codificación están basadas en clasificación fonética de segmentos del habla.

También se llama la atención al documento Advances in Speech Coding, 5 a 8 de septiembre de 1989, Vancouver, CA, páginas 157 a 166, Taniguchi T. et al., "Speech Coding with Dynamic Bit Allocation (Multimode Coding)", que da a conocer el uso de múltiples codificadores. Los codificadores procesan la trama del habla en paralelo y se usa el codificador que logra el mejor rendimiento de codificación.

Por último pero no en menor medida se llama la atención al documento EP-A-3 433 015 que da a conocer un sistema de codificación con tasa variable que tiene menos degradación de la calidad de una señal de descodificador con respecto al abandono de señal paquete por paquete para garantizar de ese modo una calidad estable y con eficacia de código alto. El sistema de codificación con tasa de transmisión de bits variable se caracteriza porque una secuencia de señales digitales se divide en señales de una pluralidad de zonas de banda y las señales divididas se codifican trama a trama.

Según la presente invención se proporciona un aparato para seleccionar una tasa de codificación como se expone en la reivindicación 1, y un procedimiento para seleccionar una tasa de codificación según se expone en la reivindicación 27. Realizaciones preferidas de la invención se dan a conocer en las reivindicaciones dependientes.

Sumario de la invención

La presente invención es un procedimiento y un aparato novedosos y mejorados para codificar tramas del habla activa con una tasa reducida mediante la codificación de tramas del habla con tasas entre una tasa máxima predeterminada y una tasa mínima predeterminada. La presente invención designa un conjunto de modos de funcionamiento del habla activa. En la realización ejemplar de la presente invención, hay cuatro modos de funcionamiento del habla activa, habla con tasa total, habla con la mitad de la tasa, habla sorda con un cuarto de la tasa y habla sonora con un cuarto de la tasa.

Es un objetivo de la presente invención proporcionar un procedimiento optimizado para seleccionar un modo de codificación que proporcione codificación con tasa eficaz del habla de entrada. Es un segundo objetivo de la presente invención identificar un conjunto de parámetros idealmente adecuados para esta selección de modo de funcionamiento y para proporcionar medios para generar este conjunto de parámetros. En tercer lugar, es un objetivo de la presente invención proporcionar identificación de dos condiciones independientes que permitan codificación con tasa baja con sacrificio mínimo de la calidad. Las dos condiciones son la presencia del habla sorda y la presencia del habla temporalmente enmascarada. Es un cuarto objetivo de la presente invención proporcionar un procedimiento para ajustar dinámicamente la tasa de transmisión de datos de salida media del codificador del habla con impacto mínimo en la calidad del habla.

La presente invención, proporciona un conjunto de criterios de decisión de la tasa denominados medidas de modo. Una primera medida de modo es la relación señal a ruido correspondiente al objetivo (TMNSR) a partir de la trama de codificación anterior, que proporciona información acerca de lo bien que se corresponde el habla sintetizada con el habla de entrada o, en otras palabras, lo bien que está actuando el modelo de codificación. Una segunda medida de modo es la función de autocorrelación normalizada (NACF), que mide la periodicidad en la trama del habla. Una tercera medida de modo es el parámetro de cruces por cero (ZC) que es un procedimiento económico desde el punto de vista del cálculo para medir el contenido de alta frecuencia en una trama del habla de entrada. Una cuarta medida es el diferencial de ganancia de predicción (PGD) que determina si el modelo LPC está manteniendo su eficacia de predicción. La quinta medida es el diferencial de energía (ED) que compara la energía en la trama actual con una energía de trama media.

La realización ejemplar del algoritmo de vocodificación de la presente invención usa las cinco medidas de modo enumeradas anteriormente para seleccionar un modo de codificación para una trama del habla activa. La lógica de determinación de la tasa de la presente invención compara la NACF con un primer valor umbral y el ZC con un segundo valor umbral para determinar si el habla debería codificarse como habla sorda con un cuarto de la tasa.

Si se determina que la trama del habla activa contiene habla sonora, entonces el vocodificador examina el parámetro ED para determinar si la trama del habla debería codificarse como habla sonora con un cuarto de la tasa. Si se determina que el habla no ha a codificarse con un cuarto de la tasa, entonces el vocodificador prueba si el habla puede codificarse con la mitad de la tasa. El vocodificador prueba los valores TMSNR, PGD y NACF para determinar si la trama del habla puede codificarse con la mitad de la tasa. Si se determina que la trama del habla activa no puede codificarse con un cuarto o la mitad de la tasa, entonces la trama se codifica con la tasa total.

\global\parskip0.900000\baselineskip

Otro objetivo es proporcionar un procedimiento para cambiar dinámicamente valores umbral con el fin de adaptarse a requisitos de tasa. Variando uno o más de los umbrales de selección de modo, es posible aumentar o disminuir la tasa de transmisión de datos media. Por tanto, ajustando dinámicamente los valores umbral puede ajustarse una tasa de salida.

Breve descripción de los dibujos

Las características, objetos y ventajas de la presente invención se harán más evidentes a partir de la descripción detallada expuesta a continuación cuando se tome conjuntamente con los dibujos en los que caracteres de referencia similares identifican correspondientemente a lo largo de los mismos y en los que:

la figura 1 es un diagrama de bloques del aparato de determinación de la tasa de codificación de la presente invención; y

la figura 2 es un diagrama de flujo que ilustra el proceso de selección de la tasa de codificación de la lógica de determinación de la tasa.

Descripción detallada de las realizaciones preferidas

En la realización ejemplar, se codifican tramas del habla de 160 muestras. En la realización ejemplar de la presente invención, hay cuatro tasas de transmisión de datos, tasa total, la mitad de la tasa, un cuarto de la tasa y un octavo de la tasa. La tasa total corresponde una tasa transmisión de datos de salida de 14,4 kbps. La mitad de la tasa corresponde a una tasa de transmisión de datos de salida de 7,2 kbps. Un cuarto de la tasa corresponde a una tasa de transmisión de datos de salida de 3,6 kbps. Un octavo de la tasa corresponde a una tasa de transmisión de datos de salida de 1,8 kbps, y se reserva para la transmisión durante periodos de silencio.

Debería observarse que la presente invención se refiere sólo a la codificación de tramas del habla activa, tramas que se detectan que tienen habla presente en las mismas. El procedimiento para detectar la presencia del habla se detalla en las patentes estadounidenses US-A-5414796 y US-A-5341456 mencionadas anteriormente.

Con referencia a la figura 1, el elemento 12 de medición de modo determina valores de cinco parámetros utilizados por la lógica 14 de determinación de la tasa para seleccionar una tasa de codificación para la trama del habla activa. En la realización ejemplar, el elemento 12 de medición de modo determina cinco parámetros que proporciona a la lógica 14 de determinación de la tasa. Basándose en los parámetros proporcionados por el elemento 12 de medición de modo, la lógica 14 de determinación de la tasa selecciona una tasa de codificación de tasa total, mitad de la tasa o un cuarto de la tasa.

La lógica 14 de determinación de la tasa selecciona uno de cuatro modos de codificación según los cinco parámetros generados. Los cuatro modos de codificación incluyen modo de tasa total, mitad de la tasa, modo sordo de un cuarto de la tasa y modo sonoro de un cuarto de la tasa. El modo sonoro de un cuarto de la tasa y el modo sordo de un cuarto de la tasa proporcionan datos con la misma tasa pero mediante distintas estrategias de codificación. El modo de la mitad de la tasa se usa para codificar habla bien modelada, periódica y estacionaria. Tanto el modo sonoro de un cuarto de la tasa, como el sordo de un cuarto de la tasa, así como el de la mitad de la tasa aprovechan de partes del habla que no requieren alta precisión en la codificación de la trama.

El modo sordo de un cuarto de la tasa se utiliza en la codificación del habla sorda. El modo sonoro de un cuarto de la tasa se utiliza en la codificación de tramas del habla temporalmente enmascaradas. La mayor parte de los codificadores del habla CELP se aprovechan de enmascaramiento simultáneo en el que la energía del habla a una frecuencia dada enmascara la energía de ruido a la misma frecuencia y al mismo tiempo haciendo el ruido inaudible. Los codificadores del habla con tasa variable pueden aprovecharse del enmascaramiento temporal en el que se enmascaran tramas del habla activa de energía baja mediante tramas del habla de energía alta anteriores de contenido de frecuencia similar. Debido a que el oído humano está integrando energía a lo largo del tiempo en varias bandas de frecuencia, las tramas de energía baja se promedian en el tiempo con las tramas de energía alta bajando de ese modo los requisitos de codificación para las tramas de energía baja. Aprovechar estos fenómenos auditivos de enmascaramiento temporal permite al codificador del habla con tasa variable reducir la tasa de codificación durante este modo del habla. Este fenómeno psicoacústico se detalla en Psychoacoustics de E. Zwicker y H. Fastl, páginas 56 a 101.

El elemento 12 de medición de modo recibe cuatro señales de entrada con las que genera los cinco parámetros de modo. La primera señal que recibe el elemento 12 de medición de modo es S(n) que son las muestras del habla de entrada sorda. En la realización ejemplar, las muestras del habla se proporcionan en tramas que contienen 160 muestras del habla. Las tramas del habla que se proporcionan al elemento 12 de medición de modo contienen todas habla activa. Durante periodos de silencio, el sistema de determinación de la tasa del habla activa de la presente invención está inactivo.

La segunda señal que recibe el elemento 12 de medición de modo es la señal del habla sintetizada, \hat{S}(n), que es el habla descodificada del descodificador del codificador del codificador CELP con tasa variable. El descodificador del codificador descodifica una trama del habla codificada con el fin de actualizar parámetros de filtro y memorias en análisis mediante el codificador CELP basado en síntesis. El diseño de descodificadores de este tipo se conoce ampliamente en la técnica y se detalla en la patente estadounidense 5.414.796 mencionada anteriormente.

\global\parskip1.000000\baselineskip

La tercera señal que recibe el elemento 12 de medición de modo es la señal e(n) residual formante. La señal residual formante es la señal S(n) del habla filtrada por el filtro de codificación de predicción lineal (LPC) del codificador CELP. El diseño de filtros LPC y el filtrado de señales mediante filtros de este tipo se conoce ampliamente en la técnica y se detalla en la patente estadounidense 5.414.796 mencionada anteriormente. La cuarta entrada para el elemento 12 de medición de modo es A(z) que son los valores de coeficiente de filtro del filtro de ponderación de percepción del codificador CELP asociado. La generación de los valores de coeficiente, y la operación de filtración de un filtro de ponderación de percepción se conocen ampliamente en la técnica y se detallan en la solicitud de patente estadounidense número 08/004.484.

El elemento 2 de cálculo de la relación señal a ruido (SNR) correspondiente al objetivo recibe la señal del habla sintetizada, \hat{S}(n), las muestras S(n) del habla y un conjunto de valores A(z) de coeficiente de filtro de ponderación de percepción. El elemento 2 de cálculo de SNR correspondiente al objetivo proporciona un parámetro, denominado TMSNR, que indica cómo el modelo del habla está rastreando el habla de entrada. El elemento 2 de cálculo de SNR correspondiente al objetivo genera TMSNR según la ecuación 1 siguiente:

1

donde el subíndice w indica que la señal se ha filtrado mediante un filtro de ponderación de percepción.

Obsérvese que esta medida se calcula para la trama del habla anterior, mientras que NACF, PGD, ED, ZC se calculan en la trama del habla actual. TMSNR se calcula en la trama del habla anterior ya que está en función de la tasa de codificación seleccionada y por tanto por razones de complejidad de cálculo se calcula en la trama anterior de la trama que está codificándose.

El diseño y la implementación de filtros de ponderación de percepción son ampliamente conocidos en la técnica y se detallan en la patente estadounidense 5.414.796 mencionada anteriormente. Debería observarse que la ponderación de percepción se prefiere para ponderar las características significativas en cuanto a percepción de la trama del habla. Sin embargo, se prevé que la medición podría realizarse sin ponderar las señales en cuanto a percepción.

El elemento 4 de cálculo de autocorrelación normalizada recibe la señal residual formante, e(n). La función del elemento 4 de cálculo de autocorrelación normalizada es proporcionar una indicación de periodicidad de las muestras en la trama del habla. El elemento 4 de cálculo de autocorrelación normalizada genera un parámetro, indicado por NACF según la ecuación 2 siguiente:

2

Debería observarse que la generación de este parámetro requiere memoria de la señal residual formante a partir de la codificación de la trama anterior. Esto permite probar no sólo la periodicidad de la trama actual, sino que también prueba la periodicidad de la trama actual con la trama anterior.

La razón por la que en la realización preferida se utiliza la señal residual formante, e(n), en lugar de las muestras del habla, S(n), que podrían utilizarse para generar NACF, es eliminar la interacción de las formantes de la señal del habla. Pasando la señal del habla a través del filtro formante sirve para alisar la envolvente del habla y así blanquear la señal resultante. Debería observarse que los valores de retardo T en la realización ejemplar corresponden a frecuencias de altura tonal entre 66 Hz y 400 Hz para una frecuencia de muestreo de 8000 muestras por segundo. La frecuencia de altura tonal para un valor T de retardo dado se calcula mediante la ecuación 3 siguiente:

3

donde f_{s} es la frecuencia de muestreo.

Debería observarse que el intervalo de frecuencias puede extenderse o reducirse simplemente seleccionando un conjunto diferente de valores de retardo. Debería observarse también que la presente invención puede aplicarse igualmente a cualquier frecuencia de muestreo.

El contador 6 de cruces por cero recibe las muestras S(n) del habla y cuenta el número de veces que las muestras del habla cambian de signo. Este es un procedimiento, económico desde el punto de vista del cálculo, de detección de componentes de alta frecuencia en la señal del habla. Este contador puede implementarse en software mediante un bucle de la forma:

4

El bucle de las ecuaciones 4 a 6 multiplica muestras del habla consecutivas y prueba si el producto es menor que cero indicando que el signo entre las dos muestras consecutivas difiere. Esto supone que no hay componente CC para la señal del habla. Es ampliamente conocido en la técnica cómo eliminar componentes CC de las señales.

El elemento 8 de diferencial de ganancia de predicción recibe la señal S(n) del habla y la señal e(n) residual formante. El elemento 8 de diferencial de ganancia de predicción genera un parámetro indicado por PGD, que determina si el modelo LPC está manteniendo su eficacia de predicción. El elemento 8 de diferencial de ganancia de predicción genera la ganancia de predicción, Pg, según la ecuación 7 siguiente:

5

La ganancia de predicción de la trama presente se compara entonces con la ganancia de predicción de la trama anterior para generar el parámetro PGD de salida mediante la ecuación 8 siguiente:

6

donde i indica el número de trama.

En una realización preferida, el elemento 8 de diferencial de ganancia de predicción no genera los valores Pg de ganancia de predicción. En la generación de los coeficientes LPC un derivado de la recursión de Durbin es la ganancia Pg de predicción por lo que no es necesaria una repetición del cálculo.

El elemento 10 de diferencial de energía de trama recibe las muestras s(n) del habla de la trama presente y calcula la energía de la señal del habla en la trama presente según la ecuación 9 siguiente:

7

La energía de la trama presente se compara con una energía media de tramas anteriores E_{med}. En la realización ejemplar, la energía media, E_{med} se genera mediante un integrador con fugas de la forma:

(10)E_{med}= \alpha \cdot E_{med}+ (1- \alpha) \cdot E_{i}, donde 0< \alpha<1

El factor, \alpha, determina el intervalo de tramas que son relevantes en el cálculo. En la realización ejemplar, \alpha se establece en 0,8825 lo que proporciona un tiempo constante de 8 tramas. El elemento 10 de diferencial de energía de trama genera entonces el parámetro ED según la ecuación 11 siguiente:

9

Los cinco parámetros, TMSNR, NACF, ZC, PGD y ED se proporcionan a la lógica 14 de determinación de la tasa. La lógica 14 de determinación de la tasa selecciona una tasa de codificación para la siguiente trama de muestras según los parámetros y un conjunto predeterminado de reglas de selección. Con referencia ahora a la figura 2, se muestra un diagrama de flujo que ilustra el proceso de selección de la tasa del elemento 14 de lógica de determinación de la tasa de transmisión.

El proceso de determinación de la tasa comienza en el bloque 18. En el bloque 20, la salida del elemento 4 de autocorrelación normalizada, NACF, se compara con un valor umbral predeterminado, THR1 y la salida del contador de cruces por cero se compara con un segundo umbral predeterminado, THR2. Si NACF es menor que THR1 y ZC es mayor que THR2, entonces el flujo continúa al bloque 22, que codifica el habla como un cuarto de la tasa sorda. Si NACF es menor que un umbral predeterminado indicaría una falta de periodicidad en el habla y si ZC es mayor que un umbral predeterminado indicaría un componente de alta frecuencia en el habla. La combinación de estas dos condiciones indica que la trama contiene habla sorda. En la realización ejemplar THR1 es 0,35 y THR2 es 50 cruces por cero. Si NACF no es menor que THR1 o ZC no es mayor que THR2, entonces el flujo continúa al bloque 24.

En el bloque 24, la salida del elemento 10 de diferencial de energía de trama, ED, se compara con un tercer valor umbral, THR3. Si ED es menor que THR3, entonces la trama del habla actual se codificará como habla sonora con un cuarto de la tasa en el bloque 26. Si la diferencia de energía entre la trama actual es menor que la media en una cantidad mayor que un umbral, entonces se indica una condición del habla temporalmente enmascarada. En la realización ejemplar, THR3 es -14dB. Si ED no supera THR3 entonces el flujo continúa al bloque 28.

En el bloque 28, la salida del elemento 2 de cálculo de SNR correspondiente al objetivo, TMSNR, se compara con un cuarto valor umbral, THR4; la salida del elemento 8 de diferencial de ganancia de predicción, PGD, se compara con un quinto valor umbral, THR5; y la salida del elemento 4 de cálculo de autocorrelación normalizada, NACF, se compara con un sexto valor THR6 umbral. Si TMSNR supera THR4; PGD es menor que THR5; y NACF supera THR6, entonces el flujo continúa al bloque 30 y el habla se codifica con la mitad de la tasa. Si TMSNR supera su umbral indicará que el modelo y el habla que está modelándose corresponden correctamente en la trama anterior. Si el parámetro PGD es menor que su umbral predeterminado es indicativo de que el modelo LPC está manteniendo su eficacia de predicción. Si el parámetro NACF supera su umbral predeterminado indica que la trama contiene habla periódica que es periódica con la trama del habla anterior.

En la realización ejemplar, THR4 se establece inicialmente en 10 dB, THR5 se establece en -5 dB y THR6 se establece en 0,4. En el bloque 28, si TMSNR no supera THR4, o PGD no supera THR5, o NACF no supera THR6, entonces el flujo continúa al bloque 32 y la trama del habla actual se codificará con la tasa total.

Ajustando dinámicamente los valores umbral puede lograrse una tasa de transmisión de datos global arbitraria. La tasa de transmisión de datos media del habla activa global, R, puede definirse para tramas del habla activa de ventana W de análisis como:

10

donde

R_{f} es la tasa de transmisión de datos para tramas codificadas con tasa total,

R_{h} es la tasa de transmisión de datos para tramas codificadas con la mitad de la tasa,

R_{q} es la tasa de transmisión de datos para tramas codificadas con un cuarto de la tasa, y

W = #R_{f} tramas + #R_{h} tramas + #R_{q} tramas.

Multiplicando cada una de las tasas de codificación por el número de tramas codificadas con esa tasa y después dividiendo entre el número total de tramas en la muestra puede calcularse una tasa de transmisión de datos media para la muestra del habla activa. Es importante tener un tamaño de muestra de trama, W, lo suficientemente grande para impedir que una larga duración del habla sorda, tal como sonidos "s" prolongados, distorsione la estadística de tasa media. En la realización ejemplar, el tamaño de muestra de trama, W, para el cálculo de la tasa media es de 400 tramas.

La tasa de transmisión de datos media puede disminuirse aumentando el número de tramas codificadas con una tasa total que va a codificarse a la mitad de la tasa y a la inversa, la tasa de transmisión de datos media puede aumentarse aumentando el número de tramas codificadas con la mitad de la tasa para codificarse con una tasa total. En una realización preferida el umbral que se ajusta para efectuar este cambio es THR4. En la realización ejemplar se almacena un histograma de los valores de TSNR. En la realización ejemplar, los valores TMSNR almacenados se cuantifican en valores de un número entero de decibelios a partir del valor actual de THR4. Manteniendo un histograma de este tipo puede estimarse fácilmente cuántas tramas habrían cambiado en el bloque de análisis anterior de codificarse con tasa total a codificarse con la mitad de la tasa si el THR4 se disminuyera un número entero de decibelios. A la inversa, una estimación de cuántas tramas codificadas con la mitad de la tasa se codificarían con la tasa total si se aumentara el umbral un número entero de decibelios.

La ecuación para determinar el número de tramas que deberían cambiarse de tramas con 1/2 de la tasa a tramas con la tasa total se determina por la ecuación:

11

donde

\Delta es el número de tramas codificadas con la mitad de la tasa que deberían codificarse con tasa total con el fin de conseguir la tasa objetivo, y

W = #R_{f} tramas + #R_{h} tramas + #R_{q} tramas.

TMSNR_{NUEV} = TMSNR_{VIEJ} + (el número de dB desde TMSNR_{VIEJ} para conseguir diferencias \Deltatrama definidas en la ecuación 13 anterior).

Obsérvese que el valor inicial de TMSNR está en función de la tasa objetivo deseada. En una realización ejemplar de una tasa objetivo de 8,7 kbps, en un sistema con R_{f}=14,4 kbps, R_{f}=7,2 kbps, R_{q}=3,6 kbps, el valor inicial de TMSNR es 10 dB. Debería observarse que cuantificar los valores TMSNR a números enteros para la distancia desde el umbral THR4 puede fácilmente afinarse más tal como a la mitad o un cuarto de los decibelios o pueden afinarse menos tal como a uno y medio o dos decibelios.

Se prevé que la tasa objetivo puede almacenarse o bien en un elemento de memoria o elemento 14 de lógica de determinación de la tasa, en cuyo caso la tasa objetivo sería un valor estático según el cual el valor THR4 se determinaría dinámicamente. Además, con esta tasa objetivo inicial, se prevé que el sistema de comunicación pueda transmitir una señal de orden de la tasa al aparato de selección de la tasa de codificación basándose en las condiciones de capacidad actuales del sistema.

La señal de orden de la tasa podría o bien especificar la tasa objetivo o simplemente solicitar un aumento o un descenso en la tasa media. Si el sistema especificara la tasa objetivo, esa tasa se utilizaría para determinar el valor de THR4 según las ecuaciones 12 y 13. Si el sistema especificara sólo que el usuario debería transmitir sólo con una tasa de transmisión más alta o más baja, entonces el elemento 14 de lógica de determinación de la tasa puede responder cambiando el valor THR4 por un aumento predeterminado o puede calcular un cambio incremental según un aumento o un descenso incremental predeterminado en la tasa.

Los bloques 22 y 26 indican una diferencia en el procedimiento de codificar habla basándose en si las muestras del habla representan habla sonora o sorda. El habla sonora es habla en la forma de fricativas y sonidos consonánticos tales como "f", "s", "sh", "t" y "z". El habla sonora con un cuarto de la tasa es habla temporalmente enmascarada donde una trama del habla a bajo volumen sigue una trama del habla a volumen relativamente alto de contenido de frecuencia similar. El oído humano no puede escuchar los puntos finos del habla en la trama de volumen bajo que sigue a tramas de volumen alto de modo que pueden ahorrarse bits codificando esta habla en un cuarto de la tasa.

En la realización ejemplar de codificar habla sorda con un cuarto de la tasa, una trama del habla se divide en cuatro subtramas. Todo lo que se transmite para cada una de las cuatro subtramas es un valor G de ganancia y los coeficientes A(z) de filtro LPC. En la realización ejemplar, se transmiten cinco bits para representar la ganancia en cada subtrama. En un descodificador, para cada subtrama, se selecciona aleatoriamente un índice del libro de códigos. El vector del libro de códigos seleccionado aleatoriamente se multiplica por el valor de ganancia transmitido y se pasa a través del filtro LPC, A(z), para generar el habla sorda sintetizada.

En la codificación del habla sonora con un cuarto de la tasa, una trama del habla se divide en dos subtramas y el codificador CELP determina un índice y ganancia del libro de códigos para cada una de las dos subtramas. En la realización ejemplar, se asignan cinco bits para indicar un índice del libro de códigos y otros cinco bits se asignan para especificar un valor de ganancia correspondiente. En la realización ejemplar, el libro de códigos utilizado para la codificación sonora con un cuarto de la tasa es un subconjunto de los vectores del libro de códigos utilizado para la codificación con la mitad y con la tasa total. En la realización ejemplar, se utilizan siete bits para especificar un índice del libro de códigos en los modos de codificación de la mitad y la tasa total.

\newpage

En la figura 1, los bloques pueden implementarse como bloques estructurales para realizar las funciones designadas o los bloques pueden representar funciones realizadas en la programación de un procesador de señal digital (DSP) o un circuito integrado de aplicación específica ASIC. La descripción de la funcionalidad de la presente invención permitiría a cualquier experto implementar la presente invención en un DSP o un ASIC sin excesiva experimentación.

La descripción anterior de las realizaciones preferidas se proporciona para permitir a cualquier experto en la técnica realizar o utilizar la presente invención. Las diversas modificaciones de estas realizaciones será fácilmente evidente a los expertos en la técnica, y los principios genéricos definidos en el presente documento pueden aplicarse a otras realizaciones sin el uso de la facultad inventiva. Por tanto, la presente invención no pretende limitarse a las realizaciones mostradas en el presente documento sino que se le otorga el alcance más amplio como se define mediante las reivindicaciones adjuntas.

Claims

1. Un aparato para seleccionar una tasa de codificación a partir de un conjunto predeterminado de tasas de codificación para codificar una trama de habla que incluye una pluralidad de muestras del habla, que comprende:

medios (12) de medición de modo, sensibles a dichas muestras del habla y a al menos una señal derivada de dichas muestras del habla, para generar un conjunto de parámetros indicativo de características de dicha trama del habla; y

medios de lógica (14) de determinación de la tasa para recibir dicho conjunto de parámetros, para determinar la importancia psicoacústica de dichas muestras del habla según dicho conjunto de parámetros y para seleccionar una tasa de codificación a partir de dicho conjunto predeterminado de tasas de codificación según dicha importancia psicoacústica determinada utilizando reglas de selección de la tasa predeterminadas.

2. El aparato según la reivindicación 1, en el que dichas reglas de selección de la tasa seleccionan dicha tasa de codificación que asigna un primer número de bits para la codificación de dichas muestras del habla cuando se determina que dichas muestras del habla son de mayor importancia psicoacústica y en el que dichas reglas de selección de la tasa seleccionan dicha tasa de codificación que asigna un segundo número de bits para la codificación de dichas muestras del habla cuando se cuando se determina que dichas muestras del habla son de menor importancia psicoacústica y en el que dicho primer número de bits es mayor que dicho segundo número de bits.

3. El aparato según la reivindicación 1 ó 2, en el que dicho conjunto de parámetros incluye una relación (2) de calidad de codificación indicativa de una correspondencia entre una trama del habla anterior y el habla sintetizada derivada de la misma.

4. El aparato según la reivindicación 1 ó 2, en el que dicho conjunto de parámetros incluye una medición (4) de autocorrelación normalizada indicativa de la periodicidad en dichas muestras del habla.

5. El aparato según la reivindicación 1 ó 2, en el que dicho conjunto de parámetros incluye una cuenta (6) de cruces por cero indicativa de una presencia de componentes de alta frecuencia en dicha trama del habla.

6. El aparato según la reivindicación 1 ó 2, en el que dicho conjunto de parámetros incluye una medición (8) de diferencial de ganancia de predicción indicativa de una estabilidad de formantes trama a trama.

7. El aparato según la reivindicación 1 ó 2, en el que dicho conjunto de parámetros incluye una medición (10) de diferencial de energía de trama indicativa de cambios en la energía entre la energía de dicha trama del habla y una energía media de trama.

8. El aparato según la reivindicación 1 ó 2, en el que dicho conjunto de parámetros incluye una medición (10) de diferencial de energía de trama indicativa de cambios en la energía entre la energía de dichas muestras del habla y la energía media de trama y en el que cuando dicha medición (10) de diferencial de energía de trama está por debajo de un umbral predeterminado, dichos medios (14) de lógica de determinación de la tasa seleccionan un modo de codificación de codificación (26) sonora de un cuarto de la tasa.

9. El aparato según la reivindicación 1 ó 2, en el que dicho conjunto de parámetros incluye una medición (4) de autocorrelación normalizada indicativa de la periodicidad en dichas muestras del habla y una cuenta (6) de cruces por cero indicativa de una presencia de componentes de alta frecuencia en dicha trama del habla y en el que cuando dicha medición (4) de autocorrelación normalizada está por debajo de un primer umbral predeterminado y dicha cuenta (6) de cruces por cero supera un segundo umbral predeterminado, dichos medios (14) de lógica de determinación de dicha tasa seleccionan un modo de codificación de codificación (22) sorda de un cuarto de la tasa.

10. El aparato según la reivindicación 1 ó 2, en el que dicho conjunto predeterminado de tasas de codificación comprende tasa completa, mitad de la tasa y un cuarto de la tasa.

11. El aparato según la reivindicación 1 ó 2, en el que dicho conjunto de parámetros comprende una medición (4) de autocorrelación normalizada indicativa de la periodicidad en dichas muestras del habla, una relación (2) de calidad de codificación indicativa de una correspondencia entre una trama del habla anterior y el habla sintetizada derivada de la misma, y una medición (8) de diferencial de ganancia de predicción indicativa de una estabilidad trama a trama de un conjunto de parámetros formantes, y en el que cuando dicha medición (4) de autocorrelación normalizada supera un primer umbral predeterminado, dicho diferencial (8) de ganancia de predicción está por debajo de un segundo umbral predeterminado y dicha relación (2) de calidad de codificación supera un tercer umbral predeterminado, dichos medios (14) de lógica de determinación de la tasa seleccionan un modo de codificación de codificación con la mitad de la tasa.

12. Un subsistema para cambiar dinámicamente la tasa de transmisión de una trama del habla que transmite desde dicha estación remota para un sistema de comunicación en el que dicha estación remota se comunica con un centro de comunicación central, comprendiendo dicho subsistema dicho aparato según la reivindicación 1, en el que: dichos medios (12) de medición de modo son sensibles a dicha trama del habla y a una señal derivada de dicha trama del habla, para generar dicho conjunto de parámetros indicativo de características de dicha trama del habla; y dichos medios (14) de lógica de determinación de la tasa están adaptados para recibir una señal de orden de tasa para generar al menos un valor umbral según dicha señal de orden de tasa, y comparar al menos un parámetro de dicho conjunto de parámetros con dicho al menos un valor umbral y seleccionar una tasa de codificación según dicha comparación.

13. El subsistema según la reivindicación 12, en el que dicha tasa que asigna un primer número de bits se selecciona para la codificación de dichas muestras del habla cuando se determina que dichas muestras del habla son de mayor importancia psicoacústica y en el que dicha tasa de codificación que asigna un segundo número de bits se selecciona para la codificación de dichas muestras del habla cuando se determina que dichas muestras del habla son de menor importancia psicoacústica y en el que dicho primer número de bits es mayor que dicho segundo número de bits.

14. El aparato según la reivindicación 1, en el que los medios de medición de modo comprenden un calculador de medición de modo que genera un conjunto de parámetros indicativo de características de dicha trama del habla según dichas muestras del habla y una señal derivada de dichas muestras del habla; y en el que la lógica de determinación de la tasa comprende una lógica (14) de determinación de la tasa para recibir dicho conjunto de parámetros, determinar la importancia psicoacústica de dichas muestras del habla según dicho conjunto de parámetros, y seleccionar una tasa de codificación a partir de dicho conjunto predeterminado de tasas de codificación.

15. El aparato según la reivindicación 14, en el que dicha tasa de codificación que asigna un primer número de bits se selecciona para la codificación de dichas muestras del habla cuando se determina que dichas muestras del habla son de mayor importancia acústica y en el que dicha tasa de codificación que asigna un segundo número de bits se selecciona para la codificación de dichas muestras del habla cuando se determina que dichas muestras del habla son de menor importancia psicoacústica y en el que dicho primer número de bits es mayor que dicho segundo número de bits.

16. El aparato según la reivindicación 14 ó 15, en el que dicho conjunto de parámetros incluye una relación (2) de calidad de codificación indicativa de una correspondencia entre una trama del habla anterior y el habla sintetizada derivada de la misma.

17. El aparato según la reivindicación 14 ó 15, en el que dicho conjunto de parámetros incluye una medición (4) de autocorrelación normalizada indicativa de la periodicidad en dichas muestras del habla.

18. El aparato según la reivindicación 14 ó 15, en el que dicho conjunto de parámetros incluye una cuenta (6) de cruces por cero indicativa de una presencia de componentes de alta frecuencia en dicha trama del habla.

19. El aparato según la reivindicación 14 ó 15, en el que dicho conjunto de parámetros incluye una medición (8) de diferencial de ganancia de predicción indicativa de una estabilidad de formantes trama a trama.

20. El aparato según la reivindicación 14 ó 15, en el que dicho conjunto de parámetros incluye una medición (10) de diferencial de energía de trama indicativa de cambios en la energía entre la energía de dicha trama del habla y una energía media de trama.

21. El aparato según la reivindicación 14 ó 15, en el que dicho conjunto de parámetros comprende una medición (4) de autocorrelación normalizada indicativa de la periodicidad en dichas muestras del habla, una relación (2) de calidad de codificación indicativa de una correspondencia entre una trama del habla anterior y el habla sintetizada derivada de la misma, y una medición (8) de diferencial de ganancia de predicción indicativa de una estabilidad trama a trama de un conjunto de parámetros formantes, y en el que cuando dicha medición (4) de autocorrelación normalizada supera un primer umbral predeterminado, dicho diferencial (8) de ganancia de predicción está por debajo de un segundo umbral predeterminado y dicha relación (2) de calidad de codificación supera un tercer umbral predeterminado, dicha lógica (14) de determinación de la tasa selecciona un modo de codificación de la mitad de la tasa de codificación (30).

22. El aparato según la reivindicación 16, en el que dicho conjunto de parámetros incluye además una medición (4) de autocorrelación normalizada indicativa de la periodicidad en dichas muestras del habla y una cuenta (6) de cruces por cero indicativa de una presencia de componentes de alta frecuencia en dicha trama del habla y en el que cuando dicha medición (4) de autocorrelación normalizada está por debajo de un primer umbral predeterminado y dicha cuenta (6) de cruces por cero supera un segundo umbral predeterminado, dicha lógica (14) de determinación de la tasa selecciona un modo de codificación de codificación (22) sorda en modo de un cuarto de la tasa.

23. El aparato según la reivindicación 16, en el que dicho conjunto de parámetros incluye además una medición (10) de diferencial de energía de trama indicativa de cambios en la energía entre la energía de dichas muestras del habla y una energía media de trama y en el que cuando dicha medición (10) de diferencial de energía de trama está por debajo de un umbral predeterminado, dichos medios de lógica (14) de determinación de la tasa seleccionan un modo de codificación de codificación (26) sonora con un cuarto de la tasa.

24. El aparato según la reivindicación 14 ó 15, en el que dicho conjunto predeterminado de tasas de codificación comprende tasa completa, mitad de la tasa y un cuarto de la tasa.

25. El subsistema según la reivindicación 12, para cambiar dinámicamente la tasa de transmisión de una trama del habla que transmite desde dicha estación remota, en el que los medios de medición de modo comprenden un calculador de medición de modo que genera un conjunto de parámetros indicativo de características de dicha trama del habla según dichas muestras del habla y una señal derivada de dichas muestras del habla; y en el que la lógica de determinación de la tasa comprende una lógica (14) de determinación de la tasa que recibe dicho conjunto de parámetros para determinar la importancia psicoacústica de dichas muestras del habla según dicho conjunto de parámetros, y para recibir una señal de orden de tasa para generar al menos un valor umbral según dicha señal de orden de tasa, comparando al menos un parámetro de dicho conjunto de parámetros con dicho al menos un valor umbral y seleccionando una tasa de codificación según dicha comparación.

26. El subsistema según la reivindicación 25, en el que dicha tasa de codificación que asigna un primer número de bits se selecciona para la codificación de dichas muestras del habla cuando se determina que dichas muestras del habla son de mayor importancia psicoacústica y en el que dicha tasa de codificación que asigna un segundo número de bits se selecciona para la codificación de dichas muestras del habla cuando se determina que dichas muestras del habla son de menor importancia psicoacústica y en el que dicho primer número de bits es mayor que dicho segundo número de bits.

27. Un procedimiento para seleccionar una tasa de codificación de un conjunto predeterminado de tasas de codificación para codificar una trama del habla que incluye una pluralidad de muestras del habla, que comprende las etapas de:

generar un conjunto de parámetros indicativo de características de dicha trama del habla según dichas muestras del habla y una señal derivada de dichas muestras del habla; y

seleccionar una tasa de codificación de dicho conjunto predeterminado de tasas de codificación, según una importancia psicoacústica determinada de dichas muestras del habla, determinándose a partir de dicho conjunto de parámetros.

28. El procedimiento según la reivindicación 27, en el que dicha tasa de codificación que asigna un primer número de bits se selecciona para la codificación de dichas muestras del habla cuando se determina que dichas muestras del habla son de mayor importancia psicoacústica y en el que la selección de dicha tasa de codificación que asigna un segundo número de bits se selecciona para la codificación de dichas muestras del habla cuando se determina que dichas muestras del habla son de menor importancia psicoacústica y en el que dicho primer número de bits es mayor que dicho segundo número de bits.

29. El procedimiento según la reivindicación 27 ó 28, en el que dicho conjunto de parámetros incluye una relación (2) de calidad de codificación indicativa de una correspondencia entre una trama del habla anterior y el habla sintetizada derivada de la misma.

30. El procedimiento según la reivindicación 27 ó 28, en el que dicho conjunto de parámetros incluye una medición (4) de autocorrelación normalizada indicativa de la periodicidad en dichas muestras del habla.

31. El procedimiento según la reivindicación 27 ó 28, en el que dicho conjunto de parámetros incluye una cuenta (6) de cruces por cero indicativa de una presencia de componentes de alta frecuencia en dicha trama del habla.

32. El procedimiento según la reivindicación 27 ó 28, en el que dicho conjunto de parámetros incluye una medición (8) de diferencial de ganancia de predicción indicativa de una estabilidad de formantes trama a trama.

33. El procedimiento según la reivindicación 27 ó 28, en el que dicho conjunto de parámetros incluye además una medición (10) de diferencial de energía de trama indicativa de cambios en la energía entre la energía de dicha trama del habla y una energía media de trama. El procedimiento según la reivindicación 27 ó 28, en el que dicho conjunto de parámetros comprende una medición (4) de autocorrelación normalizada indicativa de periodicidad en dichas muestras del habla, una relación (2) de calidad de codificación indicativa de una correspondencia entre una trama del habla anterior y el habla sintetizada derivada de la misma, y una medición (8) de diferencial de ganancia de predicción indicativa de una estabilidad trama a trama de un conjunto de parámetros formantes, y en el que cuando dicha medición (4) de autocorrelación normalizada supera un primer umbral predeterminado, dicho diferencial (8) de ganancia de predicción está por debajo de un segundo umbral predeterminado y dicha relación (2) de calidad de codificación supera un tercer umbral predeterminado, dicha etapa de seleccionar un modo de codificación selecciona codificación (30) con la mitad de la tasa.

35. El procedimiento según la reivindicación 27 ó 28, en el que dicho conjunto de parámetros incluye una medición (4) de autocorrelación normalizada indicativa de la periodicidad en dichas muestras del habla y una cuenta (6) de cruces por cero indicativa de una presencia de componentes de alta frecuencia en dicha trama del habla y en el que cuando dicha medición (4) de autocorrelación normalizada está por debajo de un primer umbral predeterminado y dicha cuenta (6) de cruces por cero supera un segundo umbral predeterminado, dicha etapa de seleccionar un modo de codificación selecciona codificación sorda con un cuarto de la tasa.

36. El procedimiento según la reivindicación 27 ó 28, en el que dicho conjunto de parámetros incluye una medición (10) de diferencial de energía de trama indicativa de cambios en la energía entre la energía de dichas muestras del habla y una energía media de trama y en el que cuando dicha medición (10) de diferencial de energía de trama está por debajo de un umbral predeterminado, dicha etapa de seleccionar un modo de codificación selecciona codificación sonora con un cuarto de la tasa.

37. El procedimiento según la reivindicación 27 ó 28, en el que dicho conjunto predeterminado de tasas de codificación comprende tasa completa, mitad de la tasa y un cuarto de la tasa.

38. Un procedimiento según la reivindicación 27, para cambiar dinámicamente la tasa de transmisión de una trama del habla que se transmite desde dicha estación remota para un sistema de comunicación en el que dicha estación remota se comunica con un centro de comunicación central, comprendiendo dicho procedimiento las etapas de:

generar un conjunto de parámetros indicativo de características de dicha trama del habla según dicha trama del habla y una señal derivada de dicha trama del habla, dicho conjunto de parámetros para determinar la importancia psicoacústica de dichas muestras del habla;

recibir una señal de orden de tasa;

generar al menos un valor umbral según dicha señal de orden de tasa;

comparar al menos un parámetro de dicho conjunto de parámetros con dicho al menos un valor umbral; y

seleccionar una tasa de codificación según dicha comparación.

39. El procedimiento según la reivindicación 38, en el que dicha tasa de codificación que asigna un primer número de bits se selecciona para la codificación de dichas muestras del habla cuando se determina que dichas muestras del habla son de mayor importancia psicoacústica y en el que la selección de dicha tasa de codificación que asigna un segundo número de bits se selecciona para la codificación de dichas muestras del habla cuando se determina que dichas muestras del habla son de menor importancia psicoacústica y en el que dicho primer número de bits es mayor que dicho segundo número de bits.