ES2318820T3

ES2318820T3 - Procedimiento y aparatos de cuantificacion predictiva del habla de voces.

Info

Publication number: ES2318820T3
Application number: ES07105323T
Authority: ES
Inventors: Arasanipalai K. Ananthapadmanabhan; Sharath Manjunath; Pengjun Huang; Eddi-Lun Tik Choy; Andrew P. Dejaco
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2000-04-24
Filing date: 2001-04-20
Publication date: 2009-05-01
Anticipated expiration: 2021-04-20
Also published as: EP1796083B1; CN100362568C; AU2001253752A1; ES2287122T3; EP1279167B1; EP2040253A1; TW519616B; US8660840B2; CN1655236A; ATE363711T1; CN1432176A; EP1796083A3; EP1279167A1; EP1796083A2; DE60137376D1; ATE553472T1; JP5037772B2; ATE420432T1; DE60128677D1; DE60128677T2

Abstract

Un procesador adaptado para ejecutar un conjunto de instrucciones almacenadas en un medio de almacenamiento, estando las mencionadas instrucciones adaptadas para realizar un procedimiento de acuerdo con la reivindicación 6.

Description

Procedimiento y aparato de cuantificación predictiva del habla de voces.

Antecedentes de la invención I. Campo de la invención

La presente invención pertenece en general al campo del procesamiento de habla, y más específicamente a procedimientos y aparatos para cuantificar de manera predictiva del habla de voces.

II. Antecedentes

La transmisión de voz mediante técnicas digitales se ha extendido, particularmente en aplicaciones de radiotelefonía digital y larga distancia. A su vez, esto ha creado interés en determinar la cantidad más pequeña de información que puede enviarse sobre un canal mientras se mantiene la calidad percibida de habla reconstruida. Si el habla se transmite simplemente muestreando y digitalizando, se requiere una tasa de transmisión de datos del orden de sesenta y cuatro kilobits por segundo (kpbs) para conseguir una calidad de habla del teléfono analógico convencional. Sin embargo, a través del uso del análisis de habla, seguido por el codificado, transmisión y resíntesis adecuadas en el receptor, puede conseguirse una importante reducción en la velocidad de la transmisión de datos.

Los dispositivos de compresión de habla encuentran utilidad en muchos campos de las telecomunicaciones. Un campo ejemplar son las comunicaciones inalámbricas. El campo de las comunicaciones inalámbricas presenta muchas aplicaciones incluyendo, por ejemplo, teléfonos inalámbricos, radiomensajería, bucles locales inalámbricos, telefonía inalámbrica tal como sistemas telefónicos PCS y celulares, telefonía de protocolo de Internet (IP) móvil y sistemas de comunicación por satélite. Una aplicación particularmente importante es la telefonía inalámbrica para abonados móviles.

Se han desarrollado diversas interfaces radio para sistemas de comunicación inalámbrica incluyendo, por ejemplo, acceso múltiple por división de frecuencia (FDMA), acceso múltiple por división de tiempo (TDMA) y acceso múltiple por división de código (CDMA). En relación con los mismos, se han establecido diversas normas internacionales y nacionales incluyendo, por ejemplo, el servicio telefónico móvil avanzado (AMPS), el sistema global para comunicaciones móviles (GSM), y la norma provisional 95 (IS-95). Un sistema de comunicación de telefonía inalámbrica ejemplar es un sistema de acceso múltiple por división de código (CDMA). La norma IS-95 y sus derivadas, IS-95A, ANSI J-STD-008, IS-95B, las normas IS-95C e IS-2000 de tercera generación propuestas, etc. (a las que se hace referencia conjuntamente en el presente documento como IS-95), se promulgaron por la Asociación de la Industria de Telecomunicaciones (TIA) y otros cuerpos de normas bien conocidos para especificar el uso de una interfaz aérea CDMA para sistemas de comunicación de telefonía PCS o celular. En las patentes estadounidenses nº 5.103.459 y 4.901.307, que están transferidas al cesionario de la presente invención, se describen sistemas de comunicación inalámbrica ejemplares configurados substancialmente según el uso de la norma IS-95.

Los dispositivos que emplean técnicas para comprimir el habla extrayendo parámetros que se refieren a un modelo de generación de habla humana se denominan codificadores de habla. Un codificador de habla divide la señal de habla entrante en bloques de tiempo, o tramas de análisis. Los codificadores de habla comprenden normalmente un codificador y un descodificador. El codificador analiza la trama de habla entrante para extraer ciertos parámetros relevantes, y después cuantifica los parámetros en una representación binaria, es decir, a un conjunto de bits o un paquete de datos binarios. Los paquetes de datos se transmiten sobre el enlace de comunicación a un receptor y a un descodificador. El descodificador procesa los paquetes de datos, los incuantifica para producir los parámetros, y resintetiza las tramas de habla utilizando los parámetros incuantificados.

La función del codificador de habla es comprimir la señal de habla digitalizada en una señal de baja tasa de transmisión de datos suprimiendo todas las redundancias naturales inherentes en el habla. La compresión digital se consigue representando la trama de habla de entrada con un conjunto de parámetros y empleando cuantificación para representar los parámetros con un conjunto de bits. Si la trama de habla de entrada presenta un número de bits N_{i} y el paquete de datos producido por el codificador de habla presenta un número de bits N_{o}, el factor de compresión conseguido por el codificador de habla es C_{r} = N_{i}/N_{o}. El reto es mantener la alta calidad de voz de habla descodificada mientras se consigue el factor de compresión objetivo. El rendimiento de un codificador de habla depende de (1) la calidad con que funciona el modelo de habla, o la combinación de los procesos de análisis y síntesis, y (2) la calidad con la que se realiza el proceso de cuantificación de parámetros a la tasa de transmisión de datos objetivo de N_{o} bits por trama. La finalidad del modelo de habla es por tanto capturar la esencia de la señal de habla, o la calidad de voz objetivo, con un pequeño conjunto de parámetros para cada trama.

Quizás lo más importante en el diseño de un codificador de habla es la búsqueda de un buen conjunto de parámetros (incluyendo vectores) para describir la señal de habla. Un buen conjunto de parámetros requiere un ancho de banda de sistema bajo para la reconstrucción de una señal de habla precisa de manera perceptiva. El tono, la potencia de la señal, la envolvente espectral (o formantes), los espectros de amplitud, y los espectros de fase son ejemplos de los parámetros de codificado de habla.

Los codificadores de habla pueden implementarse como codificadores de dominio de tiempo, que intentan capturar la forma de onda de habla de dominio de tiempo empleando procesamiento de alta resolución de tiempo para codificar pequeños segmentos de habla (normalmente subtramas de 5 milisegundos (ms)) a la vez. Para cada subtrama, se encuentra una alta precisión representativa a partir de un espacio de libro de código por medio de diversos algoritmos de búsqueda conocidos en la técnica. Como alternativa, los codificadores de habla pueden implementarse como codificadores de dominio de frecuencia, que intentan capturar el espectro de habla de corta duración de la trama de habla de entrada con un conjunto de parámetros (análisis) y emplean un proceso de síntesis correspondiente para recrear la forma de onda de habla a partir de los parámetros espectrales. El cuantificador de parámetros conserva los parámetros representándolos con representaciones almacenadas de vectores de código según técnicas de cuantificación conocidas descritas en A. Gersho & R.M. Gray, Vector Quantization and Signal Compression (1992).

Un codificador de habla de dominio de tiempo bien conocido es el codificador predictivo lineal de código excitado (CELP) descrito en L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396-453 (1978). En un codificador CELP, las correlaciones de corta duración, o redundancias, en la señal de habla, se suprimen mediante un análisis de predicción lineal (LP), que encuentra los coeficientes de un filtro de formantes de corta duración. Al aplicar el filtro de predicción de corta duración a la trama de habla entrante se genera una señal residuo LP, que se modela y cuantifica adicionalmente con parámetros de filtro de predicción de larga duración y un libro de código estocástico posterior. De este modo, el codificado CELP divide la tarea de codificar la forma de onda de habla de dominio de tiempo en las tareas separadas de codificar los coeficientes de filtro de corta duración LP y codificar el residuo LP. El codificado de dominio de tiempo puede realizarse a un velocidad fija (es decir, utilizando el mismo número de bits, N_{o}, para cada trama) o a una velocidad variable (en la que se utilizan diferentes velocidades de transmisión de bits para tipos diferentes de contenidos de trama). Los codificadores de velocidad variable intentan utilizar solamente la cantidad de bits necesaria para codificar los parámetros de códec a un nivel adecuado para obtener una calidad objetivo. Un codificador CELP de velocidad variable ejemplar se describe en la patente estadounidense nº 5.414.796, que está transferida al cesionario de la presente invención e incorporada por completo a este documento por medio de referencia.

Los codificadores de dominio de tiempo tal como el codificador CELP normalmente se basan en un alto número de bits, N_{o}, por trama para conservar la precisión de la forma de onda de habla de dominio de tiempo. Tales codificadores suministran una excelente calidad de voz siempre que el número de bits, N_{o}, por trama sea relativamente grande (por ejemplo, 8 kbps o superior). Sin embargo, a velocidades de transmisión de bits bajas (4 kbps e inferiores), los codificadores de dominio de tiempo no pueden conservar una alta calidad y un rendimiento robusto debido al número limitado de bits disponibles. A velocidades de transmisión de bits bajas, el espacio de libro de código limitado limita la capacidad de adaptación a la forma de onda de los codificadores de dominio de tiempo convencionales, que se utilizan con éxito en aplicaciones comerciales de velocidad superior. Por tanto, a pesar de las mejoras a través del tiempo, muchos sistemas de codificado CELP que operan a velocidades de transmisión de bits bajas experimentan una importante distorsión de manera perceptiva caracterizada normalmente como ruido.

Actualmente existe una tendencia de interés en la investigación y una fuerte necesidad comercial de desarrollar un codificador de habla de alta calidad que funcione a velocidades de transmisión de bits medias a bajas (es decir, en el intervalo de 2,4 a 4 kbps e inferiores). Las áreas de aplicación incluyen telefonía inalámbrica, comunicaciones por satélite, telefonía por Internet, diversas aplicaciones multimedia y de flujo continuo de voz, correo por voz, y otros sistemas de almacenamiento de voz. Las fuerzas impulsoras son la necesidad de alta capacidad y la demanda de un comportamiento robusto bajo situaciones de pérdida de paquetes. Los diversos esfuerzos recientes de normalización del codificado de habla son otra fuerza impulsora directa que promueve la investigación y el desarrollo de algoritmos de codificado de habla de baja velocidad. Un codificador de habla de baja velocidad crea más canales, o usuarios, por ancho de banda de aplicación disponible, y un codificador de habla de baja velocidad acoplado con una capa adicional de codificado de canal adecuado puede ajustar el presupuesto de bits global de las especificaciones de codificador y suministrar un comportamiento robusto bajo condiciones de error de canal.

Una técnica efectiva para codificar el habla de manera eficaz a velocidades de transmisión de bits bajas es el codificado multimodo. Una técnica de codificado multimodo ejemplar se describe en la patente estadounidense nº 6.691.084, titulada VARIABLE RATE SPEECH CODING, presentada el 21 de diciembre de 1998, transferida al cesionario de la presente invención. Los codificadores multimodo convencionales aplican diferentes modos, o algoritmos de codificación-descodificación, a diferentes tipos de tramas de habla de entrada. Cada modo, o proceso de codificación-descodificación, se personaliza para representar óptimamente un cierto tipo de segmento de habla, tal como, por ejemplo, habla sonora, habla sorda, habla de transición (por ejemplo, entre sonora y sorda), y ruido de fondo (silencio, o no habla) de la manera más eficaz. Un mecanismo de decisión de modo de bucle abierto, externo examina la trama de habla de entrada y toma una decisión con respecto a qué modo aplicar a la trama. La decisión de modo de bucle abierto se realiza normalmente extrayendo un número de parámetros de la trama de entrada, evaluando los parámetros en relación con ciertas características temporales y espectrales, y basando una decisión de modo en la
evaluación.

Los sistemas de codificado que operan a velocidades del orden de 2,4 kbps son normalmente paramétricos por naturaleza. Es decir, tales sistemas de codificado operan transmitiendo parámetros que describen el periodo de tono y la envolvente espectral (o formantes) de la señal de habla a intervalos regulares. El sistema vocodificador LP es ilustrativo de estos denominados codificadores paramétricos.

Los vocodificadores LP modelan una señal de habla sonora con un único impulso por periodo de tono. Esta técnica básica puede mejorarse para incluir información de transmisión sobre la envolvente espectral, entre otras cosas. Aunque los vocodificadores LP proporcionan generalmente un rendimiento razonable, puede introducir una importante distorsión de manera perceptiva, caracterizada normalmente como zumbido.

En los últimos años, han aparecido codificadores que son híbridos de tanto los codificadores de forma de onda como los codificadores paramétricos. El sistema de codificado de habla de interpolación de forma de onda de prototipo (PWI) es ilustrativo de estos denominados codificadores híbridos. El sistema de codificado PWI puede conocerse también como un codificador de habla de periodo de tono de prototipo (PPP). Un sistema de codificado PWI proporciona un procedimiento eficaz para cifrar habla sonora. El concepto básico de PWI es extraer un ciclo de tono representativo (la forma de onda de prototipo) a intervalos fijos, transmitir su descripción, y reconstruir la señal de habla interpolando entre las formas de onda de prototipo. El procedimiento PWI puede operar o bien sobre la señal residuo LP o sobre la señal de habla. Un codificador de habla ejemplar PWI, o PPP, se describe en la patente estadounidense nº 6.456.964, titulada PERIODIC SPEECH CODING, presentada el 21 de diciembre de 1998, transferida al cesionario de la presente invención. Otros codificadores de habla PWI, o PPP, se describen en la patente estadounidense nº 5.884.253 y W. Bastiaan Kleijn & Wolfgang Granzow "Methods for Waveform Interpolation in Speech Coding, in 1 Digital Signal Processing 215-230 (1991)".

En la mayoría de los codificadores de habla convencionales, los parámetros de un prototipo de tono dado, o de una trama dada, se cuantifican y transmiten cada uno individualmente por el codificador. Además, se transmite un valor diferente para cada parámetro. El valor de la diferencia especifica la diferencia entre el valor de parámetro para el prototipo o trama actual y el valor del parámetro para el prototipo o trama anterior. Sin embargo, el cuantificar los valores de los parámetros y los valores de la diferencia requiere utilizar bits (y por tanto ancho de banda). En un codificador de habla de tasa de transmisión de datos baja, es ventajoso transmitir el menor número de bits posible para mantener satisfactoriamente la calidad de voz. Por esta razón, en codificadores de habla de tasa de transmisión de datos baja, sólo se cuantifican y se transmiten los valores de parámetros absolutos. Sería deseable disminuir el número de bits transmitidos sin disminuir el valor informativo. Por tanto, existe una necesidad de un esquema predictivo para cuantificar el habla sonora que disminuya la tasa de transmisión de datos de un codificador de habla.

La publicación de patente PCT nº WO 01/06495 de "Qualcomm Incorporated" da a conocer un procedimiento y aparato para intercalar procedimientos de cuantificación de información espectral de línea en un codificador de habla.

La publicación de patente europea nº EP 0696026 de "NEC Corporation" da a conocer un dispositivo de codificado de habla que puede suministrar una señal de habla a un velocidad de transferencia de bits baja.

La Publicación de Patente Europea EP 0 696, a nombre de NEC Corporation, describe un dispositivo de codificación de voz capaz de entregar una señal de voz de excelente calidad de sonido a una baja velocidad binaria.

La Publicación PCT número WO95/10760, a nombre de Comsat Corporation, describe un codificador que proporciona un alto grado de inteligibilidad de la voz y calidad de la voz natural, incluyendo un analizador de predicción lineal de orden diez.

Sumario de la invención

La presente invención, como se declara en las reivindicaciones anejas está dirigida a un esquema predictivo para la cuantificación de habla de voz que disminuya la velocidad binaria de un codificador de voz. De acuerdo con esto, en un aspecto de la invención, se proporciona un procedimiento de información de cuantificación acerca de un parámetro de habla. El procedimiento incluye de manera ventajosa la generación de al menos un valor ponderado del parámetro para al menos una trama procesada anteriormente de voz, en la que la suma de todos los pesos sea uno; restando el al menos un valor ponderado de un valor del parámetro para actualmente producir un valor de diferencia de la trama de habla y cuantificar el valor de diferencia.

En otro aspecto de la invención, se proporciona un codificador de voz configurado para cuantificar la información acerca de un parámetro del habla. El codificador de voz incluye de manera ventajosa un medio para generar al menos un valor ponderado del parámetro para al menos una trama procesada con anterioridad, en el que la suma de todos los pesos usados es uno; un medio para restar el al menos un valor ponderado de un valor del parámetro para una trama procesada actualmente de habla para producir un valor de diferencia; y un medio para cuantificar el valor de diferencia.

En otro aspecto de la invención, se proporciona un elemento de infraestructura configurado para cuantificar información acerca de un parámetro de habla. El elemento de infraestructura incluye de manera ventajosa un generador de parámetro configurado para generar al menos un valor ponderado del parámetro para al menos una trama de habla procesada con anterioridad, en la que la suma de todos los pesos usados es uno; y un cuantificador acoplado al generador de parámetro y configurado para restar el al menos un valor ponderado de un valor del parámetro para una trama de habla procesada en ese momento para producir un valor de diferencia y para cuantificar el valor de diferencia.

En otro aspecto de la invención, se proporciona una unidad de abonado configurada para cuantificar información acerca de un parámetro de habla. La unidad de abonado incluye de manera ventajosa un procesador y un medio de almacenamiento acoplado al procesador y que contiene un conjunto de instrucciones ejecutables por el procesador para generar al menos un valor ponderado del parámetro para la al menos trama de habla procesada con anterioridad, en la que la suma de todos los pesos usados es uno, y restar el al menos un valor ponderado de un valor del parámetro para una trama de habla actualmente procesada para producir un valor de diferencia, y para cuantificar el valor de diferencia.

En otro aspecto de la invención, se proporciona un procedimiento de cuantificación acerca de un parámetro de fase de habla. El procedimiento incluye de manera ventajosa la generación de al menos un valor modificado del parámetro de fase para al menos una trama de habla anteriormente procesada; aplicar un número de desplazamientos de fase a al menos un valor modificado, el número de desplazamientos de fase siendo mayor o igual a cero; restar el al menos un valor modificado de un valor del parámetro de fase para una trama de habla procesada actualmente para producir un valor diferencia; y cuantificar el valor diferencia.

En otro aspecto de la invención, se proporciona un codificador de habla configurado para cuantificar información acerca de un parámetro de fase del habla implicada. El codificador de habla incluye de manera ventajosa un medio para generar al menos un valor modificado del parámetro de fase para al menos una trama anteriormente procesada de habla; un medio para aplicar un número de desplazamientos de fase a el menos un valor modificado de un valor del parámetro de fase para una trama actualmente procesada de habla para producir un valor diferencia; y un medio para cuantificar el valor diferencia.

En otro aspecto de la invención, se proporciona una unidad de abonado configurada para cuantificar información acerca de un parámetro de fase de habla. La unidad de abonado incluye de manera ventajosa un procesador; un medio de almacenamiento acoplado al procesador y que contiene un conjunto de instrucciones ejecutables por el procesador para generar al menos un valor modificado del parámetro de fase para al menos la trama anteriormente procesada de habla, aplicar un número de desplazamientos de fase a al menos un valor modificado, el número de desplazamientos de fase siendo mayor o igual a cero, restar el al menos un valor modificado de un valor del parámetro para una trama actualmente procesada de habla para producir un valor de diferencia y para cuantificar el valor de
diferencia.

Breve descripción de los dibujos

La figura 1 es un diagrama de bloques de un sistema telefónico inalámbrico.

La figura 2 es un diagrama de bloques de un canal de comunicación terminado en cada extremo por codificadores de habla.

La figura 3 es un diagrama de bloques de un codificador de habla.

La figura 4 es un diagrama de bloques de un descodificador de habla.

La figura 5 es un diagrama de bloques de un codificador de habla que incluye partes de codificador/transmisor y descodificador/receptor.

La figura 6 es un gráfico de amplitud de señal frente al tiempo para un segmento de habla sonora.

La figura 7 es un diagrama de bloques de un cuantificador que puede utilizarse en un codificador de habla.

La figura 8 es un diagrama de bloques de un procesador acoplado a un medio de almacenamiento.

Descripción detallada de las realizaciones preferidas

Las realizaciones ejemplares descritas posteriormente en el presente documento residen en un sistema de comunicación de telefonía inalámbrica configurado para emplear una interfaz aérea CDMA. Sin embargo, los expertos en la técnica entenderían que un procedimiento y aparato para cifrar habla sonora de manera predictiva que incorporan características de la presente invención pueden residir en cualquiera de diversos sistemas de comunicación que emplean una amplia gama de tecnologías conocidas por los expertos en la técnica.

Como se ilustra en la figura 1, un sistema telefónico inalámbrico CDMA incluye generalmente una pluralidad de unidades 10 de abonado móviles, una pluralidad de estaciones 12 base, controladores 14 de estaciones base (BSCs), y un centro 16 de conmutación móvil (MSC). El MSC 16 está configurado para interconectarse con una red 18 telefónica pública conmutada (PSTN) convencional. El MSC 16 está también configurado para interconectarse con los BSC 14. Los BSC 14 están acoplados a las estaciones 12 base (BSs) a través de líneas de retroceso. Las líneas de retroceso pueden estar configuradas para soportar cualquiera de diversas interfaces conocidas incluyendo, por ejemplo, E1/T1, ATM, IP, PPP, Frame Relay, HDSL, ADSL o xDSL. Se entiende que puede haber más de dos BSC 14 en el sistema. Cada estación 12 base incluye de manera ventajosa al menos un sector (no mostrado), comprendiendo cada sector una antena omnidireccional o una antena que apunta a una dirección particular radialmente alejada de la estación 12 base. Como alternativa, cada sector puede comprender dos antenas para recepción de diversidad. Cada estación 12 base puede estar diseñada de manera ventajosa para soportar una pluralidad de asignaciones de frecuencia. Puede hacerse referencia a la intersección de un sector y una asignación de frecuencia como un canal CDMA. Las estaciones 12 base (BSS) pueden también conocerse como subsistemas 12 de transceptor de estación base (BSS). Como alternativa, puede utilizarse "estación base" en la industria para referirse conjuntamente a un BSC 14 y una o más BSs 12. La BSs 12 también puede denominarse "sitios de célula" 12. Como alternativa, puede hacerse referencia a los sectores individuales de una BSS 12 dada como sitios de célula. Las unidades 10 de abonado móviles son normalmente teléfonos 10 PCS o celulares. El sistema esta configurado de manera ventajosa para el uso según la norma IS-95.

Durante el normal funcionamiento del sistema telefónico celular, las estaciones 12 base reciben conjuntos de señales de enlace inverso desde conjuntos de unidades 10 móviles. Las unidades 10 móviles llevan a cabo llamadas telefónicas u otras comunicaciones. Cada señal de enlace inverso recibida por una estación 12 base dada se procesa en esa estación 12 base. Los datos resultantes se reenvían al BSC 14. El BSC 14 proporciona asignación de recursos de llamadas y funcionalidad de gestión de movilidad que incluye la organización de traspasos continuos entre las estaciones 12 base. El BSC 14 también encamina los datos recibidos al MSC 16, que proporciona servicios de encaminamiento adicionales para la interconexión con la PSTN 18. De manera similar, la PSTN 18 se interconecta con el MSC 16, y el MSC 16 se interconecta con el BSC 14, que a su vez controla a las estaciones 12 base para que transmitan conjuntos de señales de enlace directo a conjuntos de unidades 10 móviles. Los expertos deberían entender que las unidades 10 de abonado pueden ser unidades fijas en realizaciones alternativas.

En la figura 2 un primer codificador 100 recibe muestras s(n) de habla digitalizadas y codifica las muestras s(n) para la transmisión sobre un medio 102 de transmisión, o canal 102 de comunicación, a un primer descodificador 104. El descodificador 104 descodifica las muestras de habla codificadas y sintetiza una señal S_{SINT}(n) de habla de salida. Para la transmisión en la dirección contraria, un segundo codificador 106 codifica muestras s(n) de habla digitalizadas, que se transmiten sobre un canal 108 de comunicación. Un segundo descodificador 110 recibe y descodifica las muestras de habla codificadas, generando una señal S_{SINT}(n) de habla de salida sintetizada.

Las muestras s(n) de habla representan señales de habla que se han digitalizado y cuantificado según cualquiera de varios procedimientos conocidos en la técnica incluyendo, por ejemplo, modulación por impulsos codificados (PCM), ley \mu o ley A con comprensión - expansión. Como se conoce en la técnica, las muestras s(n) de habla se organizan en tramas de datos de entrada en las que cada trama comprende un número predeterminado de muestras s(n) de habla digitalizadas. En una realización ejemplar, se emplea una tasa de muestreo de 8 kHz, comprendiendo cada trama de 20 ms 160 muestras. En las realizaciones descritas posteriormente, la velocidad de la transmisión de datos puede variarse de manera ventajosa trama por trama desde velocidad completa a velocidad de medio a velocidad de cuarto a velocidad de octavo. El variar la velocidad de transmisión de datos es ventajoso ya que pueden emplearse selectivamente velocidades de transmisión de bits inferiores pueden emplearse selectivamente para tramas que contienen relativamente menos información de habla. Como lo expertos en la técnica entienden, pueden utilizarse otras tasas de muestreo y/o tamaños de trama. También en las realizaciones descritas posteriormente, el modo de codificación de habla (o codificado) puede variarse trama por trama en respuesta a la información de habla o energía de la trama.

El primer codificador 100 y el segundo descodificador 110 comprenden juntos un primer codificador (codificador/descodificador), ó códec de palabra. El codificador de habla podría utilizarse en cualquier dispositivo de comunicación para transmitir señales de habla, incluyendo, por ejemplo, las unidades de abonado, las BTS o los BSC descritos anteriormente con referencia a la figura 1. De manera similar, el segundo codificador 106 y el primer descodificador 104 comprenden juntos un segundo codificador de habla. Los expertos en la técnica comprenderán que los codificadores de habla pueden implementarse con un procesador de señales digitales (DSP), un circuito integrado de aplicación específica (ASIC), lógica de puertas discretas, o cualquier módulo de software programable convencional y un microprocesador. El módulo de software podría residir en memoria RAM, memoria flash, registros, o cualquier otra forma de medio de almacenamiento conocido en la técnica. Como alternativa, cualquier procesador, controlador o máquina de estados convencionales podrían sustituirse por el microprocesador. Los ASIC ejemplares diseñados específicamente para el codificado de habla se describen en la patente estadounidense nº 5.727.123, transferida al cesionario de la presente invención, e incorporada en su totalidad a este documento, y la Patente de los Estados Unidos con número US 5 784 532, titulada VOCODER ASIC con fecha 16 de febrero de 1994 concedida al cesionario de la presente invención.

En la figura 3 un codificador 200 que puede utilizarse en un codificador de habla incluye un módulo 202 de decisión de modo, un módulo 204 de estimación de tono, un módulo 206 de análisis LP, un filtro 208 de análisis LP, un módulo 210 de cuantificación LP, y un módulo 212 de cuantificación de residuo. Las tramas s(n) de habla de entrada se proporcionan al módulo 202 de decisión de modo, al módulo 204 de estimación de tono, al módulo 206 de análisis LP, y al filtro 208 de análisis LP. El módulo 202 de decisión de modo produce un índice I_{M} de modo y un modo M basándose en la periodicidad, energía, relación señal a ruido (SNR), velocidad de cruce por cero, entre otras características, de cada trama s(n) de habla de entrada. Varios procedimientos de clasificación de tramas de habla según la periodicidad se describen en la patente estadounidense nº 5.911.128, que está transferida al cesionario de la presente invención, e incorporada por completo a este documento por medio de referencia. Tales procedimientos también se incorporan en las normas provisionales de la Asociación de la Industria de las Telecomunicaciones TIA/EIA IS-127 y TIA/EIA IS-733. Un esquema de decisión de modo ejemplar también se describe en la solicitud de patente estadounidense anteriormente mencionada con nº 6.691.084.

El módulo 204 de estimación de tono produce un índice I_{P} de tono y un valor P_{0} de retardo basándose en cada trama s(n) de habla de entrada. El módulo 206 de análisis LP realiza análisis predictivo lineal sobre cada trama s(n) de habla de entrada para generar un parámetro a LP. El parámetro a LP se proporciona al módulo 210 de cuantificación LP. El módulo 210 de cuantificación LP también recibe el modo M, realizando por tanto el proceso de cuantificación de una manera dependiente del modo. El módulo 210 de cuantificación LP produce un índice ILP LP y un parámetro \hat{a} LP cuantificado. El filtro 208 de análisis LP recibe el parámetro \hat{a} LP cuantificado además de la trama s(n) de habla de entrada. El filtro 208 de análisis LP genera una señal R[n] residuo LP, que representa el error entre las tramas s(n) de habla de entrada y el habla reconstruida basándose en los parámetros \hat{a} predichos lineales cuantificados. El residuo R[n] LP, el modo M, y el parámetro \hat{a} LP cuantificado se proporcionan al módulo 212 de cuantificación de residuo. Basándose en estos valores, el módulo 212 de cuantificación de residuo produce un índice IR de residuo y una señal \hat{R}[n] de residuo cuantificada.

En la figura 4 un descodificador 300 que puede utilizarse en un codificador de habla incluye un módulo 302 de descodificación de parámetros LP, un módulo 304 de descodificación de residuos, un módulo 306 de descodificación de modo, y un filtro 308 de síntesis LP. El módulo 306 de descodificación de modo recibe y descodifica un índice I_{M} de modo, generando a partir del mismo un modo M. El módulo 302 de descodificación de parámetros LP recibe el modo M y un índice I_{LP} LP. El módulo 302 de descodificación de parámetros LP descodifica los valores recibidos para producir un parámetro \hat{a} LP cuantificado. El módulo 304 de descodificación de residuos recibe un índice I_{R} de residuo, un índice IP de tono y el índice IM de modo. El módulo 304 de descodificación de residuos descodifica los valores recibidos para generar una señal \hat{R}[n] de residuo cuantificada. La señal \hat{R}[n] de residuo cuantificada y el parámetro \hat{a} LP cuantificado se proporcionan al filtro 308 de síntesis LP, que sintetiza una señal \hat{s}[n] de habla de salida descodificada a partir de los mismos.

El funcionamiento e implementación de los diversos módulos del codificador 200 de la figura 3 y el descodificador 300 de la figura 4 se conocen en la técnica y se describen en la patente estadounidense anteriormente mencionada nº 5.414.796 y L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396-453 (1978).

En una realización, ilustrada en la figura 5, un codificador 400 de habla multimodo se comunica con un descodificador 402 de habla multimodo a través de un canal 404 de comunicación, o medio de transmisión. El canal 404 de comunicación es de manera ventajosa una interfaz RP configurada según la norma IS-95. Los expertos en la técnica entenderían que el codificador 400 presenta un descodificador asociado (no mostrado). El codificador 400 y su descodificador asociado forman juntos un primer codificador de habla. Los expertos en la técnica también entenderían que el descodificador 402 presenta un codificador asociado (no mostrado). El descodificador 402 y su codificador asociado forman juntos un segundo codificador de habla. El primer y segundo codificadores de habla pueden implementarse de manera ventajosa como parte de un primer y segundo DSP, y pueden residir en, por ejemplo, una unidad de abonado y una estación base en un sistema telefónico celular o PCS, o en una unidad de abonado y una pasarela en un sistema por satélite.

El codificador 400 incluye un calculador 406 de parámetros, un módulo 408 de clasificación de modos, una pluralidad de modos 410 de codificación, y un módulo 412 de formateo de paquetes. El número de modos 410 de codificación se muestra como n, que un experto en la técnica entendería que podría significar cualquier número razonable de modos 410 de codificación. Por simplicidad, sólo se muestran tres modos 410 de codificación, con una línea de puntos que indica la existencia de otros modos 410 de codificación. El descodificador 402 incluye un módulo 414 desensamblador de paquetes y detector de pérdidas de paquetes, una pluralidad de modos 416 de descodificación, un descodificador 418 de borrado, y un filtro 420 posterior, o sintetizador de habla. El número de modos 416 de descodificación se muestra como n, que un experto entendería que podría significar cualquier número razonable de modos 416 de descodificación. Por simplicidad, sólo se muestran tres modos 416 de descodificación, con una línea de puntos que indica la existencia de otros modos 416 de descodificación.

Una señal de habla, s(n) se proporciona al calculador 406 de parámetros. La señal de habla se divide en bloques de muestras llamados tramas. El valor n designa el número de tramas. En una realización alternativa, se utiliza una señal de error residual de predicción lineal (LP) en lugar de la señal de habla. El residuo LP se utiliza por codificadores de habla tal como, por ejemplo, el codificador CELP. El cálculo del residuo LP se realiza de manera ventajosa proporcionando la señal de habla a un filtro LP inverso (no mostrado). La función de transferencia del filtro LP inverso, A(z), se calcula según la siguiente ecuación:

1

en la que los coeficientes a1 son derivaciones de filtro que presentan valores predefinidos escogidos según procedimientos conocidos, tal como se describe en la patente estadounidense anteriormente mencionada nº 5.414.796 y la patente estadounidense nº 6.456.964. El número p indica el número de muestras previas que utiliza el filtro LP inverso para fines de predicción. En una realización particular, p se fija a diez.

El calculador 406 de parámetros obtiene varios parámetros basándose en la trama actual. En una realización estos parámetros incluyen al menos uno de lo siguiente: coeficientes de filtro de codificado predictivo lineal (LPC), coeficientes de par espectral de línea (LSP), funciones de autocorrelación normalizadas (NACF), retardo de bucle abierto, velocidades de cruce por cero, energías de banda y la señal residual de formante. El cálculo de los coeficientes LPC, coeficientes LSP, retardo de bucle abierto, energías de banda y la señal residual de formante se describe en detalle en la patente estadounidense anteriormente mencionada nº 5.414.796. El cálculo de las NACF y las velocidades de cruce por cero se describe en detalle en la patente estadounidense anteriormente mencionada nº 5.911.128.

El calculador 406 de parámetros está acoplado al módulo 408 de clasificación de modos. El calculador 406 de parámetros proporciona los parámetros al módulo 408 de clasificación de modos. El módulo 408 de clasificación de modos está acoplado para conmutar dinámicamente entre los modos 410 de codificación trama por trama para seleccionar el modo 410 de codificación más apropiado para la trama actual. El módulo 408 de clasificación de modos selecciona un modo 410 de codificación particular para la trama actual comparando los parámetros con umbrales predefinidos y/o valores techo. Basándose en el contenido de energía de la trama, el módulo 408 de clasificación de modos clasifica la trama como no habla, o habla inactiva (por ejemplo, silencio, ruido de fondo, o pausas entre palabras), o habla. Basándose en la periodicidad de la trama, el módulo 408 de clasificación de modos clasifica entonces tramas de habla como un tipo particular de habla, por ejemplo, sonora, sorda o transitoria.

El habla sonora es habla que exhibe un grado relativamente alto de periodicidad. Un segmento de habla sonora se muestra en el gráfico de la figura 6. Como se indica, el periodo de tono es una componente de una trama de habla que puede utilizarse para favorecer el análisis y reconstrucción de los contenidos de la trama. El habla sorda comprende normalmente sonidos consonánticos. Las tramas de habla transitoria son normalmente transiciones entre habla sonora y sorda. Las tramas que no se clasifican ni como sonoras ni como sordas se clasifican como habla transitoria. Los expertos en la técnica entenderán que podría emplearse cualquier esquema de clasificación razonable.

Clasificar las tramas de habla es ventajoso porque pueden utilizarse diferentes modos 410 de codificación para codificar diferentes tipos de habla, dando como resultado un uso eficaz del ancho de banda en un canal compartido tal como el canal 404 de comunicación. Por ejemplo, ya que el habla sonora es periódica y por tanto altamente predictiva, pueden emplearse un modo 410 de codificación altamente predictivo, de tasa de transmisión de datos baja para codificar habla sonora. Los módulos de clasificación tal como el módulo 408 de clasificación se describen en detalle en el documento anteriormente mencionado US 6.691.084 y en la patente estadounidense nº US 6.640.209 titulada CLOSED-LOOP MULTIMODE MIXED-DOMAIN LINEAR PREDICTION (MDLP) SPEECH CODER, presentada el 26 de febrero de 1999, transferida al cesionario de la presente invención, e incorporada por completo a este documento por medio de referencia.

El módulo 408 de clasificación de modos selecciona un modo 410 de codificación para la trama actual basándose en la clasificación de la trama. Los diversos modos 410 de codificación están acoplados en paralelo. Uno o más de los modos 410 de codificación pueden estar operativos en cualquier momento dado. Sin embargo, sólo un modo 410 de codificación opera de manera ventajosa en cualquier momento dado, y se selecciona según la clasificación de la trama actual.

Los diferentes modos 410 de codificación operan de manera ventajosa según diferentes velocidades de transmisión de bits de codificado, diferentes esquemas de codificado, o diferentes combinaciones de tasa de transmisión de datos de codificado y esquema de codificado. Las diversas velocidades de codificado utilizadas pueden ser velocidad completa, velocidad de medio, velocidad de cuarto, y/o velocidad de octavo. Los diversos esquemas de codificado utilizados pueden ser codificado CELP, codificado de periodo de tono de prototipo (PPP) (o codificado de interpolación de forma de onda (WI)), y/o codificado de predicción lineal de ruido excitada (NELP). De este modo, por ejemplo, un modo 410 de codificación particular podría ser CELP a velocidad completa, otro modo 410 de codificación podría ser CELP velocidad de medio, otro modo 410 de codificación podría ser PPP a velocidad de cuarto, y otro modo 410 de codificación podría ser NELP.

Según un modo 410 de codificación CELP, un modelo de tracto vocal predictivo lineal se excita con una versión cuantificada de la señal residual LP. Los parámetros cuantificados para la toda la trama anterior se utilizan para reconstruir la trama actual. El modo 410 de codificación CELP proporciona de este modo una reproducción relativamente precisa de habla pero a expensas de una velocidad de retransmisión de bits de codificado relativamente alta. El modo 410 de codificación CELP puede utilizarse de manera ventajosa para codificar tramas clasificadas como tramas transitorias. Un codificador de habla CELP de velocidad variable ejemplar se describe en detalle en la patente estadounidense anteriormente mencionada nº 5.414.796.

Según un modo 410 de codificación NELP, se utiliza una señal filtrada de ruido seudoaletario para modelar la trama de habla. El modo 410 de codificación NELP es una técnica relativamente simple que consigue una tasa de transmisión de datos baja. El modo 412 de codificación NELP puede utilizarse para favorecer la codificación de tramas clasificadas como habla sorda. Un modo de codificación NELP ejemplar se describe en detalle en la patente estadounidense anteriormente mencionada US 6.456.964.

Según un modo 410 de codificación PPP, sólo se codifica un subconjunto de los periodos de tono en cada trama. Los periodos restantes de la señal de habla se reconstruyen interpolando entre estos periodos de prototipo. En una implementación de dominio de tiempo de codificado PPP, se calcula un primer conjunto de parámetros que describe cómo modificar un periodo de prototipo anterior para que se aproxime al periodo de prototipo actual. Se seleccionan uno o más vectores de código que, cuando se suman, aproximan la diferencia entre el periodo de prototipo actual y el periodo de prototipo anterior modificado. Un segundo conjunto de parámetros describe estos vectores de código seleccionados. En una implementación de dominio de frecuencia de codificado PPP, se calcula un conjunto de parámetros para describir los espectros de amplitud y fase del prototipo. Esto puede realizarse o bien en un sentido absoluto, o bien predictivamente como se describe posteriormente en el presente documento. En cualquier implementación de codificado PPP, el descodificador sintetiza una señal de habla de salida reconstruyendo un prototipo actual basándose en el primer y segundo conjuntos de parámetros. La señal de habla se interpola entonces sobre la región entre el periodo de prototipo reconstruido actual y el periodo de prototipo reconstruido anterior. El prototipo es por tanto una parte de la trama actual que se interpolará linealmente con prototipos de tramas anteriores que estaban situadas de manera similar dentro de la trama para reconstruir la señal de habla o la señal residual LP en el descodificador (es decir, un periodo de prototipo pasado se utiliza como un predictor del periodo de prototipo actual). Un codificador de habla PPP ejemplar se describe en detalle en la patente estadounidense anteriormente mencionada
nº 6.456.964.

Cifrar el periodo de prototipo en lugar de toda la trama de habla reduce la tasa de transmisión de datos de codificado requerida. Las tramas clasificadas como habla sonora pueden cifrarse de manera ventajosa con un modo 410 de codificación PPP. Como se ilustra en la figura 6, el habla sonora contiene componentes periódicas, de lenta variación en el tiempo que se aprovechan para favorecer el modo 410 de codificación PPP. Aprovechando la periodicidad de la voz sonora, el modo 410 de codificación PPP puede conseguir una velocidad de transferencia de bits más baja que el modo 410 de codificación CELP.

El modo 410 de codificación seleccionado se acopla al módulo 412 de formateo de paquetes. El modo 410 de codificación seleccionado codifica, o cuantifica, la trama actual y proporciona los parámetros de trama cuantificada al módulo 412 de formateo de paquetes. El módulo 412 de formateo de paquetes ensambla de manera ventajosa la información cuantificada en paquetes para la transmisión sobre el canal 404 de comunicación. En una realización el módulo 412 de formateo de paquetes está configurado para proporcionar codificado de corrección de errores y formatear el paquete según la norma IS-95. El paquete se proporciona a un transmisor (no mostrado), se convierte a formato analógico, se modula, y se transmite sobre el canal 404 de comunicación a un receptor (no mostrado tampoco), que recibe, demodula, y digitaliza el paquete, y proporciona el paquete al descodificador 402.

En el descodificador 402, el módulo 414 desensamblador de paquetes y detector de pérdida de paquetes recibe el paquete desde el receptor. El módulo 414 desensamblador de paquetes y detector de pérdida de paquetes está acoplado para conmutar dinámicamente entre los modos 416 de descodificación paquete por paquete. El número de modos 416 de descodificación es el mismo que el número de modos 410 de codificación, y como un experto en la materia reconocería, cada modo 410 de codificación numerado está asociado con un modo 416 de descodificación respectivo numerado de manera similar configurado para emplear la misma tasa de transmisión de datos de codificado y esquema de codificado.

Si el módulo 414 desensamblador de paquetes y detector de pérdida de paquetes detecta el paquete, el paquete se desensambla y se proporciona al modo 416 de descodificación pertinente. Si el módulo 414 desensamblador de paquetes y detector de pérdida de paquetes no detecta un paquete, se declara un paquete perdido y el descodificador 418 de borrado realiza de manera ventajosa un procesamiento de borrado de trama como se describe en una solicitud relacionada presentada junto con la presente, titulada FRAME ERASURE COMPENSATION METHOD IN A VARIABLE RATE SPEECH CODER, patente estadounidense nº US 6.584.438, y transferida al cesionario de la presente invención.

La serie paralela de modos 416 de descodificación y el descodificador 418 de borrado están acoplados al filtro 420 posterior. El modo 416 de descodificación pertinente descodifica, o descuantifica, el paquete y proporciona la información al filtro 420 posterior. El filtro 420 posterior reconstruye, o sintetiza, la trama de habla, emitiendo tramas de habla sintetizada, \hat{s}(n). En la patente estadounidense anteriormente mencionada nº 5.414.796 y la patente estadounidense nº US 6.456.964 se describen en detalle modos de descodificación y filtros posteriores ejemplares.

En una realización no se transmiten los propios parámetros cuantificados. En su lugar, se transmiten índices de libro de código que especifican direcciones en varias tablas de consulta (LUT) (no mostradas) en el descodificador 402. El descodificador 402 recibe los índices de libro de código y busca las diversas LUT de libro de código para valores de parámetros adecuados. En consecuencia, los índices de libro de código para parámetros tales como, por ejemplo, retardo de tono, ganancia de libro de código adaptable, y LSP pueden transmitirse, y el descodificador 402 busca tres LUT de código asociadas.

Según el modo 410 de codificación CELP, se transmiten los parámetros de retardo de tono, amplitud, fase y LSP. Los índices de libro de código LSP se transmiten ya que la señal residuo LP va a sintetizarse en el descodificador 402. Además, se transmite la diferencia entre el valor de retardo de tono para la trama actual y el valor de retardo de tono para la trama anterior.

Según un modo de codificación PPP convencional en el que va a sintetizarse la señal de habla en el descodificador, sólo se transmiten los parámetros de retardo de tono, amplitud y parámetros de fase. La tasa de transmisión de datos inferior empleada por las técnicas de codificado de habla PPP convencionales no permiten la transmisión de tanto la información de retardo de tono absoluto como los valores de la diferencia de retardo de tono relativo.

Según una realización, las tramas altamente periódicas tales como las tramas de habla sonora se transmiten con un modo 410 de codificación PPP de tasa de transmisión de datos baja que cuantifica la diferencia entre el valor de retardo de tono para la trama actual y el valor de retardo de tono para la trama anterior para la transmisión, y no cuantifica el valor de retardo de tono para la trama actual para la transmisión. Ya que las tramas sonoras son altamente periódicas por naturaleza, transmitir el valor de diferencia como el opuesto al valor de retardo de tono absoluto permite conseguir una velocidad de codificado de bits inferior. En una realización esta cuantificación se generaliza de manera que se calcula una suma ponderada de los valores de parámetros para las tramas anteriores, en la que la suma de los pesos es uno, y la suma ponderada se resta del valor de parámetros para la trama actual. Entonces la diferencia se
cuantifica.

En una realización la cuantificación predictiva de los parámetros LPC se realiza según la siguiente descripción. Los parámetros LPC se convierten en información espectral de línea (LSI) (o varios LSP), que se sabe que son más adecuados para la cuantificación. El vector LSI de dimensión N para la trama M-ésima puede denotarse como 2 En el esquema de cuantificación predictiva, se calcula el vector de error objetivo según la siguiente ecuación:

3

en la que los valores 4 son las contribuciones de los parámetros LSI de un número de tramas, P, inmediatamente anteriores a la trama M, y los valores 5 son pesos respectivos de manera que 6

Las contribuciones, \hat{U}, pueden ser iguales a los parámetros LSI cuantificados o incuantificados de la correspondiente trama pasada. Un esquema de este tipo se conoce como un procedimiento autoregresivo (AR). Como alternativa, contribuciones, \hat{U}, pueden ser iguales al vector de error cuantificado o incuantificado correspondiente a los parámetros LSI de la correspondiente trama pasada. Un esquema de este tipo se conoce como un procedimiento de media móvil (MA).

El vector de error objetivo, T, se cuantifica entonces a \hat{T} utilizando cualquiera de diversas técnicas de cuantificación de vectores (VQ) conocidas incluyendo, por ejemplo, VQ dividido o VQ de varias etapas. Varias técnicas VQ se describen en A. Gersho & R.M. Gray, Vector Quantization and Signal Compression (1992). El vector LSI cuantificado se reconstruye entonces a partir del vector de error objetivo cuantificado, \hat{T}, utilizando la siguiente ecuación:

7

En una realización el esquema de cuantificación anteriormente descrito se implementa con P=2, N=10 y

8

El vector objetivo anteriormente citado, T, puede cuantificarse de manera ventajosa utilizando dieciséis bits mediante el procedimiento VQ dividido bien conocido.

Debido a su naturaleza periódica, las tramas sonoras pueden cifrarse utilizando un esquema en el que se utiliza todo el conjunto de bits para cuantificar un periodo de tono de prototipo, o un conjunto finito de periodos de tono de prototipo, de la trama de una longitud conocida. Esta longitud del periodo de tono de prototipo se llama retardo de tono. Estos periodos de tono de prototipo, y posiblemente los periodos de tono de prototipo de tramas adyacentes, pueden utilizarse entonces para reconstruir toda la trama de habla sin pérdida de calidad perceptiva. Este esquema PPP de extracción del periodo de tono de prototipo de una trama de habla y utilización de estos prototipos para reconstruir toda la trama se describe en la patente estadounidense anteriormente mencionada nº US 6.456.964.

En una realización, un cuantificador 500 se utiliza para cuantificar tramas altamente periódicas tales como tramas sonoras según un esquema de codificado PPP, como se muestra en la figura7. El cuantificador 500 incluye un extractor 502 de prototipos, un conversor 504 de dominio de frecuencia, un cuantificador 506 de amplitud, y un cuantificador 508 de fase. El extractor 502 de prototipos está acoplado al conversor 504 de dominio de frecuencia. El conversor 504 de dominio de frecuencia está acoplado al cuantificador 506 de amplitud y al cuantificador 508 de fase.

El extractor 502 de prototipos extrae un prototipo de periodo de tono de una trama de habla, s(n). En una realización alternativa, la trama es una trama de residuo LP. El extractor 502 de prototipos proporciona el prototipo de periodo de tono al conversor 504 de dominio de frecuencia. El conversor 504 de dominio de frecuencia transforma el prototipo de una representación de domino de tiempo a un representación de dominio de frecuencia según cualquiera de varios procedimientos conocidos incluyendo, por ejemplo, la transformada de Fourier discreta (DFT) o la transformada rápida de Fourier (FFT). El conversor 504 de domino de frecuencia genera un vector de amplitud y un vector de fase. El vector de amplitud se proporciona al cuantificador 506 de amplitud y el vector de fase se proporciona al cuantificador 508 de fase. El cuantificador 506 de amplitud cuantifica el conjunto de amplitudes, generando un vector de amplitud cuantificado, \hat{A}, y el cuantificador 508 de fase cuantifica el conjunto de fases, generando un vector de fase cuantificado, \hat{\phi}.

Otros esquemas para cifrar tramas sonoras, tales como, por ejemplo, codificado de habla de excitación multibanda (MBE) y codificado armónico, transforman toda la trama (o bien residuo LP o bien habla) o partes de la misma en valores de dominio de frecuencia mediante representaciones de transformada de Fourier que comprenden amplitudes y fases que pueden cuantificarse y utilizarse para la síntesis en habla en el descodificador (no mostrado). Para utilizar el cuantificador de la figura 7 con tales esquemas de codificado, se omite el extractor 502 de prototipos, y el conversor 504 de dominio de frecuencia sirve para descomponer las representaciones espectrales de frecuencia de corta duración complejas de la trama en un vector de amplitud y un vector de fase. Y en cualquier esquema de codificado, puede aplicarse primero una función de presentación en ventanas adecuada tal como, por ejemplo, una ventana Hamming. Un esquema de codificado de habla MBE ejemplar se describe en D.W. Griffin & J.S. Lim, "Multiband Excitation Vocoder", 36(8) IEE Trans. on ASSP (agosto de 1988). Un esquema de codificado armónico de habla ejemplar se describe en L.B. Almeida & J.M. Tribolet, "Harmonic Coding: A Low Bit-Rate, Good Quality, Speech Coding Technique," Proc. ICASSP `82 1664-1667 (1982).

Ciertos parámetros deben cuantificarse para cualquiera de los esquemas de codificado de tramas sonoras anteriores. Estos parámetros son el retardo de tono o la frecuencia de tono, y la forma de onda de periodo de tono de prototipo de longitud de retardo de tono, o las representaciones espectrales de corta duración (por ejemplo, representaciones de Fourier) de toda la trama o una parte de la misma.

En una realización, la cuantificación predictiva del retardo de tono o la frecuencia de tono se realiza según la siguiente descripción. La frecuencia de tono y el retardo de tono pueden obtenerse de manera unívoca entre sí escalando el recíproco del otro con un factor de escala fijo. En consecuencia, es posible cuantificar cualquiera de estos valores utilizando el siguiente procedimiento. El retardo de tono (o la frecuencia de tono) para la trama "m" puede denotarse como L_{m}. El retardo de tono, L_{m}, puede cuantificarse a un calor cuantificado \hat{L}_{m}, según la siguiente ecuación:

9

en la que los valores L_{m1}, L_{m2},..., L_{mN} son retardos de tono (o las frecuencias de tono) para las tramas m_{1}, m_{2},...,m_{N}, respectivamente, los valores \eta_{m1}, \eta_{m2},..., \eta_{mN} son pesos correspondientes, y \hat{\delta} L_{m} se obtiene a partir de la siguiente ecuación:

10

y se cuantifica \hat{\delta} L_{m} utilizando cualquiera de diversas técnicas de cuantificación escalar o vectorial conocidas. En una realización particular se implementó un esquema de codificado de habla sonora, de tasa de transmisión de datos baja que cuantifica \delta L_{m} = L_{m} - L_{m-1} utilizando sólo cuatro bits.

En una realización, la cuantificación del periodo de tono de prototipo o el espectro de corta duración de toda la trama o partes de la misma se realiza según la siguiente descripción. Como se trató anteriormente, el periodo de tono de prototipo de una trama sonora puede cuantificarse eficazmente (o bien en el dominio de habla o en bien en el dominio residual LP) transformando primero la forma de onda de dominio de tiempo al dominio de frecuencia en el que la señal puede representarse como un vector de amplitudes y fases. Todos o algunos elementos de los vectores de amplitud y fase pueden entonces cuantificarse por separado utilizando una combinación de los procedimiento descritos posteriormente. También como se mencionó anteriormente, en otros esquemas tales como esquemas de codificado MBE o armónico, las representaciones espectrales de frecuencia de corta duración complejas de la trama pueden descomponerse en vectores de amplitudes y de fase. Por lo tanto, los siguientes procedimientos de cuantificación, o interpretaciones adecuadas de los mismos, pueden aplicarse a cualquiera de las técnicas de codificado descritas anteriormente.

En una realización, los valores de amplitud pueden cuantificarse como sigue. El espectro de amplitud puede ser un vector de dimensión fija o un vector de dimensión variable. Además, el espectro de amplitud puede representarse como una combinación de un vector de potencia de dimensión inferior y un vector de espectro de amplitud normalizada obtenido normalizando el espectro de amplitud original con el vector de potencia. El siguiente procedimiento puede aplicarse a cualquier, o partes de los mismos, elemento anteriormente mencionado (concretamente, el espectro de amplitud, el espectro de potencia, o el espectro de amplitud normalizada). Un subconjunto del vector de amplitud (o potencia, o amplitud normalizada) para la trama "m" puede denotarse como A_{m}. El vector de error de predicción de amplitud (o potencia, o amplitud normalizada) se calcula primero utilizando la siguiente ecuación:

11

en la que los valores A_{m1}, A_{m2},...A_{mN} son el subconjunto del vector de amplitud (o potencia, o amplitud normalizada) para las tramas m_{1}, m_{2},..., m_{N}, respectivamente, y los valores 12 son los transpuestos de los correspondientes vectores de peso.

El vector de error de predicción puede cuantificarse entonces utilizando cualquiera de los diversos procedimientos VQ conocidos a un vector de error cuantificado denominado \hat{\delta} A_{m}. La versión cuantificada de A_{m} se da entonces mediante la siguiente ecuación:

13

Los pesos á establecen la cantidad de predicción en el esquema de cuantificación. En una realización particular, el esquema predictivo descrito anteriormente se ha implementado para cuantificar un vector de potencia de dos dimensiones que utiliza seis bits, y para cuantificar un vector de amplitud normalizada de diecinueve dimensiones que utiliza doce bits. De esta manera, es posible cuantificar el espectro de amplitud de un periodo de tono de prototipo que utiliza un total de dieciocho bits.

En una realización, los valores de fase pueden cuantificarse como sigue. Un subconjunto del vector de fase para la trama "m" puede denotarse ö_{m}. Es posible cuantificar ö_{m} como igual a la fase de una forma de onda de referencia (dominio de tiempo o dominio de frecuencia de toda la trama o una parte de la misma), y se aplican cero o más desplazamientos lineales a una o más bandas de la transformación de la forma de onda de referencia. Un técnica de cuantificación de este tipo se describe en la patente estadounidense número US 6.397.175, titulada METHOD AND APPARATUS FOR SUBSAMPLING PHASE SPECTRUM INFORMATION, presentada el 19 de julio de 1999, transferida al cesionario de la presente invención. Una forma de onda de referencia de este tipo podría ser una transformación de la forma de onda de la trama m_{N}, o cualquier otra forma de onda predeterminada.

Por ejemplo, en una realización que emplea un esquema de codificado de habla sonora de velocidad de transferencia de bits baja, el residuo LP de la trama "m-1" se extiende primero según un contorno de tono preestablecido (como se ha incorporado en la norma provisional de la Asociación de la Industria de las Telecomunicaciones TIA/EIA IS-127), en la trama "m". Entonces se extrae un periodo de tono de prototipo de la forma de onda extendida de una manera similar a la extracción del prototipo incuantificado de la trama "m". Entonces se obtienen las fases, ö'_{m-1}, del prototipo extraído. Entonces los siguientes valores se igualan: ö_{m} = ö'_{m-1}. De esta manera es posible cuantificar las fases del prototipo de la trama "m" mediante la predicción a partir de las fases de una transformación de la forma de onda de la trama "m-1" no utilizando ningún bit.

En una realización particular, los esquemas de cuantificación predictiva anteriormente descritos se han implementado para cifrar los parámetros LPC y el residuo LP de una trama de habla sonora utilizando sólo treinta y ocho bits.

Por tanto, se ha descrito un procedimiento y aparato novedosos y mejorados para cuantificar de manera predictiva habla sonora. Los expertos en la técnica entenderían que los datos, instrucciones, órdenes, información, señales, bits, símbolos y elementos de código a los que puede hacerse referencia a través de la descripción anterior se representan de manera ventajosa mediante voltajes, corrientes, ondas electromagnéticas, partículas o campos magnéticos, partículas o campos ópticos, o cualquier combinación de los mismos. Los expertos apreciarán además que los diversos bloques, módulos, circuitos, y etapas de algoritmo lógicos ilustrativos descritos en relación con las realizaciones dadas a conocer en el presente documento pueden implementarse como hardware electrónico, software informático o combinaciones de ambos. Los diversos componentes, bloques, módulos, circuitos y etapas ilustrativos se han descrito generalmente en términos de su funcionalidad. El que la funcionalidad se implemente como hardware o como software depende de la aplicación particular y limitaciones de diseño impuestas en todo el sistema. Los expertos reconocen la intercambiabilidad de hardware y software en estas circunstancias, y cómo implementar de la mejor manera la funcionalidad descrita para cada aplicación particular. Como ejemplos, los diversos bloques, módulos, circuitos y etapas de algoritmo lógicos descritos en relación con las realizaciones dadas a conocer en el presente documento pueden implementarse o realizarse con un procesador de señales digitales (DSP), un circuito integrado de aplicación específica (ASIC), una serie de puertas de campo programables (FPGA), u otro dispositivo lógico programable, lógica de transistor o puerta discreta, componentes de hardware discretos tales como, por ejemplo, registros y FIFO, un procesador que ejecuta un conjunto de instrucciones firmware, cualquier módulo de software programable convencional y un procesador, o cualquier combinación de los mismos diseñada para realizar las funciones descritas en el presente documento. El procesador puede ser de manera ventajosa un microprocesador, pero como alternativa, el procesador puede ser cualquier procesador, controlador, microcontrolador o máquina de estados convencionales. El módulo de software podría residir en memoria RAM, memoria flash, memoria ROM, memoria EPROM, memoria EEPROM, registros, disco duro, un disco extraíble, un CD-ROM, o cualquier forma de medio de almacenamiento conocida en la técnica. Como se ilustra en la figura 8, un procesador 600 ejemplar está acoplado de manera ventajosa a un medio 602 de almacenamiento para leer información desde, y escribir información en, el medio 602 de almacenamiento. Como alternativa, el medio 602 de almacenamiento puede estar integrado en el procesador 600. El procesador 600 y el medio 602 de almacenamiento pueden residir en un ASIC (no mostrado). El ASIC puede residir en un teléfono (no mostrado). Como alternativa, el procesador 600 y el medio 602 de almacenamiento pueden residir en un teléfono. El procesador 600 puede implementarse como una combinación de un DSP y un microprocesador, o como dos microprocesadores conjuntamente con un núcleo DSP, etc.

De este modo, se han mostrado y descrito las realizaciones preferidas de la presente invención. Sin embargo, sería evidente para un experto en la técnica que pueden realizarse numerosas alteraciones de las realizaciones dadas a conocer en el presente documento sin apartarse del alcance de la invención. Por lo tanto, la presente invención no va a limitarse excepto según las siguientes reivindicaciones.

Claims

1. Un procesador adaptado para ejecutar un conjunto de instrucciones almacenadas en un medio de almacenamiento, estando las mencionadas instrucciones adaptadas para realizar un procedimiento de acuerdo con la reivindicación 6.

2. El procesador de la reivindicación 1 en el que el valor de retardo de tono cuantificado se obtiene a partir de un valor \deltaL_{m} en base a la fórmula:

14

en la que los valores L_{m1}, L_{m2}, ..., L_{mN} son los retardos de tono para las tramas m_{1}, m_{2}, ..., m_{N}, respectivamente, y los valores \eta_{m1}, \eta_{m2, ...,} \eta_{mN} son los pesos correspondientes a las tramas m_{1}, m_{2}, ..., m_{N}, respectivamente.

3. El procesador de la reivindicación 1, en el que las componentes del vector de error objetivo cuantificado de amplitud se basan en un vector de error objetivo de componentes de amplitud (\deltaA_{m}) que se describe por medio de la fórmula:

15

en la que los valores A_{m1}, A_{m2}, ..., A_{mN} son un subconjunto del vector de amplitud para las tramas m_{1}, m_{2}, ..., m_{N}, respectivamente, y los valores \alpha^{T}_{m}, \alpha^{T}_{m_{1}},..., \alpha^{T}_{m_{N}} son los traspuestos de los correspondientes vectores ponderados.

4. El procesador de la reivindicación 1, en el que los valores de fase cuantificados se basan en una fórmula:

16

en la que \varphi'_{m-1} representa las fases de un prototipo extraído.

5. El procesador de la reivindicación 1, en el que el vector de error objetivo cuantificado de las componentes de información espectral se basa en un vector de error objetivo de componentes de información espectral de línea (T_{M}^{n}) que se describe por medio de la fórmula:

17

en la que L_{M}^{n} se refiere a un vector de información espectral de línea de n dimensiones para la trama M, los valores 18 son contribuciones de los parámetros de información espectral de línea de un número de tramas, P, inmediatamente antes de la trama M, y los valores 19 son los pesos respectivos de forma que

20

6. Un procedimiento para formar un conjunto de parámetros de trama de habla cuantificados, que comprende:

la cuantificación de manera predictiva de un valor de retardo de tono;

la cuantificación de un vector de error objetivo de componentes de amplitud;

la cuantificación de manera predictiva de valores de fase; y

la cuantificación de un vector de error objetivo de los componentes de información espectral de línea, en la que el valor de retardo de tono, las componentes de amplitud, los valores de fase y las componentes de información espectral lineal han sido extraídas de una trama de habla de voz.

7. El procedimiento de la reivindicación 6, en el que el valor de retardo de tono cuantificado se obtiene a partir del valor \deltaL_{m}, en base a la fórmula:

21

en la que los valores L_{m1}, L_{m2}, ..., L_{mN} son los retardos de tono para las tramas m_{1}, m_{2}, ..., m_{N}, respectivamente, y los valores \eta_{m1}, \eta_{m2},..., \eta_{mN}, son los pesos correspondientes a las tramas m_{1}, m_{2}, ..., m_{N}, respectivamente.

8. El procedimiento de la reivindicación 6 en el que el vector de error objetivo cuantificado de las componentes de amplitud se basa en un vector de error objetivo de componentes de amplitud (\deltaA_{m}) que se describe por medio de una fórmula:

22

en la que los valores A_{m1}, A_{m2},..., A_{mN} son un subconjunto del vector de amplitud para las tramas m_{1}, m_{2}, ..., m_{N}, respectivamente, y los valores 23 son los traspuestos de los correspondientes vectores de peso.

9. El procedimiento de la reivindicación 6 en el que los valores de fase cuantificados se basan en una fórmula:

24

En la que \varphi'_{m-1} representa las fases de un prototipo extraído.

10. El procedimiento de la reivindicación 6 en el que el vector de error objetivo cuantificado de los componentes de información espectral se basa en un vector de error objetivo de los componentes de información espectral (T_{M}^{n}) que se describe por medio de la fórmula:

25

en la que L_{M}^{n}_{ }se refiere a un vector de información espectral de línea de n dimensiones para la trama M, los valores

26

son contribuciones de los parámetros de información espectral de un número de tramas, P, inmediatamente anteriores a la trama M y los valores

27

son los respectivos pesos tales como,

28

11. El procedimiento de la reivindicación 6, en el que el valor de retardo de tono, las componentes de amplitud, los valores de fase y las componentes de información espectral de línea han sido extraídos de una trama de habla de voz, que comprende además la extracción del valor de retardo de tono, las componentes de amplitud, los valores de fase y las componentes de información espectral de línea de una pluralidad de tramas de habla de voz.

12. El procedimiento de la reivindicación 6, en el que el valor de retardo de tono, las componentes de amplitud, los valores de fase y las componentes de información espectrales de línea han sido extraídas de una trama de habla de voz, comprendiendo de manera adicional la transmisión del conjunto de parámetros de trama de voz cuantificados a través de un canal de comunicaciones sin hilos.

13. Un aparato que comprende:

un medio para cuantificar de manera predictiva un valor de retardo de tono;

un medio para cuantificar un vector error objetivo de componentes de amplitud;

un medio para predecir valores de fase cuantificados;

un medio para cuantificar un vector de error objetivo de componentes de información espectral lineales, en el que el valor de retardo de tono, las componentes de amplitud, los valores de fase y las componentes de información espectral de línea han sido extraídas de una trama de habla de voz.

14. El aparato de la reivindicación 13 que comprende un medio para transmitir un paquete de los vectores de error cuantificados a través de un canal de comunicaciones sin hilos.

15. El aparato de la reivindicación 13, en el que el valor del retardo de tono cuantificado se obtiene a partir del valor \deltaL_{m}, en base a la fórmula:

\vskip1.000000\baselineskip

29

\vskip1.000000\baselineskip

en la que los valores L_{m1}, L_{m2}, ..., L_{mN} son los retardos de tono para las tramas m_{1}, m_{2}, ..., m_{N}, respectivamente y los valores \eta_{m1}, \eta_{m2}, ..., \eta_{mN}, son los pesos correspondientes a las tramas m_{1}, m_{2}, ..., m_{N}, respectivamente.

16. El aparato de la reivindicación 13 en el que el vector de error objetivo cuantificado de las componentes de amplitud se basa en un vector de error objetivo de las componentes de amplitud (\deltaA_{m}) que se describe por medio de la fórmula:

\vskip1.000000\baselineskip

30

\vskip1.000000\baselineskip

en la que los valores A_{m1}, A_{m2}, ..., A_{mN}, son un subconjunto del vector de amplitud para las tramas m_{1}, m_{2}, ..., m_{N}, respectivamente, y los valores

31

son las traspuestas de los correspondientes vectores de ponderación.

17. El aparato de la reivindicación 13, en el que los valores de fase cuantificados se basan en una fórmula:

32

en la que \varphi'_{m-1} representa las fases de un prototipo extraído.

18. El aparato de la reivindicación 13, en el que el vector de error objetivo cuantificado de las componentes de información espectrales se basan en un vector de error objetivo de componentes de información espectrales (T_{M}^{n}) que se describe por medio de la fórmula:

33

en la que L_{M}^{n} se refiere a un vector de información espectral de línea de n dimensiones para la trama M, los valores 34 son contribuciones de los parámetros de información espectral de línea de un número de tramas, P, inmediatamente anterior a la trama M, y los valores

35

son los respectivos pesos tal como 36

19. El aparato de la reivindicación 13 que comprende:

un medio para extraer el valor de retardo de tono, las componentes de amplitud, los valores de fase y las componentes de información espectral de línea de una pluralidad de tramas de habla de voz.

20. El procesador de la reivindicación 1 en el que el procesador está adaptado de manera adicional para ejecutar un conjunto de instrucciones almacenadas en un medio de almacenamiento que está adaptado para extraer un valor de retardo de tono, las componentes de amplitud, los valores de fase y las componentes de información espectral de línea de una pluralidad de tramas de habla de voz.

21. El procesador de la reivindicación 1, en el que el procesador es además operativo para ejecutar un conjunto de instrucciones almacenadas en un medio de almacenamiento que son adaptadas para transmitir el conjunto de parámetros de trama de voz cuantificado a través de un canal de comunicaciones sin inalámbrico.

22. Un medio legible por medio de un ordenador que comprende instrucciones que al producirse la ejecución en un procesador, provocan que el procesador realice el procedimiento de las reivindicaciones 6 a la 12.