ES2265958T3

ES2265958T3 - Discretizacion de magnitud espectral para un codificador de voz.

Info

Publication number: ES2265958T3
Application number: ES00950430T
Authority: ES
Inventors: Eddie Lun Tik Choy; Sharath Manjunath
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1999-07-19
Filing date: 2000-07-18
Publication date: 2007-03-01
Anticipated expiration: 2020-07-18
Also published as: WO2001006493A1; CY1106119T1; DE60027573D1; EP1204969B1; JP2003505724A; KR20020013965A; CN1158647C; AU6353600A; BRPI0012542B1; HK1047817A1; CN1375096A; EP1204969A1; KR100898323B1; ATE324653T1; KR20070087222A; US6324505B1; BR0012542A; JP4659314B2; KR100898324B1; DE60027573T2

Abstract

Un método de discretizar información espectral para un codificador de voz, el método comprende: extraer un vector de información espectral de dimensión variable de un marco, teniendo el vector un valor vectorial de energía; normalizar (1301) el vector de información espectral para generar un vector normalizado de información espectral, dicho normalizador (1301) comprende: normalizar separadamente el vector de información espectral en subbandas primera y segunda para determinar un componente de la información espectral para cada uno de las subbandas; y determinar un factor de ganancia para cada una de las subbandas; y multiplicar cada una de las componentes de la información espectral por sus factores respectivos de ganancia; discretizar vectorial diferencialmente (1302) los factores de ganancia; tomar no uniformemente muestras decrecientes (1303) del vector normalizado de información espectral para generar un vector de la dimensión fija que tiene una pluralidad de elementos asociados con una pluralidad respectiva de bandas no uniformes de frecuencia; separar en el vector de dimensión fija en un subvector para cada una de las subbandas; y discretizar diferencialmente (1304, 1305) la pluralidad de subvectores.

Description

Discretización de magnitud espectral para un codificador de voz.

Antecedentes de la invención I. Campo de la invención

La invención presente pertenece en general al campo del procesamiento de voz, y más específicamente a la discretización de parámetros en codificadores de voz.

II. Antecedentes

La transmisión de voz mediante técnicas digitales se ha generalizado, particularmente en largas distancias y en aplicaciones radiodifusoras de teléfono digital. Esto, a su vez, ha creado interés en determinar la cantidad mínima de información que puede ser enviada por un canal mientras se mantiene la calidad percibida en la voz reconstruida. Si la voz es transmitida simplemente tomando muestras y digitalizando, entonces una tasa de datos del orden de los sesenta y cuatro kilo bits por segundo (kbps, por sus siglas en inglés) es requerida para lograr la calidad de voz del teléfono analógico convencional. Sin embargo, a través del uso de análisis de voz, seguido por la codificación apropiada, la transmisión, y la resíntesis en el aparato receptor, puede ser lograda una reducción significativa en la tasa de datos.

Los dispositivos para codificar voz encuentran uso en muchos campos de las telecomunicaciones. Un campo típico son las comunicaciones inalámbricas. El campo de las comunicaciones inalámbricas tiene muchas aplicaciones incluyendo, por ejemplo, los teléfonos inalámbricos, localización, ciclos locales inalámbricos, telefonía inalámbrica como los sistemas de telefonía móvil y PCS, telefonía móvil mediante protocolo de Internet (IP por sus siglas en inglés), y los sistemas de comunicación de satélite. Una aplicación particularmente importante es la telefonía inalámbrica para suscriptores de móviles.

Varias interfaces tipo sobre el aire han sido desarrolladas para sistemas de comunicación inalámbrica incluyendo, por ejemplo, acceso múltiple por división de frecuencias (FDMA por sus siglas en inglés), acceso múltiple por división de tiempo (TDMA por sus siglas en inglés), y el acceso múltiple por división de código (CDMA por sus siglas en inglés). En conexión con eso, diversas estándares domésticas e internacionales han sido establecidas incluyendo, por ejemplo, Servicio Telefónico Móvil Avanzado (AMPS), Sistema Global para Comunicaciones Móviles (GSM por sus siglas en inglés), y Estándar Interim 95 (IS-95). Un sistema de comunicación de telefonía inalámbrica típico es un sistema de acceso múltiple por división de códigos (CDMA por sus siglas en inglés). El estándar IS-95 y sus derivados, IS-95A, ANSI J-STD-008, IS-95B, los estándares propuestos de tercera generación IS-95C e IS-2000, etc. (referenciados colectivamente en lo adelante como IS-95), son promulgados por la Asociación Internacional de Estándares (TLA por sus siglas en inglés) y otras bien conocidas organizaciones de estándares para especificar el uso de una interfaz CDMA sobre el aire para los sistemas de comunicación de telefonía móvil o telefonía PCS. Sistemas de comunicación inalámbricos típicos configurados sustancialmente de acuerdo al uso del estándar IS-95 están descritos en las Patentes de USA Nº. 5.103.459 y 4.901.307, los cuales están asignados al apoderado de la presente invención.

Dispositivos que emplean técnicas para codificar voz de la planilla extrayendo parámetros que guardan relación con un modelo de generación de voz humana son llamados codificadores de voz. Un codificador de voz divide la señal de voz entrante en bloques de tiempo, o marcos de análisis. Los codificadores de voz típicamente comprenden un codificador y un decodificador. El codificador analiza el marco entrante de voz para extraer ciertos parámetros relevantes, y luego discretiza los parámetros en una representación binaria, esto es, en un conjunto de bits o un paquete de datos binarios. Los paquetes de datos son transmitidos sobre el canal de comunicación a un receptor y un decodificador. El decodificador procesa los paquetes de datos, los desdiscretiza para producir los parámetros, y resintetiza los marcos de voz usando los parámetros no discretizados.

La función del codificador de voz es comprimir la señal de voz digitalizada en una señal de tasa baja de bits quitando todas las redundancias naturales inherentes a la voz. La compresión digital es lograda representando el marco de voz de entrada con un conjunto de parámetros y utilizando la discretización para representar los parámetros con un conjunto de bits. Si el marco de voz de entrada tiene un número de bits N_{i} y el paquete de datos producido por el codificador de voz tiene un número de bits N_{O}, el factor de compresión que es logrado por el codificador de voz es C_{r} = N_{i}/N_{O}. El reto es mantener una alta calidad de voz en la voz decodificada mientras se logra el factor de compresión deseado. El comportamiento de un codificador de voz depende de (1) cuán bien se comporta el modelo de voz, o la combinación del proceso de análisis y el de síntesis descritos arriba, y (2) cuán bien es realizado el proceso de discretización de parámetros con la tasa de bits objetivo N_{O} bits por marco. La meta del modelo de voz es entonces captar la esencia de la señal de voz, o la calidad de voz objetivo, con un conjunto pequeño de parámetros para cada marco.

Quizás lo más importante en el diseño de un codificador de voz es la búsqueda de un buen conjunto de parámetros (incluyendo vectores) para describir la señal de voz. Un buen conjunto de parámetros requiere un sistema con ancho de banda bajo para la reconstrucción de una señal de voz perceptiblemente precisa. El tono, el poder de la señal, la cubierta espectral (o formants), la amplitud del espectro, y los espectros de fases son ejemplos de parámetros de codificación de voz.

Los codificadores de voz pueden ser implementados como codificadores de dominio de tiempo, los cuales intentan captar la onda de voz de dominio de tiempo empleando procesamiento de alta resolución de tiempo para codificar segmentos pequeños de voz (típicamente submarcos de 5 milisegundos (ms)) a la vez. Para cada submarco, una representación de alta precisión de un espacio del cifrado por bloques es encontrada por medio de varios algoritmos de búsqueda conocidos en la técnica. Alternativamente, los codificadores de voz pueden ser implementados como codificadores de dominio de frecuencia, los que intentan capturar el espectro de voz de corto plazo del marco de voz de entrada con un conjunto de parámetros (análisis) y utilizar un proceso correspondiente de síntesis para recrear la onda de voz a partir de los parámetros espectrales. El discretizador de parámetros conserva los parámetros representándolos con representaciones almacenadas de vectores de codificación de acuerdo a técnicas de discretización conocidas descritas en A. Gersho y R.M. Gray, VectorDiscretización and Signal Compression (1992).

Un codificador de voz de dominio de tiempo muy conocido es el codificador Predictivo Linear de Código Excitado (CELP por sus siglas en inglés) descrito en L.B. Rabiner y R.W. Schafer, Digital Processing of Speech Signals 396-453 (1978).

En un codificador CELP, las correlaciones de corto plazo, o redundancias, en la señal de voz son eliminadas mediante un análisis de lineal predicción (LP por sus siglas en inglés), el cual encuentra los coeficientes de un filtro de formant de corto plazo. Aplicar el filtro de predicción de corto plazo al marco de voz entrante genera una señal de residuo LP, la cual es luego modelada y discretizada con parámetros de filtro de predicción de largo plazo y un subsiguiente cifrado por bloques estocástico. Así, la codificación CELP divide la tarea de codificar la onda de voz de dominio de tiempo en las tareas separadas de codificar los coeficientes del filtro LP de corto plazo y codificar el residuo LP. La codificación por dominios de tiempo puede ser realizada a una tasa fija (esto es, usando el mismo número de bits, N_{O}, para cada marco) o en una tasa variable (en las cuales las tasas de bits diferentes se utilizan para diferentes tipos de contenidos de marco). Los codificadores de tasa variable intentan usar sólo la cantidad de bits necesaria para codificar los parámetros de codificador a un nivel adecuado para obtener la calidad objetivo. Un codificador típico de tasa variable CELP es descrito en la Patente de USA No. 5.414.796, el cual es asignado al apoderado de la invención presente.

Los codificadores de dominio de tiempo como el codificador CELP típicamente dependen de un número alto de bits, N_{O}, por marco para conservar la exactitud de la onda de voz de dominio de tiempo. Tales codificadores típicamente dan una calidad de voz excelente dado el número de bits, N_{O}, por marco relativamente grande (por ejemplo, 8 kilo bits por segundo o superior). Sin embargo, a tasas de bits bajas (4 kilo bits por segundo e inferior), los codificadores del dominio de tiempo no pueden retener alta calidad y comportamiento robusto debido al número limitado de bits disponibles. A tasas de bits bajas, el espacio limitado del cifrado por bloques recorta la capacidad de pareo de la onda de los codificadores convencionales de dominio de tiempo, los cuales son desarrollados de manera exitosa en aplicaciones comerciales de tasa más alta. Por lo tanto, a pesar de mejoras con el paso del tiempo, muchos sistemas codificadores CELP que operan a tasas de bits bajas padecen perceptiblemente una distorsión significativa típicamente caracterizada como ruido.

Existe actualmente una oleada de interés de investigación y fuerte necesidad comercial para desarrollar un codificador de voz de alta calidad funcionando a tasas en bits medias (esto es, en el rango de 2.4 a 4 kilo bits por segundo y menor). Las áreas de aplicación incluyen telefonía inalámbrica, comunicaciones por satélite, telefonía por Internet, diversas aplicaciones multimedia y de flujo de voz, correo de voz, y otros sistemas de almacenamiento de voz. Las fuerzas motrices son la necesidad de capacidad alta y la demanda de comportamiento robusto bajo situaciones de pérdida de paquete. Varios esfuerzos recientes de estandarización de codificación de voz son otra fuerza motriz directiva que propulsa la investigación y el desarrollo de algoritmos codificadores de voz de tasa baja. Un codificador de voz de tasa baja crea más canales, o usuarios, por ancho de banda de aplicación admisible, y un codificador de voz de tasa baja acoplado con una capa adicional de codificación canales adecuado puede lograr el total de bit presupuesto de las especificaciones del codificador y puede permitir un comportamiento robusto bajo condiciones de error del canal.

Una técnica efectiva para codificar voz eficazmente en tasas en bits bajo es codificación multimodo. Una técnica multimodo típica de codificación es descrita en la Patente de USA No. 6.691.084, asignada al apoderado de la invención presente. Los codificadores multimodo convencionales aplican modos diferentes, o algoritmos de codificación-decodificación, a tipos diferentes de marcos de voz de entrada. Cada modo, o procesamiento de codificación-decodificación, está hecho a la medida para representar de manera óptima un cierto tipo de segmento de voz, como, por ejemplo, de voz hablada, de voz no hablada, voz de transición (por ejemplo, entre la hablada y la no hablada), y el ruido de fondo (no voz) en la manera más eficiente. Un mecanismo externo de decisión de modo de ciclo abierto examina el marco de voz de entrada y toma una decisión relativa a cuál modo aplicar al marco. La decisión de modo de ciclo abierto es típicamente realizada extrayendo un número de parámetros del marco de entrada, evaluando los parámetros en lo que se refiere a ciertas características temporales y espectrales, y basando una decisión de modo según la evaluación.

Los sistemas de codificación que operan a tasas del orden de 2.4 kilo bits por segundo son generalmente de naturaleza paramétrica. Eso es, tales sistemas de codificación operan transmitiendo parámetros que describen el período de tono y la cubierta espectral (o formants) de la señal de voz a intervalos regulares. Ilustrativo de estos también llamados codificadores paramétricos es el sistema vocoder LP.

Los vocoderes LP modelan una señal de voz hablada con solo un pulso por periodo de tono. Esta técnica básica puede ser aumentada para incluir información de transmisión acerca de la cubierta espectral, entre otras cosas. Aunque los vocoderes LP generalmente proveen un rendimiento razonable, pueden introducir una distorsión perceptivamente significativa, típicamente caracterizadas como un zumbido.

En años recientes, han emergido codificadores que son híbridos de ambos codificadores de forma de onda y codificadores paramétricos. Ilustrativo de estos también llamados codificadores híbridos es el sistema de codificación de voz por interpolación de forma de onda prototipo (PWI por sus siglas en inglés). El sistema de codificación PWI también puede ser conocido como un codificador de voz de período de tono prototipo (PPP por sus siglas en inglés). Un sistema de codificación PWI provee un método eficiente para codificar voz hablada. El concepto básico de PWI es extraer un ciclo de tono representativo (la forma de onda prototipo) a intervalos fijos, para transmitir su descripción, y reconstruir la señal de voz interpolando entre la forma de onda prototipo. El método PWI puede operar tanto en la señal de residuo LP o en la señal de voz. Un codificador de voz PWI típico, o PPP, es descrito en la Patente de USA No. 6.456.964, asignado al apoderado de la presente invención. Otros codificadores de voz PWI, o PPP, son descritos en la Patente de USA No. 5.884.253, W. Bastiaan Kleijn y Wolfgang Granzow Methods for Waveform Interpolation in Speech Coding, in 1 Digital Signal Processing 215-230 (1991) y EP-A-0 666 557.

Es bien sabido que la información espectral incrustada en la voz es de gran importancia de percepción, particularmente en voz hablada. Muchos codificadores de voz de avanzada tecnología como el codificador de interpolación de forma de onda prototipo (PWI por sus siglas en inglés) o el codificador de período de tono prototipo (PPP por sus siglas en inglés), el codificador de excitación multibanda (MBE por sus siglas en inglés), y el codificador de transformación sinusoidal (STC por sus siglas en inglés) utilizan la magnitud espectral como un parámetro explícito de codificación. Sin embargo, la codificación eficiente de tal información espectral ha sido una tarea desafiante. Esto, es principalmente porque el vector espectral, comúnmente representado por un conjunto de amplitudes armónicas, tiene una dimensión proporcional al periodo estimado de tono. Tanto como el tono varíe de marco a marco, la dimensión del vector de amplitud varía también. Por lo tanto, un método VQ que manipula vectores de entrada de dimensión variable es requerido para codificar un vector espectral. No obstante, un método VQ efectivo de dimensión variable (con menos consumo de bits y memoria) no existe aún.

Como es conocido para esos expertos en la técnica, la resolución de frecuencia de los oídos humanos es una función no lineal de frecuencia (por ejemplo, escala Mel y escala Bark) y los oídos humanos son menos sensitivos a los detalles espectrales a frecuencias superiores que a frecuencias inferiores. Es deseable que tal conocimiento de la percepción humana sea completamente explotado al diseñar un discretizador de amplitud eficiente.

En codificadores de voz convencionales de tasa bajas de bits, los parámetros de amplitud y de fase pueden ser discretizados y transmitidos individualmente para cada prototipo de cada marco. Como alternativa, los parámetros pueden ser directamente discretizados vectorialmente para reducir el número de bits necesarios para representar los parámetros. Sin embargo, es deseable para luego reducir el número requerido de bits para discretizar los parámetros del marco. Sería ventajoso, por consiguiente, proveer un esquema eficiente de discretización para representar perceptivamente los espectros de amplitud de una señal de voz o una señal de residuo de predicción lineal. Por lo tanto, hay necesidad de un codificador de voz que discretice eficazmente espectros de amplitud con un flujo de bits de tasa baja para realzar la capacidad del canal.

Resumen de la invención

La invención presente está dirigida a un codificador de voz que discretice eficazmente los espectros de amplitud con un flujo de bits de tasa baja para realzar la capacidad del canal. Consecuentemente, en un aspecto de la invención, un método para discretizar información espectral para un codificador de voz incluye ventajosamente los pasos de extraer un vector de información espectral de dimensión variable de un marco, teniendo el vector un valor vectorial de energía; normalizar el vector de información espectral para generar un vector normalizado de información espectral, dicho normalizar comprender separadamente normalizar el vector en primera y segunda subbandas para determinar un componente de la información espectral para cada una de las subbandas, determinando un factor de ganancia para cada una de las subbandas y multiplicando cada componente de la información espectral por sus respectivos factores de ganancia; discretizar vectorialmente diferencialmente los factores de ganancia; tomar muestras decrecientes no uniformemente del vector normalizado de información espectral para generar un vector de dimensión fija teniendo una pluralidad de elementos asociados a una respectiva pluralidad de bandas de frecuencia no uniformes; separar el vector de dimensión fija en subvectores para cada una de las subbandas; y discretizar diferencialmente la pluralidad de subvectores.

En otro aspecto de la invención, un codificador de voz, incluye ventajosamente medios para extraer un vector de información espectral de dimensión variable de un marco, teniendo el vector un valor vectorial de energía; medios para normalizar el vector de información espectral para generar un vector normalizado de información espectral, dichos medios para normalizar comprenden medios para normalizar separadamente el vector de la primera y de la segunda subbandas para determinar un componente de la información para los medios para discretizar vectorialmente diferencialmente la pluralidad de factores de ganancia; medios para tomar muestras decreciente no uniformemente de la pluralidad de factores de ganancia normalizados para generar un vector de dimensión fija que tiene una pluralidad de elementos asociando con una pluralidad respectiva de bandas de frecuencia no uniformes; medios para dividir el vector de dimensión fija en una pluralidad de subvectores; y medios para discretizar diferencialmente la pluralidad de subvectores.

Preferiblemente, los medios para dividir son operables para dividir el vector de dimensión fija en un subvector de banda alta y un subvector de banda baja; y siendo los medios para discretizar diferencialmente configurados para discretizar diferencialmente el subvector de banda alta y el subvector de banda baja.

Breve descripción de las figuras

La figura 1 es un diagrama de bloques de un sistema telefónico inalámbrico.

La figura 2 es un diagrama de bloques de un canal de comunicación terminado en cada extremo por codificadores de voz.

La figura 3 es un diagrama de bloques de un codificador.

La figura 4 es un diagrama de bloques de un decodificador.

La figura 5 es un diagrama de flujo que ilustra un proceso de decisión de codificación de voz.

La figura 6A es una gráfica de la amplitud de la señal de voz versus tiempo, y la figura 6B es una gráfica de amplitud de residuo de predicción lineal (LP por sus siglas en inglés) versus tiempo.

La figura 7 es un diagrama de bloques de un codificador de voz teniendo un espectro de amplitud como un parámetro de codificación.

La figura 8 es un diagrama de bloques de un módulo de discretización de amplitud que puede ser usado en el codificador de voz de la figura 7.

La figura 9 es un diagrama de bloques de un módulo de desdiscretización de amplitud que puede ser usado en el codificador de voz de la figura 7.

La figura 10 ilustra una partición de banda no uniforme que puede ser realizada por un tomador de muestras espectrales decrecientes en el módulo de discretización de amplitud de la figura 8, o por un tomador de muestras espectrales crecientes en el tomador de muestras crecientes de amplitud de la figura 9.

La figura 11A es una gráfica de espectro de amplitud de señal residual versus frecuencia donde el eje de la frecuencia está subdividido según la partición de la figura 9., la figura 11B es una gráfica del espectro normalizado en energía de la figura 11A, y la figura 11C es una gráfica del espectro del que se tomó muestras decrecientes no uniformemente y del espectro del que se tomó muestras crecientes linealmente de la figura 11B.

Descripción detallada de las realizaciones preferidas

Las realizaciones típicas descritas aquí radican en un sistema de comunicación de telefonía inalámbrica configurado para utilizar una interfaz sobre el aire CDMA. No obstante, sería comprendido por esos expertos en la técnica que las características de un método de submuestreo y de la realización del aparato de la invención actual pueden residir en cualquiera de los sistemas de comunicación que emplean una gran variedad de tecnologías conocidas por esos expertos en la técnica.

Como es ilustrado en la figura 1, un sistema telefónico inalámbrico CDMA generalmente incluye una pluralidad de unidades móviles suscritas 10, una pluralidad de estaciones base 12, controladores de estación base (BSCs por sus siglas en inglés) 14, y un centro conmutativo móvil (MSC por sus siglas en inglés) 16. El MSC 16 es configurado para interconectarse con una red telefónica conmutativa pública convencional (PSTN por sus siglas en inglés) 18. El MSC 16 es también configurado para interconectar con los BSCs 14. Los BSCs 14 están acoplados a las estaciones base 12 a través de líneas de transmisión. Las líneas de transmisión pueden ser configuradas para soportar cualquiera de varias interfaces conocidas incluyendo, por ejemplo, E1/T1, ATM, IP, PPP, Frame Relay, HDSL, ADSL, o xDSL. Es entendido que pueden ser más de dos BSCs 14 en el sistema. Cada estación base 12 ventajosamente incluye al menos un sector (no mostrado), cada sector comprende una antena omnidireccional o una antena apuntada en una dirección específica fuera radialmente de la estación base 12. Alternativamente, cada sector puede comprender dos antenas para una recepción diversa. Cada estación base 12 ventajosamente puede estar diseñada para dar soporte a una pluralidad de asignaciones de frecuencias. La intersección de un sector y una asignación de frecuencias pueden ser referidas como un canal CDMA. Las estaciones base 12 también pueden ser conocidas como subsistemas transmisores-receptores de estaciones base (BTSs) 12. Alternativamente, "estación base" puede ser usada en la industria para referirse colectivamente a un BSC 14 y a uno o más BTSs 12. Los BTSs 12 también pueden ser denotados como "sitios celulares" 12. Alternativamente, los sectores individuales de un BTS 12 dado pueden ser referidos como sitios celulares. Las unidades móviles suscritas 10 son típicamente teléfonos móviles o de PCS 10. El sistema es ventajosamente configurado para el uso en conformidad con el estándar IS-95.

Durante la operación típica del sistema telefónico móvil, las estaciones base 12 reciben conjuntos de señales enlace inversas de conjuntos de unidades móviles 10. Las unidades móviles 10 conducen llamadas telefónicas u otras comunicaciones. Cada señal enlace inversa recibida por una estación base 12 dada es procesada dentro de esa estación base 12. Los datos resultantes son reenviados a los BSCs 14. Los BSCs 14 proveen ubicación de la fuente de llamada y funcionalidad de administración de movilidad incluyendo la orquestación de pases suaves entre estaciones base 12. Los BSCs 14 también enrutan los datos recibidos del MSC 16, que provee servicios adicionales de ruteo para la interfaz del PSTN 18. De modo semejante, el PSTN 18 interconecta con el MSC 16, y el MSC 16 interconecta con los BSCs 14, el cual en cambio controla estaciones base 12 para transmitir conjuntos de señales de enlace reenviadas a conjuntos de unidades móviles 10.

En la figura 2 un primer codificador 100 recibe muestras de voz digitalizadas s(n) y codifican las muestras s(n) para la transmisión en un medio de transmisión 102, o en un canal de comunicación 102, a un primer decodificador 104. El decodificador 104 decodifica las muestras de voz codificadas y sintetiza una señal de voz de salida s_{SYNTH}(n). Para la transmisión en la dirección opuesta, un segundo codificador 106 codifica muestras de voz digitalizada s(n), las cuales son transmitidas en un canal de comunicación 108. Un segundo decodificador 110 recibe y decodifica las muestras de voz codificadas, generando una señal sintetizada de voz de salida s_{SYNTH}(n).

Las muestras de voz s(n) representan señales de voz que han sido digitalizadas y discretizadas de acuerdo a cualquiera de varios métodos conocidos en la técnica incluyendo, por ejemplo, modulación de código por pulso (PCM por sus siglas en inglés), la \mu-ley de compresión-expansión, o A-ley. Como conocidas en la técnica, las muestras de voz s(n) son organizadas en marcos de datos de entrada en donde cada marco comprende un número predeterminado de muestras de voz digitalizada s(n). En una realización típica, una tasa de muestreo de 8 Khz. es empleada, con marcos cada 20 ms para un total de 160 muestras. En las realizaciones descritas abajo, la tasa de transmisión de datos ventajosamente puede ser variada en una base marco a marco de 13.2 kilo bits por segundo (tasa máxima) a 6.2 kilo bits por segundo (tasa media) a 2.6 kilo bits por segundo (un cuarto de tasa) a 1 kilo bits por segundo (un octavo de tasa). Variar la tasa de transmisión de datos es ventajoso porque más bajas tasa de bit pueden ser selectivamente utilizadas para marcos que contienen relativamente menos información de voz. Como entendido por esos expertos en la técnica, otras tasas de muestreo, tamaños del marco, y las tasas de transmisión de datos pueden ser usadas.

El primer codificador 100 y el segundo decodificador 110 conjuntamente comprenden un primer codificador de voz, o un codificador-decodificador de voz. El codificador de voz podría ser usado en cualquier dispositivo de comunicación para transmitir señales de voz, incluyendo, por ejemplo, las unidades suscritas, BTSs, o BSCs descritos arriba con referencia a la figura 1. De modo semejante, el segundo codificador 106 y el primer decodificador 104 conjuntamente comprenden un segundo codificador de voz. Es entendido por esos expertos en la técnica que los codificadores de voz pueden ser implementados con un procesador de señales digitales (DSP por sus siglas en inglés), un circuito integrado para aplicaciones específicas (ASIC por sus siglas en inglés), lógica de compuerta discreta, soporte lógico inalterable, o cualquier módulo programable convencional del software y un microprocesador. El módulo del software podría radicar en memoria RAM, en memoria de destello, registros, o cualquier otra forma de medio de almacenamiento escribible conocido en la técnica. Alternativamente, cualquier procesador convencional, controlador, o máquina de estado podría ser substituido por el microprocesador. Los ASICs típicos diseñados específicamente para la codificación de voz están descritos en las Patentes USA Nos. 5.727.123 y 5.784.532 ambas asignadas al apoderado de la invención presente.

En la figura 3 un codificador 200 que puede ser usados en un codificador de voz incluye un módulo de decisión de modo 202, un módulo de estimación de tono 204, un módulo de análisis LP 206, un filtro de análisis LP 208, un módulo de discretización LP 210, y un módulo de discretización de residuo 212. Los marcos de voz de entrada s(n) les son provistos al módulo de decisión de modo 202, al módulo de estimación de tono 204, al módulo de análisis LP 206, y al filtro de análisis LP 208. El módulo de decisión de modo 202 produce un índice de modo I_{M} y un modo M de basado en la periodicidad, energía, relación señal/ruido (SNR por sus siglas en inglés), o tasa de cruce cero, entre otras características, de cada marco de voz de entrada s(n). Varios métodos para clasificar marcos de voz según la periodicidad son descritos en la Patente USA No. 5.911.128, la cual está asignada al apoderado de la invención presente. Tales métodos son también incorporados en los Estándares Interinos de la Asociación de la Industria de las Telecomunicaciones TIA/EIA IS-127 y TIA/EIA IS-733. Un esquema típico de decisión de modo está también descrito en dicha Patente USA No. 6.691.084.

El módulo de estimación de tono 204 produce un índice de tono I_{P} y un valor de retraso P_{O} basado en cada marco de voz de entrada s(n). El módulo de análisis LP 206 realiza análisis predictivo lineal en cada marco de voz de entrada
s(n) para generar un parámetro LP a. El parámetro LP a le es provisto al módulo de discretización LP 210. El módulo de discretización LP 210 también recibe el modo M, por consiguiente realiza el proceso de discretización en una manera dependiente del modo. El módulo de discretización LP 210 produce un índice LP I_{LP} y un parámetro discretizado LP â. El filtro de análisis LP 208 recibe el parámetro LP discretizado â además del marco de voz de entrada s(n). El filtro de análisis LP 208 genera una señal de residuo LP R[n], lo cual representa el error entre los marcos de voz de entrada s(n) y la voz reconstruida basado en los parámetros discretizados estimados linealmente â. El residuo LP R[n], el modo M, y el parámetro LP discretizado â le son provistos al módulo de discretización de residuo 212. Basado en estos valores, el módulo de discretización de residuo 212 produce un índice de residuo I_{R} y una señal de residuo discretizada \hat{\mathit{R}}[n].

En la figura 4 un decodificador 300 que puede ser usado en un codificador de voz incluye un módulo de decodificación de parámetro LP 302, un módulo de decodificación de residuo 304, un módulo de decodificación de modo 306, y un filtro de síntesis LP 308. El módulo de decodificación de modo 306 recibe y decodifica un índice de modo I_{M}, generando de allí un modo M. El módulo de decodificación de parámetro LP 302 recibe el modo M y un índice LP I_{LP}. El módulo de decodificación de parámetro LP 302 decodifica los valores recibidos para producir un parámetro discretizado LP â. El módulo de decodificación de residuo 304 recibe un índice de residuo I_{R}, un índice de tono I_{P}, y el índice de modo I_{M}. El módulo de decodificación de residuo 304 decodifica los valores recibidos para generar una señal discretizada de residuo \hat{\mathit{R}}[n]. La señal discretizada del residuo \hat{\mathit{R}}[n] y el parámetro discretizado LP â le son provisto al filtro de síntesis LP 308, el cual sintetiza una señal decodificada de voz de salida \hat{\mathit{s}}[n] de allí.

La operación y la implementación de los varios módulos del codificador 200 de la figura 3 y del decodificador 300 de la figura 4 son conocidas en la técnica y descritos en la mencionada anteriormente Patente USA No. 5.414.796 y L.B. Rabiner y R.W. Schafer, Digital Processing of Speech Signals 396-453 (1978).

Como es ilustrado en el diagrama de flujo de la figura 5, un codificador de voz de acuerdo a una realización sigue un conjunto de pasos en el procesamiento de muestras de voz a ser transmitidas. En el paso 400 que el codificador de voz recibe muestras digitales de señales de voz en marcos sucesivos. Al recibir un marco dado, el codificador de voz procede al paso 402. En el paso 402 el codificador de voz detecta la energía del marco. La energía es una medida de la actividad de voz del marco. La detección de voz es realizada sumando los cuadrados de las amplitudes de las muestras digitalizadas de voz y comparando la energía resultante con un valor umbral. En una realización el valor umbral se adapta basado en el nivel cambiante de ruido de fondo. Un detector típico de actividad de voz de umbral variable como es descrito en la mencionada anteriormente Patente USA No. 5.414.796. Algunos sonidos de voz no hablada pueden ser muestras de energía sumamente baja que pueden ser codificadas equivocadamente como ruido de fondo. Para impedir que esto de ocurrir, la inclinación espectral de muestras de energía baja puede usarse para distinguir la voz no hablada del ruido de fondo, como es descrita en la mencionada anteriormente Patente USA No. 5.414.796.

Después de detectar la energía del marco, el codificador de voz procede al paso 404. En el paso 404 el codificador de voz determina si la energía del marco detectada es suficiente para clasificar el marco como que contiene información de voz. Si la energía del marco detectada es menor que un nivel umbral predefinido, entonces el codificador de voz procede al paso 406. En el paso 406 el codificador de voz codifica el marco como de ruido de fondo (esto es, no voz, o silencio). En una realización el marco de ruido de fondo es codificado a 1/8 de la tasa, o 1 kilo bits por segundo. Si en el paso 404 la energía del marco detectada alcanza o excede el nivel predefinido del umbral, el marco es clasificado como de voz y el codificador de voz procede al paso 408.

En el paso 408 que el codificador de voz determina si el marco es de voz no hablada, esto es, el codificador de voz examina la periodicidad del marco. Varios métodos conocidos de determinación de periodicidad incluyen, por ejemplo, el uso de cruces cero y el uso de funciones de autocorrelación normalizada (NACFs por sus siglas en inglés). En particular, el uso de cruces cero y NACFs para detectar periodicidad es descrito en las mencionadas anteriormente Patente USA No. 5.911.128 y Patente USA No. 6.691.084. Además, los métodos citados anteriormente usados para hacer la distinción de la voz hablada de la voz no hablada son incorporados en los Estándares Interinos de la Asociación de la Industria de las Telecomunicaciones TIA/EIA IS-127 y TIA/EIA IS-733. Si se determina que el marco es de voz no hablada en el paso 408, entonces el codificador de voz procede al paso 410. En el paso 410 el codificador de voz codifica el marco como voz no hablada. En una realización los marcos de voz no hablada están codificados a un cuarto de la tasa, o 2.6 kilo bits por segundo. Si en el paso 408 no se determina que el marco es de voz no hablada, entonces el codificador de voz procede al paso 412.

En el paso 412 el codificador de voz determina si el marco es de voz de transición, usando métodos de detección de periodicidad que son conocidos en la técnica, como son descrito en, por ejemplo, la mencionada anteriormente Patente USA No. 5.911.128. Si se determina que el marco es voz de transición, entonces el codificador de voz procede al paso 414. En el paso 414 el marco es codificado como de voz de transición (esto es, la transición de la voz no hablada a la voz hablada). En una realización el marco de voz de transición es codificado de acuerdo a un método de codificación de interpolación multipulso descrito en la Patente USA No. 6.260.017, asignada al apoderado de la invención presente. En otra realización el marco de voz de transición es codificado a tasa completa, o 13.2 kilo bits por segundo.

Si en el paso 412 el codificador de voz determina que el marco no es de voz de transición, el codificador de voz pasa al paso 416. En el paso 416 el codificador de voz codifica el marco como de voz de transición. En una realización los marcos de voz hablada pueden ser codificados a media tasa, o 6.2 kilo bits por segundo. Es posible también codificar los marcos de voz hablada a tasa completa, o 13.2 kilo bits por segundo (o tasa completa, 8 kilo bits por segundo, en un codificador 8 k CELP). Esos expertos en la técnica apreciarían, sin embargo, que codificar marco de voz a media tasa permite al codificador ahorrar ancho de banda valioso sacando provecho de la naturaleza de estado estable de los marcos hablados. Además, a pesar de la tasa usada para codificar la voz hablada, la voz hablada es ventajosamente codificada mediante el uso de la información de los marcos anteriores, y por lo tanto se dice que ha sido codificada de manera predictiva.

Esos expertos apreciarían que tanto la señal de voz como el residuo LP correspondiente pueden ser codificados siguiendo los pasos mostrados en la figura 5. Las características de onda del ruido, de la voz no hablada, de la voz de transición, y de la voz hablada pueden ser vistas como una función en el tiempo en la gráfica de la figura 6A. Las características de onda del ruido, del residuo no hablado, del residuo de transición, y del residuo hablado LP pueden ser visto como una función en el tiempo en la gráfica de la figura 6B.

\global\parskip0.900000\baselineskip

En una realización un codificador de voz incluye una sección de transmisión, o de codificación, y una sección de recepción, o de decodificación, como es ilustrado en la figura7. La sección de codificación incluye un módulo de separación hablada/no hablada 1101, un discretizador de tono/cubierta espectral 1102, un módulo de discretización no hablada 1103, un módulo de separación de amplitud y de fase 1104, un módulo de discretización de amplitud 1105, y un módulo de discretización de fase 1106. La sección de decodificación incluye un módulo de desdiscretización de amplitud 1107, un módulo de desdiscretización de fase 1108, un módulo de síntesis y de desdiscretización no hablada 1109, un módulo de síntesis de segmento hablado 1110, un módulo de síntesis de voz/residuo 1111, y un desdiscretizador de tono/cubierta espectral 1112. El codificador de voz puede ser implementado ventajosamente como parte de un DSP, y puede residir en, por ejemplo, una unidad suscripta o en una estación base en un PCS o sistema de telefonía móvil, o en una unidad suscripta o una puerta de enlace en un sistema satelital.

En el codificador de voz de la figura 7, una señal de voz o una señal de residuo LP es provista a la entrada del módulo de separación hablada/no hablada 1101, lo cual es ventajosamente un clasificador hablado/no hablado convencional. Tal clasificador es ventajoso dado que difiere substancialmente para la percepción humana la voz hablada y la voz no hablada. En particular, mucha de la información incrustada en la voz no hablada es perceptivamente irrelevante al oído humano. Como consecuencia, los espectros de amplitud de los segmentos hablado y no hablado deberían ser discretizados separadamente para lograr un máximo de eficiencia de codificación. Debería ser notado que mientras las realizaciones en este punto descritas son dirigidas a la discretización del espectro hablado de amplitud, las características de la invención presente también pueden ser aplicadas para discretizar voz no hablada.

El discretizador de tono/cubierta espectral 1102 calcula la información del tono y de la cubierta espectral de conformidad con las técnicas convencionales, como las técnicas descritas con referencia a elementos 204, 206, y 210 de la figura 3, y transmite la información al decodificador. La porción no hablada es codificada y descodificada de una manera convencional en el módulo de discretización no hablada 1103 y el módulo de desdiscretización no hablada 1109, respectivamente. Por otra parte, la porción hablada es primero enviada al módulo de extracción de amplitud y fase 1104 para la extracción de la amplitud y de la fase. Tal procedimiento de extracción puede estar logrado en un número de formas convencionales conocidas por esos expertos en la técnica. Por ejemplo, un método particular de extracción de amplitud y fase es la interpolación de forma de onda prototipo, como es descrita en la Patente de USA No. 5.884.253. En este método particular, la amplitud y la fase en cada marco son extraídas de una forma de onda prototipo teniendo una longitud de un periodo de tono. Otros métodos como esos usados en el codificador de excitación multibanda (MBE por sus siglas en inglés) y el codificador armónico de voz también pueden ser utilizados por el módulo de extracción de amplitud y fase 1104. El módulo de análisis del segmento hablado 1110 ventajosamente ejecuta las operaciones inversas del módulo de extracción de amplitud y fase 1104.

El módulo de discretización de fase 1106 y el módulo de desdiscretización de fase 1108 ventajosamente pueden ser implementados de una manera convencional. La siguiente descripción con referencia a las figuras de la 8 a la 10 vale para describir con más detalle el módulo de discretización de amplitud 1105 y el módulo de desdiscretización de amplitud 1107.

I. Normalización de Energía

Como se muestra en la figura 8, un módulo de discretización de amplitud de conformidad con una realización incluye un normalizador de energía de banda 1301, un discretizador diferencial de potencia 1302, un tomador de muestras espectrales decrecientes no uniforme 1303, un discretizador diferencial de amplitud de banda baja 1304, un discretizador diferencial de amplitud de banda alta 1305, un desdiscretizador diferencial de amplitud de banda baja 1306, un desdiscretizador diferencial de amplitud de banda alta 1307, un desdiscretizador diferencial de potencia 1308, y un módulo de clonación armónico 1309 (mostrado dos veces con el objeto de presentar mayor claridad en el dibujo). Cuatro elementos de retraso de la unidad son también incluidos en el módulo de discretización de amplitud. Como se muestra en la figura 9, un módulo de desdiscretización de amplitud de conformidad con una realización incluye un desdiscretizador diferencial de amplitud de banda baja 1401, un desdiscretizador diferencial de amplitud de banda alta 1402, un integrador espectral 1403, un tomador de muestras espectrales crecientes no uniforme 1404, un desnormalizador de energía de banda 1405, un desdiscretizador diferencial de potencia 1406, y un módulo de clonación armónico 1407 (mostrado dos veces con el objeto de presentar mayor claridad en el dibujo). Cuatro elementos de retraso de la unidad son también incluidos en el módulo de desdiscretización de amplitud.

El primer paso en el proceso de discretización de amplitud se determinan los factores de normalización de ganancia utilizados en el normalizador de energía de banda 1301. Típicamente, la forma de los espectros de amplitud puede ser codificada más eficazmente en el discretizador diferencial de amplitud de banda baja 1304 y el discretizador diferencial de amplitud de banda alta 1305 si los espectros de amplitud son primero normalizados. En el normalizador de energía de banda 1301, la normalización de energía es realizada separadamente en la banda baja y en la banda alta. La relación entre un espectro no normalizado (denotado por {A_{k}}) y un espectro normalizado (denotado por {\tilde{\mathit{A}}_{k}}) es expresada en términos de dos factores de ganancia, \alpha y \beta. Específicamente,

\alpha = \frac{1 . 0}{\sqrt{\sum\limits_{K_{1}} A^{2}_{k}}} \ ,

\hskip1cm

\beta = \frac{1 . 0}{\sqrt{\sum\limits_{K_{2}} A^{2}_{k}}}

donde

\tilde{\mathit{A}}_{k} = \alphaA_{k} \forallk \epsilon K_{1}

\tilde{\mathit{A}}_{k} = \betaA_{k} \forallk \epsilon K_{2}

\global\parskip0.990000\baselineskip

K_{1} representa un conjunto de números armónicos correspondiente a la banda baja, y K_{2} representa un conjunto de números armónicos correspondiente a la banda alta. El límite que separa la banda baja y la banda alta está ventajosamente seleccionado para que sea a 1104 Hz en la realización ilustrativa. (Como descrito a partir de este momento, este punto particular de frecuencia realmente corresponde al borde derecho de la banda #11, como se muestra en la figura 10). La gráfica de la figura 11B muestra un ejemplo del espectro normalizado de amplitud. El espectro original de amplitud es mostrado en la gráfica de la figura 11A.

II. Muestreo Espectral decreciente no Uniforme

El espectro normalizado {\tilde{\mathit{A}}_{k}} generado por el normalizador de energía de banda 1301 es provisto al tomador de muestras decrecientes espectrales no uniforme 1303, cuya operación se basa en un conjunto de bandas predeterminadas, bandas no uniformes, como es ilustrado en la figura 10. Ventajosamente hay veintidós bandas no uniformes que se agrupan (también conocidas como depósitos de frecuencia) en el rango entero de frecuencia, y los bordes de depósito corresponden a los puntos fijos en la escala de frecuencia (Hz). Debería ser notado que los tamaños de las primeras ocho bandas son ventajosamente fijados a aproximadamente noventa y cinco Hz, donde los tamaños de las bandas restantes aumentan logarítmicamente con la frecuencia. Se debe reconocer el hecho de que el número de bandas y los tamaños de banda no necesitan estar restringidos a las realizaciones aquí descritas y pueden ser alterados sin irse de los principios básicos de la invención presente.

El proceso de tomar muestras decrecientes funciona como sigue. Cada armónico \tilde{\mathit{A}}_{k} es asociado primero con un depósito de frecuencia. Luego, una magnitud promedio de los armónicos en cada depósito es calculada. El espectro resultante se convierte en un vector de veintidós valores espectrales, denotados por B(i), i = 1,2, ..., 22. Debería ser notado que algunos depósitos pueden ser vacíos, particularmente para los valores pequeños de retardo. El número de armónicos en un espectro depende de la frecuencia fundamental. El menor valor admisible de tono en los sistemas típicos de codificación de voz es ventajosamente establecido en veinte (asumiendo una frecuencia de muestreo de ocho kHz), lo cual corresponde a sólo once armónicos. Por lo tanto, los depósitos vacíos son inevitables.

Para facilitar el diseño y búsqueda en el cifrado por bloques en presencia de depósitos vacíos, un parámetro llamado peso del depósito, W(i), i = 1,2, ..., 22, es designado para conocer en todo momento las posiciones de los depósitos vacíos. Al parámetro W(i) ventajosamente se le asigna cero para depósitos vacíos y uno para depósitos ocupados. Esta información de peso del depósito puede ser usada en las rutinas convencionales VQ a fin de descartar depósitos vacíos durante la búsqueda y entrenamiento del cifrado por bloques. Debería ser notado que {W(i)} es función de sólo la frecuencia fundamental. Por consiguiente, ninguna información de peso del depósito necesita ser transmitida al decodificador.

El tomador de muestras decrecientes no uniforme 1303 vale para dos propósitos importantes. En primer lugar, el vector de amplitud de dimensión variable es integrado en un vector de dimensión fija con los correspondientes pesos de depósito. Así, las técnicas convencionales VQ pueden ser aplicadas para discretizar el vector del que se tomó muestras decrecientes. En segundo lugar, el acercamiento del depósito no uniforme saca provecho del hecho que el oído humano tiene una resolución de frecuencia que es una función no lineal de la escala de frecuencia (similar a la escala Bark). Mucha de la información irrelevante desde el punto de vista de la percepción es descartada durante el proceso de tomar muestras decrecientes para realzar la eficiencia de codificación.

III. Discretización de los Factores de Ganancia

Como es bien conocido en la técnica, el logaritmo de la señal de potencia es perceptivamente más relevante que la señal de potencia en sí misma. Así, la discretización de los dos factores de ganancia, \alpha y \beta, es realizada en el dominio logarítmico en una manera diferencial. Debido a los errores del canal, es ventajoso inyectar un poco de fuga en el discretizador diferencial. Así, \alpha y \beta, pueden ser discretizados y desdiscretizados en por el discretizador diferencial de potencia 1302 y el desdiscretizador diferencial de potencia 1308, respectivamente, según la siguiente expresión:

[log(\tilde{\alpha}_{N}) \ log(\tilde{\beta}_{N})] = \rho [log(\tilde{\alpha}_{N-1}) \ log(\tilde{\beta}_{N-1})] + Q[log(\alpha _{N}) - \rho log(\tilde{\alpha}_{N-1}) \ log(\beta _{N}) - \rho log(\tilde{\beta}_{N-1})]

Donde N-1 y N denota las veces de dos factores sucesivos de ganancia extraídos, y Q(.) representa la operación diferencial de discretización. El parámetro \rho funciona como un factor de fuga para impedir propagación indefinida de error de canal. En los sistemas típicos de codificación de voz, el valor \rho está entre 0.6 y 0.99. La ecuación mostrada anteriormente ilustra un proceso autorregresivo (AR por sus silgas en inglés). De modo semejante, un esquema de media móvil (MA por sus siglas en inglés) también puede ser aplicado para reducir la sensibilidad a errores del canal. A diferencia del proceso AR, la propagación de error está limitada por la estructura no recursiva del decodificador en un esquema MA.

Un cifrado por bloques de tamaño sesenta y cuatro o 128 es suficiente para discretizar \alpha y \beta con calidad excelente. El índice I_{power} resultante del cifrado por bloques es transmitido al decodificador. Con referencia también a la figura 9, el desdiscretizador diferencial de potencia 1406 en el decodificador es ventajosamente idéntico al desdiscretizador diferencial de potencia 1308 en el codificador, y el desnormalizador de energía de banda 1405 en el decodificador realiza ventajosamente la operación inversa del normalizador de energía de banda 1301 en el codificador.

III. Discretización de la Forma Espectral

Después que el tomado de muestras espectrales decrecientes es realizado por el tomador de muestras espectrales decrecientes no uniforme 1303, {B(i)} es separado en dos conjuntos antes de ser discretizado. La banda baja {B(i = 1,2, ..., 11)} es provista al discretizador diferencial de amplitud de banda baja 1304. La banda alta {B(i = 12, ..., 22)} es provista al discretizador diferencial de amplitud de banda alta 1305. La banda alta y la banda baja son cada una discretizada en una manera diferencial. El vector diferencial es calculado de conformidad con la siguiente ecuación:

\Delta B_{N} = B_{N} - \hat{B} _{N-1}

donde \hat{\mathit{B}}_{N-1} representa la versión discretizada del vector previo. Cuando hay una discrepancia entre los dos vectores correspondientes de peso (esto es, W_{N} \neq W_{N-1} causado por una discrepancia de atraso entre los espectros previo y actual), el resultante \DeltaB_{N-1} puede contener valores erróneos que afectarían el funcionamiento del discretizador. Por ejemplo, si el retraso previo L_{prev} es cuarenta y tres y el retraso actual L_{curr} es cuarenta y cuatro, los vectores de peso correspondientes calculados según el esquema de ubicación mostrado en la figura 10 serían:

W_{N-1} = {0,0,1,0,1,0,1,1,0,1, ...}

W_{N} = {0,1,0,1,0,1,0,1,0,1, ...}

En este caso, los valores erróneos ocurrirían en i = 2,4,6 en \DeltaB_{N}(i) donde la siguiente expresión booleana es verdadera:

W_{N}(i) = 1 \capW_{N-1}(i) = 0

Debería ser notado que la otra clase de incompatibilidad, W_{N}(i) = 0 \cap W_{N-1}(i) = 1, que ocurre en i = 3,5,7 en este ejemplo, no afectaría el funcionamiento del discretizador. Porque estos depósitos tienen pesos cero de cualquier manera (esto es, W_{N}(i) = 0), estos depósitos serían automáticamente ignorados en los procedimientos convencionales de búsqueda ponderada.

En una realización una técnica denotada clonación armónica se usa para manipular vectores de peso incompatibles. La técnica de clonación armónica modifica {\hat{\mathit{B}}_{N-1}} a {\hat{\mathit{B}}'_{N-1}} de manera que todos los depósitos vacíos en {\hat{\mathit{B}}'_{N-1}} están temporalmente llenos por armónicos, antes de calcular \DeltaB_{N}. Los armónicos son clonados de los vecinos de las partes derechas si L_{prev} < L_{curr}. Los armónicos clonados de los vecinos de las partes izquierda si L_{prev} < L_{curr}. El proceso armónico de clonación es ilustrado por el siguiente ejemplo. Suponga {\hat{\mathit{B}}_{N-1}} tiene los valores espectrales W, X, Y, Z,... para los primeros cuatro depósitos no vacíos. Usando el mismo ejemplo anterior (L_{prev} = 43 y L_{curr} = 44), {\hat{\mathit{B}}'_{N-1}} puede ser calculado clonando de los vecinos de las partes derecha (porque L_{prev} < L_{curr}):

clonar de la derecha

1

donde 0 representa un depósito vacío.

Si el vector B_{N} es

2

entonces,

3

El clonado armónico es implementado en el codificador y en el decodificador, específicamente en los módulos armónicos de clonación 1309, 1407. De modo similar para el caso del discretizador de ganancia 1302, un factor de la fuga \rho puede ser aplicado a la discretización espectral para impedir una propagación indefinida de error en presencia de errores de canal. Por ejemplo, \DeltaB_{N} puede ser logrado mediante

\Delta B_{N} = B_{N} - \rho \tilde{B}' _{N-1}

También, para obtener mejor rendimiento, el discretizador diferencial de amplitud de banda baja 1304 y el discretizador diferencial de amplitud de banda alta 1305 puede utilizar peso espectral para calcular el estimado de error de modo similar a ese usado convencionalmente para discretizar la señal residual en un codificador CELP.

Los índices I_{amp1} e I_{amp2} son los índices del cifrado por bloques de banda baja y de banda alta que son transmitidos al decodificador. En una realización particular, ambos discretizadores diferenciales de amplitud 1304, 1305 requieren de un total de aproximadamente doce bits (600 bits por segundo) para lograr salida de calidad de tarifa.

En el decodificador, el tomador de muestras espectrales crecientes no uniforme 1401 toma muestras crecientes de los veintidós valores espectrales a sus dimensiones originales (el número de elementos en el vector se convierte en veintidós en el tomado de muestras decrecientes, y regresa al número original en el tomado de muestras crecientes). Sin significativamente aumentar la complejidad computacional, tal tomado de muestras crecientes puede ser ejecutado por técnicas convencionales de interpolación lineal. Las gráficas de las figuras 11 de la A a la C ejemplifican un espectro del que se tomó muestras crecientes. Debería ser notado que el desdiscretizador diferencial de amplitud de banda baja 1401 y el desdiscretizador diferencial de amplitud de banda alta 1402 en el decodificador son ventajosamente idénticos a sus respectivas contrapartidas en el codificador, el desdiscretizador diferencial de amplitud de banda baja 1306 y el desdiscretizador diferencial de amplitud de banda alta 1307.

Las realizaciones antes descritas desarrollan una técnica nueva de discretización de amplitud que toma ventaja completa de la resolución no lineal de frecuencia de los oídos humanos, y al mismo tiempo alivia el uso del VQ de dimensión variable. Una técnica de codificación que presenta las características de la invención de este instante a sido exitosamente aplicada a un sistema de codificación de voz PWI, necesitando tan solo dieciocho bits/marco (900 bits por segundo) para representar el espectro de amplitud de una forma de onda prototipo para lograr una salida de calidad de tarifa (con espectros de fase no discretizados). Como esos expertos en la técnica fácilmente se apreciarían, una técnica de discretización que presenta las características de la invención de este instante podría ser aplicada a cualquier forma de información espectral, y no necesita estar restringida a la información de amplitud espectral. Como esos expertos en la técnica además apreciarían, los principios de la invención presente no están restringidos a los sistemas de codificación de voz PWI, sino que son aplicables a muchos otros algoritmos de codificación de voz que poseen el espectro de amplitud como un parámetro explícito de codificación, como, por ejemplo, MBE y STC.

Mientras un número de realizaciones específicas han sido mostradas y descritas en esta, debe entenderse que estas realizaciones son meramente ilustrativas de las muchas configuraciones específicas posibles que pueden ser ideadas en la aplicación de los principios de la invención presente. Otras configuraciones numerosas y variadas pueden ser ideadas de conformidad con estos principios por esos de expertos en la técnica sin desviarse del alcance de la invención. Por ejemplo, una modificación leve de los bordes de banda (o el tamaño del depósito) en la representación no uniforme de banda mostrada en la figura 10 no pueden causar una diferencia significativa en la calidad de voz resultante. También, la partición de la frecuencia que separa el espectro de banda baja y el espectro de banda alta en el discretizador diferencial de amplitud de banda baja y el circundan discretizador diferencial de amplitud de banda alta mostrado en la figura 8 (el cual, en una realización, es establecido en 1104 Hz) pueden ser alterados sin mucho impacto en la calidad de percepción resultante. Además, aunque las realizaciones arriba descritas han sido dirigidas con vistas a un método para el uso en la codificación de amplitudes en la voz o señales residuo, será obvio a esos expertos en la técnica que las técnicas de la invención presente también puede ser aplicadas a la codificación de señales de audio.

Por lo tanto, un esquema nuevo de discretización de amplitud para codificadores de voz de tasa bajas de bits ha sido descrito. Esos expertos en la técnica entenderían que los varios bloques lógicos ilustrativos y pasos de algoritmo descritos con respecto a las realizaciones reveladas en este punto pueden ser implementados o realizados con un procesador de señales digitales (DSP por sus siglas en inglés), un circuito integrado para aplicaciones específicas (ASIC por sus siglas en inglés), circuitos de compuerta lógica o de transistores, componentes discretos de hardware como, por ejemplo, los registros y FIFO, un procesador ejecutando un conjunto de instrucciones de soporte lógico inalterable, o cualquier módulo convencional de software programable y un procesador. El procesador ventajosamente puede ser un microprocesador, pero en la alternativa, el procesador puede ser cualquier procesador convencional, controlador, microcontrolador, o cualquier máquina de estados. El módulo del software podría radicar en memoria RAM, memoria de destello, registros, o cualquier otra forma de medio de almacenamiento escribible conocido en la técnica. Esos expertos apreciarían además que los datos, las instrucciones, los comandos, la información, las señales, los bits, los símbolos, y los chips que puede ser referenciados a todo lo largo de la descripción citada anteriormente están ventajosamente representadas por voltajes, corrientes, ondas electromagnéticas, campos magnéticos o partículas, partículas o campos ópticos, o cualquier combinación de estos.

Realizaciones preferidas de la invención presente han sido así mostradas y descritas. Sería aparente a un experto en la técnica, sin embargo, que numerosas alteraciones pueden ser hechas a las realizaciones reveladas hasta este punto sin apartarse del alcance de la invención. Por consiguiente, la invención presente no está limitada excepto de acuerdo a las siguientes reivindicaciones.

Claims

1. Un método de discretizar información espectral para un codificador de voz, el método comprende:

: extraer un vector de información espectral de dimensión variable de un marco, teniendo el vector un valor vectorial de energía;

: normalizar (1301) el vector de información espectral para generar un vector normalizado de información espectral, dicho normalizador (1301) comprende:

: normalizar separadamente el vector de información espectral en subbandas primera y segunda para determinar un componente de la información espectral para cada uno de las subbandas; y

: determinar un factor de ganancia para cada una de las subbandas; y

: multiplicar cada una de las componentes de la información espectral por sus factores respectivos de ganancia;

: discretizar vectorial diferencialmente (1302) los factores de ganancia;

: tomar no uniformemente muestras decrecientes (1303) del vector normalizado de información espectral para generar un vector de la dimensión fija que tiene una pluralidad de elementos asociados con una pluralidad respectiva de bandas no uniformes de frecuencia;

: separar en el vector de dimensión fija en un subvector para cada una de las subbandas; y

: discretizar diferencialmente (1304,1305) la pluralidad de subvectores.

2. El método de la reivindicación 1, que consiste además en formar un vector de peso de banda de frecuencia para almacenar las posiciones de los elementos correspondientes a las bandas de frecuencia vacías.

3. El método de la reivindicación 1, en el que la extracción comprende extraer un vector de información del espectro de amplitud.

4. El método de la reivindicación 1, en el que el marco es un marco de voz.

5. El método de la reivindicación 1, en el que el marco es un marco de residuo de predicción lineal.

6. El método de la reivindicación 1, en el que discretizar vectorial diferencialmente (1302) se realiza en el dominio logarítmico.

7. El método de la reivindicación 1, en el que discretizar vectorial diferencialmente (1302) comprende además minimizar la fuga durante la discretización para impedir la propagación indefinida de los errores del canal.

8. El método de la reivindicación 1, en el que la pluralidad de bandas no uniformes de frecuencia comprende veintidós bandas no uniformes de frecuencia.

9. El método de la reivindicación 1, en el que tomar muestras decrecientes no uniformemente (1303) comprende asociar una pluralidad de armónicos con la pluralidad de bandas de frecuencia no uniforme, y calcular una magnitud promedio de los armónicos en cada banda de frecuencia, y en el que los elementos del vector de dimensión fija son los valores de magnitud promedio de los armónicos para cada banda de frecuencia.

10. El método de la reivindicación 1, en el que discretizar diferencialmente (1304, 1305) comprende el clonado armónico (1309).

11. El método de la reivindicación 1, en el que discretizar diferencialmente (1304, 1305) comprende además minimizar la fuga durante la discretización para prevenir la propagación indefinida de los errores del canal.

12. El método de la reivindicación 1, en el que discretizar diferencialmente (1304, 1305) comprende además calcular los estimados de error con una técnica de pesado espectral.

13. El método de la reivindicación 1, que comprende además decodificar los factores de ganancia para generar factores de ganancia decodificados, decodificar los valores discretizados resultantes de discretizar diferencialmente para generar información espectral normalizada decodificada, tomar muestras crecientes (1404) de la información espectral normalizada decodificada, y desnormalizar (1405) la información espectral decodificada, normalizada y de la que se tomó muestras crecientes con los factores de ganancia decodificados.

14. El método de la reivindicación 1, en el que el codificador de voz reside en una unidad suscripta (10) de un sistema de comunicación inalámbrico.

15. Un codificador de voz, que incluye:

: medios para extraer un vector de información espectral de dimensión variable de un marco, teniendo el vector un valor vectorial de energía;

: medios (1301) para normalizar el vector de información espectral para generar un vector normalizado de información espectral, comprendiendo dichos medios para normalización:

: medios para normalizar separadamente el vector de información espectral en las subbandas primera y segunda para determinar un componente de la información espectral para cada una de las subbandas;

: medios para determinar un factor de ganancia para cada una de las subbandas; y

: medios para multiplicar cada uno de los componentes de la información espectral por sus respectivos factores de ganancia;

: medios (1302) para discretizar vectorial diferencialmente los factores de ganancia;

: medios (1303) para tomar no uniformemente muestras decrecientes del vector normalizado de información espectral para generar un vector de dimensión fija que tiene una pluralidad de elementos asociada con una respectiva pluralidad de bandas de frecuencia no uniformes;

: medios para dividir el vector de dimensión fija en un subvector para cada una de las subbandas; y

: medios (1304, 1305) para discretizar diferencialmente la pluralidad de subvectores.

16. El codificador de voz de la reivindicación 15, que comprende además medios para formar un vector de peso de banda de frecuencia para almacenar la ubicación de los elementos que corresponden a las bandas de frecuencia vacías.

17. El codificador de voz de la reivindicación 15, en el que los medios de extracción comprenden medios para extraer un vector de información del espectro de amplitud.

18. El codificador de voz de la reivindicación 15, en el que el marco es un marco de voz.

19. El codificador de voz de la reivindicación 15, en el que el marco es un marco residuo de predicción lineal.

20. El codificador de voz de la reivindicación 15, en el que los medios para discretizar vectorial diferencialmente (1302) comprenden medios para discretizar vectorial diferencialmente en el dominio logarítmico.

21. El codificador de voz de la reivindicación 15, en el que los medios para discretizar vectorial diferencialmente (1302) comprenden además medios para minimizar la fuga durante la discretización para impedir la propagación indefinida de los errores del canal.

22. El codificador de voz de la reivindicación 15, en el que la pluralidad de bandas de frecuencia no uniformes comprende veintidós bandas de frecuencia no uniformes.

23. El codificador de voz de la reivindicación 15, en el que los medios para tomar muestras decrecientes no uniformemente (1303) comprenden medios para asociar una pluralidad de armónicos con la pluralidad de bandas de frecuencia no uniformes, y medios para calcular una magnitud promedio de los armónicos en cada banda de frecuencia, y en el que los elementos del vector de dimensión fija son los valores armónicos de magnitud promediados para cada banda de frecuencia.

24. El codificador de voz de la reivindicación 15, en el que los medios para discretizar diferencialmente (1304, 1305) comprenden medios (1309) para realizar clonado armónico.

25. El codificador de voz de la reivindicación 15, en el que los medios para discretizar diferencialmente (1304,1305) comprenden además medios para minimizar la fuga durante la discretización para impedir la propagación indefinida de los errores del canal.

26. El codificador de voz de la reivindicación 15, en el que los medios para discretizar diferencialmente (1304, 1305) comprenden además medios para calcular los estimados de error con una técnica de pesado espectral.

27. El codificador de voz de la reivindicación 15, comprende además medios para decodificar los factores de ganancia para generar factores de ganancia decodificados, y para decodificar valores discretizados generados por los medios para discretizar diferencialmente para generar información espectral normalizada decodificada, medios para tomar muestras crecientes (1404) de la información espectral normalizada decodificada, y medios para desnormalizar (1405) la información espectral normalizada, decodificada y de la que se tomó muestras crecientes con la pluralidad de los factores de ganancia decodificados.

28. El codificador de voz de la reivindicación 15, en el que el codificador de voz reside en una unidad suscripta (10) de un sistema de comunicación inalámbrico.

29. El codificador de voz de cualquiera de las reivindicaciones desde la 15 hasta la 28, en el que los subvectores comprenden un subvector de banda alta y un subvector de banda baja.