ES2265958T3 - Discretizacion de magnitud espectral para un codificador de voz. - Google Patents
Discretizacion de magnitud espectral para un codificador de voz. Download PDFInfo
- Publication number
- ES2265958T3 ES2265958T3 ES00950430T ES00950430T ES2265958T3 ES 2265958 T3 ES2265958 T3 ES 2265958T3 ES 00950430 T ES00950430 T ES 00950430T ES 00950430 T ES00950430 T ES 00950430T ES 2265958 T3 ES2265958 T3 ES 2265958T3
- Authority
- ES
- Spain
- Prior art keywords
- vector
- voice
- spectral information
- differentially
- voice encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000003595 spectral effect Effects 0.000 title claims abstract description 77
- 239000013598 vector Substances 0.000 claims abstract description 79
- 238000000034 method Methods 0.000 claims abstract description 67
- 230000003247 decreasing effect Effects 0.000 claims abstract description 19
- 238000001228 spectrum Methods 0.000 claims description 30
- 238000004891 communication Methods 0.000 claims description 18
- 238000010367 cloning Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 238000005303 weighing Methods 0.000 claims 2
- 229940035637 spectrum-4 Drugs 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 239000003795 chemical substances by application Substances 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 230000008447 perception Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 239000002699 waste material Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- IRLPACMLTUPBCL-KQYNXXCUSA-N 5'-adenylyl sulfate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](COP(O)(=O)OS(O)(=O)=O)[C@@H](O)[C@H]1O IRLPACMLTUPBCL-KQYNXXCUSA-N 0.000 description 1
- 101150012579 ADSL gene Proteins 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012411 cloning technique Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Spectrometry And Color Measurement (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
- Interface Circuits In Exchanges (AREA)
Abstract
Un método de discretizar información espectral para un codificador de voz, el método comprende: extraer un vector de información espectral de dimensión variable de un marco, teniendo el vector un valor vectorial de energía; normalizar (1301) el vector de información espectral para generar un vector normalizado de información espectral, dicho normalizador (1301) comprende: normalizar separadamente el vector de información espectral en subbandas primera y segunda para determinar un componente de la información espectral para cada uno de las subbandas; y determinar un factor de ganancia para cada una de las subbandas; y multiplicar cada una de las componentes de la información espectral por sus factores respectivos de ganancia; discretizar vectorial diferencialmente (1302) los factores de ganancia; tomar no uniformemente muestras decrecientes (1303) del vector normalizado de información espectral para generar un vector de la dimensión fija que tiene una pluralidad de elementos asociados con una pluralidad respectiva de bandas no uniformes de frecuencia; separar en el vector de dimensión fija en un subvector para cada una de las subbandas; y discretizar diferencialmente (1304, 1305) la pluralidad de subvectores.
Description
Discretización de magnitud espectral para un
codificador de voz.
La invención presente pertenece en general al
campo del procesamiento de voz, y más específicamente a la
discretización de parámetros en codificadores de voz.
La transmisión de voz mediante técnicas
digitales se ha generalizado, particularmente en largas distancias y
en aplicaciones radiodifusoras de teléfono digital. Esto, a su vez,
ha creado interés en determinar la cantidad mínima de información
que puede ser enviada por un canal mientras se mantiene la calidad
percibida en la voz reconstruida. Si la voz es transmitida
simplemente tomando muestras y digitalizando, entonces una tasa de
datos del orden de los sesenta y cuatro kilo bits por segundo (kbps,
por sus siglas en inglés) es requerida para lograr la calidad de
voz del teléfono analógico convencional. Sin embargo, a través del
uso de análisis de voz, seguido por la codificación apropiada, la
transmisión, y la resíntesis en el aparato receptor, puede ser
lograda una reducción significativa en la tasa de datos.
Los dispositivos para codificar voz encuentran
uso en muchos campos de las telecomunicaciones. Un campo típico son
las comunicaciones inalámbricas. El campo de las comunicaciones
inalámbricas tiene muchas aplicaciones incluyendo, por ejemplo, los
teléfonos inalámbricos, localización, ciclos locales inalámbricos,
telefonía inalámbrica como los sistemas de telefonía móvil y PCS,
telefonía móvil mediante protocolo de Internet (IP por sus siglas en
inglés), y los sistemas de comunicación de satélite. Una aplicación
particularmente importante es la telefonía inalámbrica para
suscriptores de móviles.
Varias interfaces tipo sobre el aire han sido
desarrolladas para sistemas de comunicación inalámbrica incluyendo,
por ejemplo, acceso múltiple por división de frecuencias (FDMA por
sus siglas en inglés), acceso múltiple por división de tiempo (TDMA
por sus siglas en inglés), y el acceso múltiple por división de
código (CDMA por sus siglas en inglés). En conexión con eso,
diversas estándares domésticas e internacionales han sido
establecidas incluyendo, por ejemplo, Servicio Telefónico Móvil
Avanzado (AMPS), Sistema Global para Comunicaciones Móviles (GSM por
sus siglas en inglés), y Estándar Interim 95
(IS-95). Un sistema de comunicación de telefonía
inalámbrica típico es un sistema de acceso múltiple por división de
códigos (CDMA por sus siglas en inglés). El estándar
IS-95 y sus derivados, IS-95A, ANSI
J-STD-008, IS-95B,
los estándares propuestos de tercera generación
IS-95C e IS-2000, etc.
(referenciados colectivamente en lo adelante como
IS-95), son promulgados por la Asociación
Internacional de Estándares (TLA por sus siglas en inglés) y otras
bien conocidas organizaciones de estándares para especificar el uso
de una interfaz CDMA sobre el aire para los sistemas de comunicación
de telefonía móvil o telefonía PCS. Sistemas de comunicación
inalámbricos típicos configurados sustancialmente de acuerdo al uso
del estándar IS-95 están descritos en las Patentes
de USA Nº. 5.103.459 y 4.901.307, los cuales están asignados al
apoderado de la presente invención.
Dispositivos que emplean técnicas para codificar
voz de la planilla extrayendo parámetros que guardan relación con un
modelo de generación de voz humana son llamados codificadores de
voz. Un codificador de voz divide la señal de voz entrante en
bloques de tiempo, o marcos de análisis. Los codificadores de voz
típicamente comprenden un codificador y un decodificador. El
codificador analiza el marco entrante de voz para extraer ciertos
parámetros relevantes, y luego discretiza los parámetros en una
representación binaria, esto es, en un conjunto de bits o un paquete
de datos binarios. Los paquetes de datos son transmitidos sobre el
canal de comunicación a un receptor y un decodificador. El
decodificador procesa los paquetes de datos, los desdiscretiza para
producir los parámetros, y resintetiza los marcos de voz usando los
parámetros no discretizados.
La función del codificador de voz es comprimir
la señal de voz digitalizada en una señal de tasa baja de bits
quitando todas las redundancias naturales inherentes a la voz. La
compresión digital es lograda representando el marco de voz de
entrada con un conjunto de parámetros y utilizando la discretización
para representar los parámetros con un conjunto de bits. Si el marco
de voz de entrada tiene un número de bits N_{i} y el
paquete de datos producido por el codificador de voz tiene un número
de bits N_{O}, el factor de compresión que es logrado por
el codificador de voz es C_{r} =
N_{i}/N_{O}. El reto es mantener una alta calidad
de voz en la voz decodificada mientras se logra el factor de
compresión deseado. El comportamiento de un codificador de voz
depende de (1) cuán bien se comporta el modelo de voz, o la
combinación del proceso de análisis y el de síntesis descritos
arriba, y (2) cuán bien es realizado el proceso de discretización de
parámetros con la tasa de bits objetivo N_{O} bits por
marco. La meta del modelo de voz es entonces captar la esencia de la
señal de voz, o la calidad de voz objetivo, con un conjunto pequeño
de parámetros para cada marco.
Quizás lo más importante en el diseño de un
codificador de voz es la búsqueda de un buen conjunto de parámetros
(incluyendo vectores) para describir la señal de voz. Un buen
conjunto de parámetros requiere un sistema con ancho de banda bajo
para la reconstrucción de una señal de voz perceptiblemente precisa.
El tono, el poder de la señal, la cubierta espectral (o formants),
la amplitud del espectro, y los espectros de fases son ejemplos de
parámetros de codificación de voz.
Los codificadores de voz pueden ser
implementados como codificadores de dominio de tiempo, los cuales
intentan captar la onda de voz de dominio de tiempo empleando
procesamiento de alta resolución de tiempo para codificar segmentos
pequeños de voz (típicamente submarcos de 5 milisegundos (ms)) a la
vez. Para cada submarco, una representación de alta precisión de un
espacio del cifrado por bloques es encontrada por medio de varios
algoritmos de búsqueda conocidos en la técnica. Alternativamente,
los codificadores de voz pueden ser implementados como codificadores
de dominio de frecuencia, los que intentan capturar el espectro de
voz de corto plazo del marco de voz de entrada con un conjunto de
parámetros (análisis) y utilizar un proceso correspondiente de
síntesis para recrear la onda de voz a partir de los parámetros
espectrales. El discretizador de parámetros conserva los parámetros
representándolos con representaciones almacenadas de vectores de
codificación de acuerdo a técnicas de discretización conocidas
descritas en A. Gersho y R.M. Gray, VectorDiscretización and
Signal Compression (1992).
Un codificador de voz de dominio de tiempo muy
conocido es el codificador Predictivo Linear de Código Excitado
(CELP por sus siglas en inglés) descrito en L.B. Rabiner y R.W.
Schafer, Digital Processing of Speech Signals
396-453 (1978).
En un codificador CELP, las correlaciones de
corto plazo, o redundancias, en la señal de voz son eliminadas
mediante un análisis de lineal predicción (LP por sus siglas en
inglés), el cual encuentra los coeficientes de un filtro de formant
de corto plazo. Aplicar el filtro de predicción de corto plazo al
marco de voz entrante genera una señal de residuo LP, la cual es
luego modelada y discretizada con parámetros de filtro de predicción
de largo plazo y un subsiguiente cifrado por bloques estocástico.
Así, la codificación CELP divide la tarea de codificar la onda de
voz de dominio de tiempo en las tareas separadas de codificar los
coeficientes del filtro LP de corto plazo y codificar el residuo LP.
La codificación por dominios de tiempo puede ser realizada a una
tasa fija (esto es, usando el mismo número de bits,
N_{O}, para cada marco) o en una tasa variable (en las
cuales las tasas de bits diferentes se utilizan para diferentes
tipos de contenidos de marco). Los codificadores de tasa variable
intentan usar sólo la cantidad de bits necesaria para codificar los
parámetros de codificador a un nivel adecuado para obtener la
calidad objetivo. Un codificador típico de tasa variable CELP es
descrito en la Patente de USA No. 5.414.796, el cual es asignado al
apoderado de la invención presente.
Los codificadores de dominio de tiempo como el
codificador CELP típicamente dependen de un número alto de bits,
N_{O}, por marco para conservar la exactitud de la onda de
voz de dominio de tiempo. Tales codificadores típicamente dan una
calidad de voz excelente dado el número de bits, N_{O}, por
marco relativamente grande (por ejemplo, 8 kilo bits por segundo o
superior). Sin embargo, a tasas de bits bajas (4 kilo bits por
segundo e inferior), los codificadores del dominio de tiempo no
pueden retener alta calidad y comportamiento robusto debido al
número limitado de bits disponibles. A tasas de bits bajas, el
espacio limitado del cifrado por bloques recorta la capacidad de
pareo de la onda de los codificadores convencionales de dominio de
tiempo, los cuales son desarrollados de manera exitosa en
aplicaciones comerciales de tasa más alta. Por lo tanto, a pesar de
mejoras con el paso del tiempo, muchos sistemas codificadores CELP
que operan a tasas de bits bajas padecen perceptiblemente una
distorsión significativa típicamente caracterizada como ruido.
Existe actualmente una oleada de interés de
investigación y fuerte necesidad comercial para desarrollar un
codificador de voz de alta calidad funcionando a tasas en bits
medias (esto es, en el rango de 2.4 a 4 kilo bits por segundo y
menor). Las áreas de aplicación incluyen telefonía inalámbrica,
comunicaciones por satélite, telefonía por Internet, diversas
aplicaciones multimedia y de flujo de voz, correo de voz, y otros
sistemas de almacenamiento de voz. Las fuerzas motrices son la
necesidad de capacidad alta y la demanda de comportamiento robusto
bajo situaciones de pérdida de paquete. Varios esfuerzos recientes
de estandarización de codificación de voz son otra fuerza motriz
directiva que propulsa la investigación y el desarrollo de
algoritmos codificadores de voz de tasa baja. Un codificador de voz
de tasa baja crea más canales, o usuarios, por ancho de banda de
aplicación admisible, y un codificador de voz de tasa baja acoplado
con una capa adicional de codificación canales adecuado puede lograr
el total de bit presupuesto de las especificaciones del codificador
y puede permitir un comportamiento robusto bajo condiciones de error
del canal.
Una técnica efectiva para codificar voz
eficazmente en tasas en bits bajo es codificación multimodo. Una
técnica multimodo típica de codificación es descrita en la Patente
de USA No. 6.691.084, asignada al apoderado de la invención
presente. Los codificadores multimodo convencionales aplican modos
diferentes, o algoritmos de
codificación-decodificación, a tipos diferentes de
marcos de voz de entrada. Cada modo, o procesamiento de
codificación-decodificación, está hecho a la medida
para representar de manera óptima un cierto tipo de segmento de voz,
como, por ejemplo, de voz hablada, de voz no hablada, voz de
transición (por ejemplo, entre la hablada y la no hablada), y el
ruido de fondo (no voz) en la manera más eficiente. Un mecanismo
externo de decisión de modo de ciclo abierto examina el marco de voz
de entrada y toma una decisión relativa a cuál modo aplicar al
marco. La decisión de modo de ciclo abierto es típicamente realizada
extrayendo un número de parámetros del marco de entrada, evaluando
los parámetros en lo que se refiere a ciertas características
temporales y espectrales, y basando una decisión de modo según la
evaluación.
Los sistemas de codificación que operan a tasas
del orden de 2.4 kilo bits por segundo son generalmente de
naturaleza paramétrica. Eso es, tales sistemas de codificación
operan transmitiendo parámetros que describen el período de tono y
la cubierta espectral (o formants) de la señal de voz a intervalos
regulares. Ilustrativo de estos también llamados codificadores
paramétricos es el sistema vocoder LP.
Los vocoderes LP modelan una señal de voz
hablada con solo un pulso por periodo de tono. Esta técnica básica
puede ser aumentada para incluir información de transmisión acerca
de la cubierta espectral, entre otras cosas. Aunque los vocoderes LP
generalmente proveen un rendimiento razonable, pueden introducir
una distorsión perceptivamente significativa, típicamente
caracterizadas como un zumbido.
En años recientes, han emergido codificadores
que son híbridos de ambos codificadores de forma de onda y
codificadores paramétricos. Ilustrativo de estos también llamados
codificadores híbridos es el sistema de codificación de voz por
interpolación de forma de onda prototipo (PWI por sus siglas en
inglés). El sistema de codificación PWI también puede ser conocido
como un codificador de voz de período de tono prototipo (PPP por sus
siglas en inglés). Un sistema de codificación PWI provee un método
eficiente para codificar voz hablada. El concepto básico de PWI es
extraer un ciclo de tono representativo (la forma de onda prototipo)
a intervalos fijos, para transmitir su descripción, y reconstruir
la señal de voz interpolando entre la forma de onda prototipo. El
método PWI puede operar tanto en la señal de residuo LP o en la
señal de voz. Un codificador de voz PWI típico, o PPP, es descrito
en la Patente de USA No. 6.456.964, asignado al apoderado de la
presente invención. Otros codificadores de voz PWI, o PPP, son
descritos en la Patente de USA No. 5.884.253, W. Bastiaan Kleijn y
Wolfgang Granzow Methods for Waveform Interpolation in Speech
Coding, in 1 Digital Signal Processing
215-230 (1991) y
EP-A-0 666 557.
Es bien sabido que la información espectral
incrustada en la voz es de gran importancia de percepción,
particularmente en voz hablada. Muchos codificadores de voz de
avanzada tecnología como el codificador de interpolación de forma de
onda prototipo (PWI por sus siglas en inglés) o el codificador de
período de tono prototipo (PPP por sus siglas en inglés), el
codificador de excitación multibanda (MBE por sus siglas en inglés),
y el codificador de transformación sinusoidal (STC por sus siglas en
inglés) utilizan la magnitud espectral como un parámetro explícito
de codificación. Sin embargo, la codificación eficiente de tal
información espectral ha sido una tarea desafiante. Esto, es
principalmente porque el vector espectral, comúnmente representado
por un conjunto de amplitudes armónicas, tiene una dimensión
proporcional al periodo estimado de tono. Tanto como el tono varíe
de marco a marco, la dimensión del vector de amplitud varía también.
Por lo tanto, un método VQ que manipula vectores de entrada de
dimensión variable es requerido para codificar un vector espectral.
No obstante, un método VQ efectivo de dimensión variable (con menos
consumo de bits y memoria) no existe aún.
Como es conocido para esos expertos en la
técnica, la resolución de frecuencia de los oídos humanos es una
función no lineal de frecuencia (por ejemplo, escala Mel y escala
Bark) y los oídos humanos son menos sensitivos a los detalles
espectrales a frecuencias superiores que a frecuencias inferiores.
Es deseable que tal conocimiento de la percepción humana sea
completamente explotado al diseñar un discretizador de amplitud
eficiente.
En codificadores de voz convencionales de tasa
bajas de bits, los parámetros de amplitud y de fase pueden ser
discretizados y transmitidos individualmente para cada prototipo de
cada marco. Como alternativa, los parámetros pueden ser directamente
discretizados vectorialmente para reducir el número de bits
necesarios para representar los parámetros. Sin embargo, es deseable
para luego reducir el número requerido de bits para discretizar los
parámetros del marco. Sería ventajoso, por consiguiente, proveer un
esquema eficiente de discretización para representar perceptivamente
los espectros de amplitud de una señal de voz o una señal de residuo
de predicción lineal. Por lo tanto, hay necesidad de un codificador
de voz que discretice eficazmente espectros de amplitud con un flujo
de bits de tasa baja para realzar la capacidad del canal.
La invención presente está dirigida a un
codificador de voz que discretice eficazmente los espectros de
amplitud con un flujo de bits de tasa baja para realzar la capacidad
del canal. Consecuentemente, en un aspecto de la invención, un
método para discretizar información espectral para un codificador de
voz incluye ventajosamente los pasos de extraer un vector de
información espectral de dimensión variable de un marco, teniendo el
vector un valor vectorial de energía; normalizar el vector de
información espectral para generar un vector normalizado de
información espectral, dicho normalizar comprender separadamente
normalizar el vector en primera y segunda subbandas para determinar
un componente de la información espectral para cada una de las
subbandas, determinando un factor de ganancia para cada una de las
subbandas y multiplicando cada componente de la información
espectral por sus respectivos factores de ganancia; discretizar
vectorialmente diferencialmente los factores de ganancia; tomar
muestras decrecientes no uniformemente del vector normalizado de
información espectral para generar un vector de dimensión fija
teniendo una pluralidad de elementos asociados a una respectiva
pluralidad de bandas de frecuencia no uniformes; separar el vector
de dimensión fija en subvectores para cada una de las subbandas; y
discretizar diferencialmente la pluralidad de subvectores.
En otro aspecto de la invención, un codificador
de voz, incluye ventajosamente medios para extraer un vector de
información espectral de dimensión variable de un marco, teniendo el
vector un valor vectorial de energía; medios para normalizar el
vector de información espectral para generar un vector normalizado
de información espectral, dichos medios para normalizar comprenden
medios para normalizar separadamente el vector de la primera y de la
segunda subbandas para determinar un componente de la información
para los medios para discretizar vectorialmente diferencialmente la
pluralidad de factores de ganancia; medios para tomar muestras
decreciente no uniformemente de la pluralidad de factores de
ganancia normalizados para generar un vector de dimensión fija que
tiene una pluralidad de elementos asociando con una pluralidad
respectiva de bandas de frecuencia no uniformes; medios para dividir
el vector de dimensión fija en una pluralidad de subvectores; y
medios para discretizar diferencialmente la pluralidad de
subvectores.
Preferiblemente, los medios para dividir son
operables para dividir el vector de dimensión fija en un subvector
de banda alta y un subvector de banda baja; y siendo los medios para
discretizar diferencialmente configurados para discretizar
diferencialmente el subvector de banda alta y el subvector de banda
baja.
La figura 1 es un diagrama de bloques de un
sistema telefónico inalámbrico.
La figura 2 es un diagrama de bloques de un
canal de comunicación terminado en cada extremo por codificadores de
voz.
La figura 3 es un diagrama de bloques de un
codificador.
La figura 4 es un diagrama de bloques de un
decodificador.
La figura 5 es un diagrama de flujo que ilustra
un proceso de decisión de codificación de voz.
La figura 6A es una gráfica de la amplitud de la
señal de voz versus tiempo, y la figura 6B es una gráfica de
amplitud de residuo de predicción lineal (LP por sus siglas en
inglés) versus tiempo.
La figura 7 es un diagrama de bloques de un
codificador de voz teniendo un espectro de amplitud como un
parámetro de codificación.
La figura 8 es un diagrama de bloques de un
módulo de discretización de amplitud que puede ser usado en el
codificador de voz de la figura 7.
La figura 9 es un diagrama de bloques de un
módulo de desdiscretización de amplitud que puede ser usado en el
codificador de voz de la figura 7.
La figura 10 ilustra una partición de banda no
uniforme que puede ser realizada por un tomador de muestras
espectrales decrecientes en el módulo de discretización de amplitud
de la figura 8, o por un tomador de muestras espectrales crecientes
en el tomador de muestras crecientes de amplitud de la figura 9.
La figura 11A es una gráfica de espectro de
amplitud de señal residual versus frecuencia donde el eje de la
frecuencia está subdividido según la partición de la figura 9., la
figura 11B es una gráfica del espectro normalizado en energía de la
figura 11A, y la figura 11C es una gráfica del espectro del que se
tomó muestras decrecientes no uniformemente y del espectro del que
se tomó muestras crecientes linealmente de la figura 11B.
Las realizaciones típicas descritas aquí radican
en un sistema de comunicación de telefonía inalámbrica configurado
para utilizar una interfaz sobre el aire CDMA. No obstante, sería
comprendido por esos expertos en la técnica que las características
de un método de submuestreo y de la realización del aparato de la
invención actual pueden residir en cualquiera de los sistemas de
comunicación que emplean una gran variedad de tecnologías conocidas
por esos expertos en la técnica.
Como es ilustrado en la figura 1, un sistema
telefónico inalámbrico CDMA generalmente incluye una pluralidad de
unidades móviles suscritas 10, una pluralidad de estaciones base 12,
controladores de estación base (BSCs por sus siglas en inglés) 14, y
un centro conmutativo móvil (MSC por sus siglas en inglés) 16. El
MSC 16 es configurado para interconectarse con una red telefónica
conmutativa pública convencional (PSTN por sus siglas en inglés) 18.
El MSC 16 es también configurado para interconectar con los BSCs 14.
Los BSCs 14 están acoplados a las estaciones base 12 a través de
líneas de transmisión. Las líneas de transmisión pueden ser
configuradas para soportar cualquiera de varias interfaces conocidas
incluyendo, por ejemplo, E1/T1, ATM, IP, PPP, Frame Relay, HDSL,
ADSL, o xDSL. Es entendido que pueden ser más de dos BSCs 14 en el
sistema. Cada estación base 12 ventajosamente incluye al menos un
sector (no mostrado), cada sector comprende una antena
omnidireccional o una antena apuntada en una dirección específica
fuera radialmente de la estación base 12. Alternativamente, cada
sector puede comprender dos antenas para una recepción diversa. Cada
estación base 12 ventajosamente puede estar diseñada para dar
soporte a una pluralidad de asignaciones de frecuencias. La
intersección de un sector y una asignación de frecuencias pueden ser
referidas como un canal CDMA. Las estaciones base 12 también pueden
ser conocidas como subsistemas
transmisores-receptores de estaciones base (BTSs)
12. Alternativamente, "estación base" puede ser usada en la
industria para referirse colectivamente a un BSC 14 y a uno o más
BTSs 12. Los BTSs 12 también pueden ser denotados como "sitios
celulares" 12. Alternativamente, los sectores individuales de un
BTS 12 dado pueden ser referidos como sitios celulares. Las unidades
móviles suscritas 10 son típicamente teléfonos móviles o de PCS 10.
El sistema es ventajosamente configurado para el uso en conformidad
con el estándar IS-95.
Durante la operación típica del sistema
telefónico móvil, las estaciones base 12 reciben conjuntos de
señales enlace inversas de conjuntos de unidades móviles 10. Las
unidades móviles 10 conducen llamadas telefónicas u otras
comunicaciones. Cada señal enlace inversa recibida por una estación
base 12 dada es procesada dentro de esa estación base 12. Los datos
resultantes son reenviados a los BSCs 14. Los BSCs 14 proveen
ubicación de la fuente de llamada y funcionalidad de administración
de movilidad incluyendo la orquestación de pases suaves entre
estaciones base 12. Los BSCs 14 también enrutan los datos recibidos
del MSC 16, que provee servicios adicionales de ruteo para la
interfaz del PSTN 18. De modo semejante, el PSTN 18 interconecta con
el MSC 16, y el MSC 16 interconecta con los BSCs 14, el cual en
cambio controla estaciones base 12 para transmitir conjuntos de
señales de enlace reenviadas a conjuntos de unidades móviles 10.
En la figura 2 un primer codificador 100 recibe
muestras de voz digitalizadas s(n) y codifican las
muestras s(n) para la transmisión en un medio de
transmisión 102, o en un canal de comunicación 102, a un primer
decodificador 104. El decodificador 104 decodifica las muestras de
voz codificadas y sintetiza una señal de voz de salida
s_{SYNTH}(n). Para la transmisión en la dirección
opuesta, un segundo codificador 106 codifica muestras de voz
digitalizada s(n), las cuales son transmitidas en un
canal de comunicación 108. Un segundo decodificador 110 recibe y
decodifica las muestras de voz codificadas, generando una señal
sintetizada de voz de salida s_{SYNTH}(n).
Las muestras de voz s(n)
representan señales de voz que han sido digitalizadas y
discretizadas de acuerdo a cualquiera de varios métodos conocidos en
la técnica incluyendo, por ejemplo, modulación de código por pulso
(PCM por sus siglas en inglés), la \mu-ley de
compresión-expansión, o A-ley. Como
conocidas en la técnica, las muestras de voz s(n) son
organizadas en marcos de datos de entrada en donde cada marco
comprende un número predeterminado de muestras de voz digitalizada
s(n). En una realización típica, una tasa de muestreo
de 8 Khz. es empleada, con marcos cada 20 ms para un total de 160
muestras. En las realizaciones descritas abajo, la tasa de
transmisión de datos ventajosamente puede ser variada en una base
marco a marco de 13.2 kilo bits por segundo (tasa máxima) a 6.2 kilo
bits por segundo (tasa media) a 2.6 kilo bits por segundo (un cuarto
de tasa) a 1 kilo bits por segundo (un octavo de tasa). Variar la
tasa de transmisión de datos es ventajoso porque más bajas tasa de
bit pueden ser selectivamente utilizadas para marcos que contienen
relativamente menos información de voz. Como entendido por esos
expertos en la técnica, otras tasas de muestreo, tamaños del marco,
y las tasas de transmisión de datos pueden ser usadas.
El primer codificador 100 y el segundo
decodificador 110 conjuntamente comprenden un primer codificador de
voz, o un codificador-decodificador de voz. El
codificador de voz podría ser usado en cualquier dispositivo de
comunicación para transmitir señales de voz, incluyendo, por
ejemplo, las unidades suscritas, BTSs, o BSCs descritos arriba con
referencia a la figura 1. De modo semejante, el segundo codificador
106 y el primer decodificador 104 conjuntamente comprenden un
segundo codificador de voz. Es entendido por esos expertos en la
técnica que los codificadores de voz pueden ser implementados con un
procesador de señales digitales (DSP por sus siglas en inglés), un
circuito integrado para aplicaciones específicas (ASIC por sus
siglas en inglés), lógica de compuerta discreta, soporte lógico
inalterable, o cualquier módulo programable convencional del
software y un microprocesador. El módulo del software podría radicar
en memoria RAM, en memoria de destello, registros, o cualquier otra
forma de medio de almacenamiento escribible conocido en la técnica.
Alternativamente, cualquier procesador convencional, controlador, o
máquina de estado podría ser substituido por el microprocesador. Los
ASICs típicos diseñados específicamente para la codificación de voz
están descritos en las Patentes USA Nos. 5.727.123 y 5.784.532 ambas
asignadas al apoderado de la invención presente.
En la figura 3 un codificador 200 que puede ser
usados en un codificador de voz incluye un módulo de decisión de
modo 202, un módulo de estimación de tono 204, un módulo de análisis
LP 206, un filtro de análisis LP 208, un módulo de discretización LP
210, y un módulo de discretización de residuo 212. Los marcos de voz
de entrada s(n) les son provistos al módulo de
decisión de modo 202, al módulo de estimación de tono 204, al módulo
de análisis LP 206, y al filtro de análisis LP 208. El módulo de
decisión de modo 202 produce un índice de modo I_{M} y un
modo M de basado en la periodicidad, energía, relación
señal/ruido (SNR por sus siglas en inglés), o tasa de cruce cero,
entre otras características, de cada marco de voz de entrada
s(n). Varios métodos para clasificar marcos de voz
según la periodicidad son descritos en la Patente USA No. 5.911.128,
la cual está asignada al apoderado de la invención presente. Tales
métodos son también incorporados en los Estándares Interinos de la
Asociación de la Industria de las Telecomunicaciones TIA/EIA
IS-127 y TIA/EIA IS-733. Un esquema
típico de decisión de modo está también descrito en dicha Patente
USA No. 6.691.084.
El módulo de estimación de tono 204 produce un
índice de tono I_{P} y un valor de retraso P_{O}
basado en cada marco de voz de entrada s(n). El módulo
de análisis LP 206 realiza análisis predictivo lineal en cada marco
de voz de entrada
s(n) para generar un parámetro LP a. El parámetro LP a le es provisto al módulo de discretización LP 210. El módulo de discretización LP 210 también recibe el modo M, por consiguiente realiza el proceso de discretización en una manera dependiente del modo. El módulo de discretización LP 210 produce un índice LP I_{LP} y un parámetro discretizado LP â. El filtro de análisis LP 208 recibe el parámetro LP discretizado â además del marco de voz de entrada s(n). El filtro de análisis LP 208 genera una señal de residuo LP R[n], lo cual representa el error entre los marcos de voz de entrada s(n) y la voz reconstruida basado en los parámetros discretizados estimados linealmente â. El residuo LP R[n], el modo M, y el parámetro LP discretizado â le son provistos al módulo de discretización de residuo 212. Basado en estos valores, el módulo de discretización de residuo 212 produce un índice de residuo I_{R} y una señal de residuo discretizada \hat{\mathit{R}}[n].
s(n) para generar un parámetro LP a. El parámetro LP a le es provisto al módulo de discretización LP 210. El módulo de discretización LP 210 también recibe el modo M, por consiguiente realiza el proceso de discretización en una manera dependiente del modo. El módulo de discretización LP 210 produce un índice LP I_{LP} y un parámetro discretizado LP â. El filtro de análisis LP 208 recibe el parámetro LP discretizado â además del marco de voz de entrada s(n). El filtro de análisis LP 208 genera una señal de residuo LP R[n], lo cual representa el error entre los marcos de voz de entrada s(n) y la voz reconstruida basado en los parámetros discretizados estimados linealmente â. El residuo LP R[n], el modo M, y el parámetro LP discretizado â le son provistos al módulo de discretización de residuo 212. Basado en estos valores, el módulo de discretización de residuo 212 produce un índice de residuo I_{R} y una señal de residuo discretizada \hat{\mathit{R}}[n].
En la figura 4 un decodificador 300 que puede
ser usado en un codificador de voz incluye un módulo de
decodificación de parámetro LP 302, un módulo de decodificación de
residuo 304, un módulo de decodificación de modo 306, y un filtro de
síntesis LP 308. El módulo de decodificación de modo 306 recibe y
decodifica un índice de modo I_{M}, generando de allí un
modo M. El módulo de decodificación de parámetro LP 302
recibe el modo M y un índice LP I_{LP}. El módulo de
decodificación de parámetro LP 302 decodifica los valores recibidos
para producir un parámetro discretizado LP â. El módulo de
decodificación de residuo 304 recibe un índice de residuo
I_{R}, un índice de tono I_{P}, y el índice de
modo I_{M}. El módulo de decodificación de residuo 304
decodifica los valores recibidos para generar una señal discretizada
de residuo \hat{\mathit{R}}[n]. La señal
discretizada del residuo \hat{\mathit{R}}[n] y el
parámetro discretizado LP â le son provisto al filtro de
síntesis LP 308, el cual sintetiza una señal decodificada de voz de
salida \hat{\mathit{s}}[n] de allí.
La operación y la implementación de los varios
módulos del codificador 200 de la figura 3 y del decodificador 300
de la figura 4 son conocidas en la técnica y descritos en la
mencionada anteriormente Patente USA No. 5.414.796 y L.B. Rabiner y
R.W. Schafer, Digital Processing of Speech Signals
396-453 (1978).
Como es ilustrado en el diagrama de flujo de la
figura 5, un codificador de voz de acuerdo a una realización sigue
un conjunto de pasos en el procesamiento de muestras de voz a ser
transmitidas. En el paso 400 que el codificador de voz recibe
muestras digitales de señales de voz en marcos sucesivos. Al recibir
un marco dado, el codificador de voz procede al paso 402. En el paso
402 el codificador de voz detecta la energía del marco. La energía
es una medida de la actividad de voz del marco. La detección de voz
es realizada sumando los cuadrados de las amplitudes de las muestras
digitalizadas de voz y comparando la energía resultante con un valor
umbral. En una realización el valor umbral se adapta basado en el
nivel cambiante de ruido de fondo. Un detector típico de actividad
de voz de umbral variable como es descrito en la mencionada
anteriormente Patente USA No. 5.414.796. Algunos sonidos de voz no
hablada pueden ser muestras de energía sumamente baja que pueden ser
codificadas equivocadamente como ruido de fondo. Para impedir que
esto de ocurrir, la inclinación espectral de muestras de energía
baja puede usarse para distinguir la voz no hablada del ruido de
fondo, como es descrita en la mencionada anteriormente Patente USA
No. 5.414.796.
Después de detectar la energía del marco, el
codificador de voz procede al paso 404. En el paso 404 el
codificador de voz determina si la energía del marco detectada es
suficiente para clasificar el marco como que contiene información de
voz. Si la energía del marco detectada es menor que un nivel umbral
predefinido, entonces el codificador de voz procede al paso 406. En
el paso 406 el codificador de voz codifica el marco como de ruido de
fondo (esto es, no voz, o silencio). En una realización el marco de
ruido de fondo es codificado a 1/8 de la tasa, o 1 kilo bits por
segundo. Si en el paso 404 la energía del marco detectada alcanza o
excede el nivel predefinido del umbral, el marco es clasificado
como de voz y el codificador de voz procede al paso 408.
En el paso 408 que el codificador de voz
determina si el marco es de voz no hablada, esto es, el codificador
de voz examina la periodicidad del marco. Varios métodos conocidos
de determinación de periodicidad incluyen, por ejemplo, el uso de
cruces cero y el uso de funciones de autocorrelación normalizada
(NACFs por sus siglas en inglés). En particular, el uso de cruces
cero y NACFs para detectar periodicidad es descrito en las
mencionadas anteriormente Patente USA No. 5.911.128 y Patente USA
No. 6.691.084. Además, los métodos citados anteriormente usados para
hacer la distinción de la voz hablada de la voz no hablada son
incorporados en los Estándares Interinos de la Asociación de la
Industria de las Telecomunicaciones TIA/EIA IS-127 y
TIA/EIA IS-733. Si se determina que el marco es de
voz no hablada en el paso 408, entonces el codificador de voz
procede al paso 410. En el paso 410 el codificador de voz codifica
el marco como voz no hablada. En una realización los marcos de voz
no hablada están codificados a un cuarto de la tasa, o 2.6 kilo bits
por segundo. Si en el paso 408 no se determina que el marco es de
voz no hablada, entonces el codificador de voz procede al paso
412.
En el paso 412 el codificador de voz determina
si el marco es de voz de transición, usando métodos de detección de
periodicidad que son conocidos en la técnica, como son descrito en,
por ejemplo, la mencionada anteriormente Patente USA No. 5.911.128.
Si se determina que el marco es voz de transición, entonces el
codificador de voz procede al paso 414. En el paso 414 el marco es
codificado como de voz de transición (esto es, la transición de la
voz no hablada a la voz hablada). En una realización el marco de voz
de transición es codificado de acuerdo a un método de codificación
de interpolación multipulso descrito en la Patente USA No.
6.260.017, asignada al apoderado de la invención presente. En otra
realización el marco de voz de transición es codificado a tasa
completa, o 13.2 kilo bits por segundo.
Si en el paso 412 el codificador de voz
determina que el marco no es de voz de transición, el codificador de
voz pasa al paso 416. En el paso 416 el codificador de voz codifica
el marco como de voz de transición. En una realización los marcos de
voz hablada pueden ser codificados a media tasa, o 6.2 kilo bits por
segundo. Es posible también codificar los marcos de voz hablada a
tasa completa, o 13.2 kilo bits por segundo (o tasa completa, 8 kilo
bits por segundo, en un codificador 8 k CELP). Esos expertos en la
técnica apreciarían, sin embargo, que codificar marco de voz a media
tasa permite al codificador ahorrar ancho de banda valioso sacando
provecho de la naturaleza de estado estable de los marcos hablados.
Además, a pesar de la tasa usada para codificar la voz hablada, la
voz hablada es ventajosamente codificada mediante el uso de la
información de los marcos anteriores, y por lo tanto se dice que ha
sido codificada de manera predictiva.
Esos expertos apreciarían que tanto la señal de
voz como el residuo LP correspondiente pueden ser codificados
siguiendo los pasos mostrados en la figura 5. Las características de
onda del ruido, de la voz no hablada, de la voz de transición, y de
la voz hablada pueden ser vistas como una función en el tiempo en la
gráfica de la figura 6A. Las características de onda del ruido, del
residuo no hablado, del residuo de transición, y del residuo hablado
LP pueden ser visto como una función en el tiempo en la gráfica de
la figura 6B.
\global\parskip0.900000\baselineskip
En una realización un codificador de voz incluye
una sección de transmisión, o de codificación, y una sección de
recepción, o de decodificación, como es ilustrado en la figura7. La
sección de codificación incluye un módulo de separación hablada/no
hablada 1101, un discretizador de tono/cubierta espectral 1102, un
módulo de discretización no hablada 1103, un módulo de separación de
amplitud y de fase 1104, un módulo de discretización de amplitud
1105, y un módulo de discretización de fase 1106. La sección de
decodificación incluye un módulo de desdiscretización de amplitud
1107, un módulo de desdiscretización de fase 1108, un módulo de
síntesis y de desdiscretización no hablada 1109, un módulo de
síntesis de segmento hablado 1110, un módulo de síntesis de
voz/residuo 1111, y un desdiscretizador de tono/cubierta espectral
1112. El codificador de voz puede ser implementado ventajosamente
como parte de un DSP, y puede residir en, por ejemplo, una unidad
suscripta o en una estación base en un PCS o sistema de telefonía
móvil, o en una unidad suscripta o una puerta de enlace en un
sistema satelital.
En el codificador de voz de la figura 7, una
señal de voz o una señal de residuo LP es provista a la entrada del
módulo de separación hablada/no hablada 1101, lo cual es
ventajosamente un clasificador hablado/no hablado convencional. Tal
clasificador es ventajoso dado que difiere substancialmente para la
percepción humana la voz hablada y la voz no hablada. En particular,
mucha de la información incrustada en la voz no hablada es
perceptivamente irrelevante al oído humano. Como consecuencia, los
espectros de amplitud de los segmentos hablado y no hablado deberían
ser discretizados separadamente para lograr un máximo de eficiencia
de codificación. Debería ser notado que mientras las realizaciones
en este punto descritas son dirigidas a la discretización del
espectro hablado de amplitud, las características de la invención
presente también pueden ser aplicadas para discretizar voz no
hablada.
El discretizador de tono/cubierta espectral 1102
calcula la información del tono y de la cubierta espectral de
conformidad con las técnicas convencionales, como las técnicas
descritas con referencia a elementos 204, 206, y 210 de la figura 3,
y transmite la información al decodificador. La porción no hablada
es codificada y descodificada de una manera convencional en el
módulo de discretización no hablada 1103 y el módulo de
desdiscretización no hablada 1109, respectivamente. Por otra parte,
la porción hablada es primero enviada al módulo de extracción de
amplitud y fase 1104 para la extracción de la amplitud y de la fase.
Tal procedimiento de extracción puede estar logrado en un número de
formas convencionales conocidas por esos expertos en la técnica. Por
ejemplo, un método particular de extracción de amplitud y fase es la
interpolación de forma de onda prototipo, como es descrita en la
Patente de USA No. 5.884.253. En este método particular, la amplitud
y la fase en cada marco son extraídas de una forma de onda prototipo
teniendo una longitud de un periodo de tono. Otros métodos como esos
usados en el codificador de excitación multibanda (MBE por sus
siglas en inglés) y el codificador armónico de voz también pueden
ser utilizados por el módulo de extracción de amplitud y fase 1104.
El módulo de análisis del segmento hablado 1110 ventajosamente
ejecuta las operaciones inversas del módulo de extracción de
amplitud y fase 1104.
El módulo de discretización de fase 1106 y el
módulo de desdiscretización de fase 1108 ventajosamente pueden ser
implementados de una manera convencional. La siguiente descripción
con referencia a las figuras de la 8 a la 10 vale para describir con
más detalle el módulo de discretización de amplitud 1105 y el módulo
de desdiscretización de amplitud 1107.
Como se muestra en la figura 8, un módulo de
discretización de amplitud de conformidad con una realización
incluye un normalizador de energía de banda 1301, un discretizador
diferencial de potencia 1302, un tomador de muestras espectrales
decrecientes no uniforme 1303, un discretizador diferencial de
amplitud de banda baja 1304, un discretizador diferencial de
amplitud de banda alta 1305, un desdiscretizador diferencial de
amplitud de banda baja 1306, un desdiscretizador diferencial de
amplitud de banda alta 1307, un desdiscretizador diferencial de
potencia 1308, y un módulo de clonación armónico 1309 (mostrado dos
veces con el objeto de presentar mayor claridad en el dibujo).
Cuatro elementos de retraso de la unidad son también incluidos en el
módulo de discretización de amplitud. Como se muestra en la figura
9, un módulo de desdiscretización de amplitud de conformidad con una
realización incluye un desdiscretizador diferencial de amplitud de
banda baja 1401, un desdiscretizador diferencial de amplitud de
banda alta 1402, un integrador espectral 1403, un tomador de
muestras espectrales crecientes no uniforme 1404, un desnormalizador
de energía de banda 1405, un desdiscretizador diferencial de
potencia 1406, y un módulo de clonación armónico 1407 (mostrado dos
veces con el objeto de presentar mayor claridad en el dibujo).
Cuatro elementos de retraso de la unidad son también incluidos en el
módulo de desdiscretización de amplitud.
El primer paso en el proceso de discretización
de amplitud se determinan los factores de normalización de ganancia
utilizados en el normalizador de energía de banda 1301. Típicamente,
la forma de los espectros de amplitud puede ser codificada más
eficazmente en el discretizador diferencial de amplitud de banda
baja 1304 y el discretizador diferencial de amplitud de banda alta
1305 si los espectros de amplitud son primero normalizados. En el
normalizador de energía de banda 1301, la normalización de energía
es realizada separadamente en la banda baja y en la banda alta. La
relación entre un espectro no normalizado (denotado por
{A_{k}}) y un espectro normalizado (denotado por
{\tilde{\mathit{A}}_{k}}) es expresada en términos de dos
factores de ganancia, \alpha y \beta. Específicamente,
\alpha = \frac{1 .
0}{\sqrt{\sum\limits_{K_{1}} A^{2}_{k}}} \ ,
\hskip1cm\beta = \frac{1 . 0}{\sqrt{\sum\limits_{K_{2}} A^{2}_{k}}}
donde
\tilde{\mathit{A}}_{k} =
\alphaA_{k} \forallk \epsilon
K_{1}
\tilde{\mathit{A}}_{k} =
\betaA_{k} \forallk \epsilon
K_{2}
\global\parskip0.990000\baselineskip
K_{1} representa un conjunto de números
armónicos correspondiente a la banda baja, y K_{2}
representa un conjunto de números armónicos correspondiente a la
banda alta. El límite que separa la banda baja y la banda alta está
ventajosamente seleccionado para que sea a 1104 Hz en la realización
ilustrativa. (Como descrito a partir de este momento, este punto
particular de frecuencia realmente corresponde al borde derecho de
la banda #11, como se muestra en la figura 10). La gráfica de la
figura 11B muestra un ejemplo del espectro normalizado de amplitud.
El espectro original de amplitud es mostrado en la gráfica de la
figura 11A.
El espectro normalizado
{\tilde{\mathit{A}}_{k}} generado por el normalizador de
energía de banda 1301 es provisto al tomador de muestras
decrecientes espectrales no uniforme 1303, cuya operación se basa en
un conjunto de bandas predeterminadas, bandas no uniformes, como es
ilustrado en la figura 10. Ventajosamente hay veintidós bandas no
uniformes que se agrupan (también conocidas como depósitos de
frecuencia) en el rango entero de frecuencia, y los bordes de
depósito corresponden a los puntos fijos en la escala de frecuencia
(Hz). Debería ser notado que los tamaños de las primeras ocho bandas
son ventajosamente fijados a aproximadamente noventa y cinco Hz,
donde los tamaños de las bandas restantes aumentan logarítmicamente
con la frecuencia. Se debe reconocer el hecho de que el número de
bandas y los tamaños de banda no necesitan estar restringidos a las
realizaciones aquí descritas y pueden ser alterados sin irse de los
principios básicos de la invención presente.
El proceso de tomar muestras decrecientes
funciona como sigue. Cada armónico \tilde{\mathit{A}}_{k}
es asociado primero con un depósito de frecuencia. Luego, una
magnitud promedio de los armónicos en cada depósito es calculada. El
espectro resultante se convierte en un vector de veintidós valores
espectrales, denotados por B(i), i = 1,2, ...,
22. Debería ser notado que algunos depósitos pueden ser vacíos,
particularmente para los valores pequeños de retardo. El número de
armónicos en un espectro depende de la frecuencia fundamental. El
menor valor admisible de tono en los sistemas típicos de
codificación de voz es ventajosamente establecido en veinte
(asumiendo una frecuencia de muestreo de ocho kHz), lo cual
corresponde a sólo once armónicos. Por lo tanto, los depósitos
vacíos son inevitables.
Para facilitar el diseño y búsqueda en el
cifrado por bloques en presencia de depósitos vacíos, un parámetro
llamado peso del depósito, W(i), i = 1,2, ..., 22, es
designado para conocer en todo momento las posiciones de los
depósitos vacíos. Al parámetro W(i) ventajosamente se
le asigna cero para depósitos vacíos y uno para depósitos ocupados.
Esta información de peso del depósito puede ser usada en las rutinas
convencionales VQ a fin de descartar depósitos vacíos durante la
búsqueda y entrenamiento del cifrado por bloques. Debería ser notado
que {W(i)} es función de sólo la frecuencia
fundamental. Por consiguiente, ninguna información de peso del
depósito necesita ser transmitida al decodificador.
El tomador de muestras decrecientes no uniforme
1303 vale para dos propósitos importantes. En primer lugar, el
vector de amplitud de dimensión variable es integrado en un vector
de dimensión fija con los correspondientes pesos de depósito. Así,
las técnicas convencionales VQ pueden ser aplicadas para discretizar
el vector del que se tomó muestras decrecientes. En segundo lugar,
el acercamiento del depósito no uniforme saca provecho del hecho que
el oído humano tiene una resolución de frecuencia que es una función
no lineal de la escala de frecuencia (similar a la escala Bark).
Mucha de la información irrelevante desde el punto de vista de la
percepción es descartada durante el proceso de tomar muestras
decrecientes para realzar la eficiencia de codificación.
Como es bien conocido en la técnica, el
logaritmo de la señal de potencia es perceptivamente más relevante
que la señal de potencia en sí misma. Así, la discretización de los
dos factores de ganancia, \alpha y \beta, es realizada en el
dominio logarítmico en una manera diferencial. Debido a los errores
del canal, es ventajoso inyectar un poco de fuga en el discretizador
diferencial. Así, \alpha y \beta, pueden ser discretizados y
desdiscretizados en por el discretizador diferencial de potencia
1302 y el desdiscretizador diferencial de potencia 1308,
respectivamente, según la siguiente expresión:
[log(\tilde{\alpha}_{N}) \
log(\tilde{\beta}_{N})] = \rho
[log(\tilde{\alpha}_{N-1}) \
log(\tilde{\beta}_{N-1})] + Q[log(\alpha
_{N}) - \rho log(\tilde{\alpha}_{N-1}) \ log(\beta
_{N}) - \rho
log(\tilde{\beta}_{N-1})]
Donde N-1 y N denota las veces
de dos factores sucesivos de ganancia extraídos, y Q(.)
representa la operación diferencial de discretización. El parámetro
\rho funciona como un factor de fuga para impedir propagación
indefinida de error de canal. En los sistemas típicos de
codificación de voz, el valor \rho está entre 0.6 y 0.99. La
ecuación mostrada anteriormente ilustra un proceso autorregresivo
(AR por sus silgas en inglés). De modo semejante, un esquema de
media móvil (MA por sus siglas en inglés) también puede ser aplicado
para reducir la sensibilidad a errores del canal. A diferencia del
proceso AR, la propagación de error está limitada por la estructura
no recursiva del decodificador en un esquema MA.
Un cifrado por bloques de tamaño sesenta y
cuatro o 128 es suficiente para discretizar \alpha y \beta con
calidad excelente. El índice I_{power} resultante del
cifrado por bloques es transmitido al decodificador. Con referencia
también a la figura 9, el desdiscretizador diferencial de potencia
1406 en el decodificador es ventajosamente idéntico al
desdiscretizador diferencial de potencia 1308 en el codificador, y
el desnormalizador de energía de banda 1405 en el decodificador
realiza ventajosamente la operación inversa del normalizador de
energía de banda 1301 en el codificador.
Después que el tomado de muestras espectrales
decrecientes es realizado por el tomador de muestras espectrales
decrecientes no uniforme 1303, {B(i)} es separado en
dos conjuntos antes de ser discretizado. La banda baja
{B(i = 1,2, ..., 11)} es provista al discretizador
diferencial de amplitud de banda baja 1304. La banda alta
{B(i = 12, ..., 22)} es provista al discretizador
diferencial de amplitud de banda alta 1305. La banda alta y la banda
baja son cada una discretizada en una manera diferencial. El vector
diferencial es calculado de conformidad con la siguiente
ecuación:
\Delta B_{N} =
B_{N} - \hat{B}
_{N-1}
donde
\hat{\mathit{B}}_{N-1} representa la
versión discretizada del vector previo. Cuando hay una discrepancia
entre los dos vectores correspondientes de peso (esto es,
W_{N} \neq W_{N-1} causado por
una discrepancia de atraso entre los espectros previo y actual), el
resultante \DeltaB_{N-1} puede contener
valores erróneos que afectarían el funcionamiento del discretizador.
Por ejemplo, si el retraso previo L_{prev} es cuarenta y
tres y el retraso actual L_{curr} es cuarenta y cuatro, los
vectores de peso correspondientes calculados según el esquema de
ubicación mostrado en la figura 10
serían:
W_{N-1} =
{0,0,1,0,1,0,1,1,0,1, ...}
W_{N} = {0,1,0,1,0,1,0,1,0,1, ...}
En este caso, los valores erróneos ocurrirían en
i = 2,4,6 en \DeltaB_{N}(i) donde la
siguiente expresión booleana es verdadera:
W_{N}(i) = 1 \capW_{N-1}(i) = 0
Debería ser notado que la otra clase de
incompatibilidad, W_{N}(i) = 0 \cap
W_{N-1}(i) = 1, que ocurre en
i = 3,5,7 en este ejemplo, no afectaría el funcionamiento del
discretizador. Porque estos depósitos tienen pesos cero de cualquier
manera (esto es, W_{N}(i) = 0), estos depósitos
serían automáticamente ignorados en los procedimientos
convencionales de búsqueda ponderada.
En una realización una técnica denotada
clonación armónica se usa para manipular vectores de peso
incompatibles. La técnica de clonación armónica modifica
{\hat{\mathit{B}}_{N-1}} a
{\hat{\mathit{B}}'_{N-1}} de manera que
todos los depósitos vacíos en
{\hat{\mathit{B}}'_{N-1}} están
temporalmente llenos por armónicos, antes de calcular
\DeltaB_{N}. Los armónicos son clonados de los vecinos de
las partes derechas si L_{prev} < L_{curr}. Los
armónicos clonados de los vecinos de las partes izquierda si
L_{prev} < L_{curr}. El proceso armónico de
clonación es ilustrado por el siguiente ejemplo. Suponga
{\hat{\mathit{B}}_{N-1}} tiene los
valores espectrales W, X, Y, Z,... para los primeros cuatro
depósitos no vacíos. Usando el mismo ejemplo anterior
(L_{prev} = 43 y L_{curr} = 44),
{\hat{\mathit{B}}'_{N-1}} puede ser
calculado clonando de los vecinos de las partes derecha (porque
L_{prev} < L_{curr}):
clonar de la derecha
donde 0 representa un depósito
vacío.
Si el vector B_{N} es
entonces,
El clonado armónico es implementado en el
codificador y en el decodificador, específicamente en los módulos
armónicos de clonación 1309, 1407. De modo similar para el caso del
discretizador de ganancia 1302, un factor de la fuga \rho puede
ser aplicado a la discretización espectral para impedir una
propagación indefinida de error en presencia de errores de canal.
Por ejemplo, \DeltaB_{N} puede ser logrado mediante
\Delta B_{N} =
B_{N} - \rho \tilde{B}'
_{N-1}
También, para obtener mejor rendimiento, el
discretizador diferencial de amplitud de banda baja 1304 y el
discretizador diferencial de amplitud de banda alta 1305 puede
utilizar peso espectral para calcular el estimado de error de modo
similar a ese usado convencionalmente para discretizar la señal
residual en un codificador CELP.
Los índices I_{amp1} e
I_{amp2} son los índices del cifrado por bloques de banda
baja y de banda alta que son transmitidos al decodificador. En una
realización particular, ambos discretizadores diferenciales de
amplitud 1304, 1305 requieren de un total de aproximadamente doce
bits (600 bits por segundo) para lograr salida de calidad de
tarifa.
En el decodificador, el tomador de muestras
espectrales crecientes no uniforme 1401 toma muestras crecientes de
los veintidós valores espectrales a sus dimensiones originales (el
número de elementos en el vector se convierte en veintidós en el
tomado de muestras decrecientes, y regresa al número original en el
tomado de muestras crecientes). Sin significativamente aumentar la
complejidad computacional, tal tomado de muestras crecientes puede
ser ejecutado por técnicas convencionales de interpolación lineal.
Las gráficas de las figuras 11 de la A a la C ejemplifican un
espectro del que se tomó muestras crecientes. Debería ser notado que
el desdiscretizador diferencial de amplitud de banda baja 1401 y el
desdiscretizador diferencial de amplitud de banda alta 1402 en el
decodificador son ventajosamente idénticos a sus respectivas
contrapartidas en el codificador, el desdiscretizador diferencial de
amplitud de banda baja 1306 y el desdiscretizador diferencial de
amplitud de banda alta 1307.
Las realizaciones antes descritas desarrollan
una técnica nueva de discretización de amplitud que toma ventaja
completa de la resolución no lineal de frecuencia de los oídos
humanos, y al mismo tiempo alivia el uso del VQ de dimensión
variable. Una técnica de codificación que presenta las
características de la invención de este instante a sido exitosamente
aplicada a un sistema de codificación de voz PWI, necesitando tan
solo dieciocho bits/marco (900 bits por segundo) para representar el
espectro de amplitud de una forma de onda prototipo para lograr una
salida de calidad de tarifa (con espectros de fase no
discretizados). Como esos expertos en la técnica fácilmente se
apreciarían, una técnica de discretización que presenta las
características de la invención de este instante podría ser aplicada
a cualquier forma de información espectral, y no necesita estar
restringida a la información de amplitud espectral. Como esos
expertos en la técnica además apreciarían, los principios de la
invención presente no están restringidos a los sistemas de
codificación de voz PWI, sino que son aplicables a muchos otros
algoritmos de codificación de voz que poseen el espectro de amplitud
como un parámetro explícito de codificación, como, por ejemplo, MBE
y STC.
Mientras un número de realizaciones específicas
han sido mostradas y descritas en esta, debe entenderse que estas
realizaciones son meramente ilustrativas de las muchas
configuraciones específicas posibles que pueden ser ideadas en la
aplicación de los principios de la invención presente. Otras
configuraciones numerosas y variadas pueden ser ideadas de
conformidad con estos principios por esos de expertos en la técnica
sin desviarse del alcance de la invención. Por ejemplo, una
modificación leve de los bordes de banda (o el tamaño del depósito)
en la representación no uniforme de banda mostrada en la figura 10
no pueden causar una diferencia significativa en la calidad de voz
resultante. También, la partición de la frecuencia que separa el
espectro de banda baja y el espectro de banda alta en el
discretizador diferencial de amplitud de banda baja y el circundan
discretizador diferencial de amplitud de banda alta mostrado en la
figura 8 (el cual, en una realización, es establecido en 1104 Hz)
pueden ser alterados sin mucho impacto en la calidad de percepción
resultante. Además, aunque las realizaciones arriba descritas han
sido dirigidas con vistas a un método para el uso en la codificación
de amplitudes en la voz o señales residuo, será obvio a esos
expertos en la técnica que las técnicas de la invención presente
también puede ser aplicadas a la codificación de señales de
audio.
Por lo tanto, un esquema nuevo de discretización
de amplitud para codificadores de voz de tasa bajas de bits ha sido
descrito. Esos expertos en la técnica entenderían que los varios
bloques lógicos ilustrativos y pasos de algoritmo descritos con
respecto a las realizaciones reveladas en este punto pueden ser
implementados o realizados con un procesador de señales digitales
(DSP por sus siglas en inglés), un circuito integrado para
aplicaciones específicas (ASIC por sus siglas en inglés), circuitos
de compuerta lógica o de transistores, componentes discretos de
hardware como, por ejemplo, los registros y FIFO, un procesador
ejecutando un conjunto de instrucciones de soporte lógico
inalterable, o cualquier módulo convencional de software programable
y un procesador. El procesador ventajosamente puede ser un
microprocesador, pero en la alternativa, el procesador puede ser
cualquier procesador convencional, controlador, microcontrolador, o
cualquier máquina de estados. El módulo del software podría radicar
en memoria RAM, memoria de destello, registros, o cualquier otra
forma de medio de almacenamiento escribible conocido en la técnica.
Esos expertos apreciarían además que los datos, las instrucciones,
los comandos, la información, las señales, los bits, los símbolos, y
los chips que puede ser referenciados a todo lo largo de la
descripción citada anteriormente están ventajosamente representadas
por voltajes, corrientes, ondas electromagnéticas, campos magnéticos
o partículas, partículas o campos ópticos, o cualquier combinación
de estos.
Realizaciones preferidas de la invención
presente han sido así mostradas y descritas. Sería aparente a un
experto en la técnica, sin embargo, que numerosas alteraciones
pueden ser hechas a las realizaciones reveladas hasta este punto sin
apartarse del alcance de la invención. Por consiguiente, la
invención presente no está limitada excepto de acuerdo a las
siguientes reivindicaciones.
Claims (29)
1. Un método de discretizar información
espectral para un codificador de voz, el método comprende:
- extraer un vector de información espectral de dimensión variable de un marco, teniendo el vector un valor vectorial de energía;
- normalizar (1301) el vector de información espectral para generar un vector normalizado de información espectral, dicho normalizador (1301) comprende:
- normalizar separadamente el vector de información espectral en subbandas primera y segunda para determinar un componente de la información espectral para cada uno de las subbandas; y
- determinar un factor de ganancia para cada una de las subbandas; y
- multiplicar cada una de las componentes de la información espectral por sus factores respectivos de ganancia;
- discretizar vectorial diferencialmente (1302) los factores de ganancia;
- tomar no uniformemente muestras decrecientes (1303) del vector normalizado de información espectral para generar un vector de la dimensión fija que tiene una pluralidad de elementos asociados con una pluralidad respectiva de bandas no uniformes de frecuencia;
- separar en el vector de dimensión fija en un subvector para cada una de las subbandas; y
- discretizar diferencialmente (1304,1305) la pluralidad de subvectores.
2. El método de la reivindicación 1, que
consiste además en formar un vector de peso de banda de frecuencia
para almacenar las posiciones de los elementos correspondientes a
las bandas de frecuencia vacías.
3. El método de la reivindicación 1, en el
que la extracción comprende extraer un vector de información del
espectro de amplitud.
4. El método de la reivindicación 1, en el
que el marco es un marco de voz.
5. El método de la reivindicación 1, en el
que el marco es un marco de residuo de predicción lineal.
6. El método de la reivindicación 1, en el
que discretizar vectorial diferencialmente (1302) se realiza en el
dominio logarítmico.
7. El método de la reivindicación 1, en el
que discretizar vectorial diferencialmente (1302) comprende además
minimizar la fuga durante la discretización para impedir la
propagación indefinida de los errores del canal.
8. El método de la reivindicación 1, en el
que la pluralidad de bandas no uniformes de frecuencia comprende
veintidós bandas no uniformes de frecuencia.
9. El método de la reivindicación 1, en el
que tomar muestras decrecientes no uniformemente (1303) comprende
asociar una pluralidad de armónicos con la pluralidad de bandas de
frecuencia no uniforme, y calcular una magnitud promedio de los
armónicos en cada banda de frecuencia, y en el que los elementos del
vector de dimensión fija son los valores de magnitud promedio de los
armónicos para cada banda de frecuencia.
10. El método de la reivindicación 1, en el que
discretizar diferencialmente (1304, 1305) comprende el clonado
armónico (1309).
11. El método de la reivindicación 1, en el que
discretizar diferencialmente (1304, 1305) comprende además minimizar
la fuga durante la discretización para prevenir la propagación
indefinida de los errores del canal.
12. El método de la reivindicación 1, en el que
discretizar diferencialmente (1304, 1305) comprende además calcular
los estimados de error con una técnica de pesado espectral.
13. El método de la reivindicación 1, que
comprende además decodificar los factores de ganancia para generar
factores de ganancia decodificados, decodificar los valores
discretizados resultantes de discretizar diferencialmente para
generar información espectral normalizada decodificada, tomar
muestras crecientes (1404) de la información espectral normalizada
decodificada, y desnormalizar (1405) la información espectral
decodificada, normalizada y de la que se tomó muestras crecientes
con los factores de ganancia decodificados.
14. El método de la reivindicación 1, en el que
el codificador de voz reside en una unidad suscripta (10) de un
sistema de comunicación inalámbrico.
15. Un codificador de voz, que incluye:
- medios para extraer un vector de información espectral de dimensión variable de un marco, teniendo el vector un valor vectorial de energía;
- medios (1301) para normalizar el vector de información espectral para generar un vector normalizado de información espectral, comprendiendo dichos medios para normalización:
- medios para normalizar separadamente el vector de información espectral en las subbandas primera y segunda para determinar un componente de la información espectral para cada una de las subbandas;
- medios para determinar un factor de ganancia para cada una de las subbandas; y
- medios para multiplicar cada uno de los componentes de la información espectral por sus respectivos factores de ganancia;
- medios (1302) para discretizar vectorial diferencialmente los factores de ganancia;
- medios (1303) para tomar no uniformemente muestras decrecientes del vector normalizado de información espectral para generar un vector de dimensión fija que tiene una pluralidad de elementos asociada con una respectiva pluralidad de bandas de frecuencia no uniformes;
- medios para dividir el vector de dimensión fija en un subvector para cada una de las subbandas; y
- medios (1304, 1305) para discretizar diferencialmente la pluralidad de subvectores.
16. El codificador de voz de la reivindicación
15, que comprende además medios para formar un vector de peso de
banda de frecuencia para almacenar la ubicación de los elementos que
corresponden a las bandas de frecuencia vacías.
17. El codificador de voz de la reivindicación
15, en el que los medios de extracción comprenden medios para
extraer un vector de información del espectro de amplitud.
18. El codificador de voz de la reivindicación
15, en el que el marco es un marco de voz.
19. El codificador de voz de la reivindicación
15, en el que el marco es un marco residuo de predicción lineal.
20. El codificador de voz de la reivindicación
15, en el que los medios para discretizar vectorial diferencialmente
(1302) comprenden medios para discretizar vectorial diferencialmente
en el dominio logarítmico.
21. El codificador de voz de la reivindicación
15, en el que los medios para discretizar vectorial diferencialmente
(1302) comprenden además medios para minimizar la fuga durante la
discretización para impedir la propagación indefinida de los errores
del canal.
22. El codificador de voz de la reivindicación
15, en el que la pluralidad de bandas de frecuencia no uniformes
comprende veintidós bandas de frecuencia no uniformes.
23. El codificador de voz de la reivindicación
15, en el que los medios para tomar muestras decrecientes no
uniformemente (1303) comprenden medios para asociar una pluralidad
de armónicos con la pluralidad de bandas de frecuencia no uniformes,
y medios para calcular una magnitud promedio de los armónicos en
cada banda de frecuencia, y en el que los elementos del vector de
dimensión fija son los valores armónicos de magnitud promediados
para cada banda de frecuencia.
24. El codificador de voz de la reivindicación
15, en el que los medios para discretizar diferencialmente (1304,
1305) comprenden medios (1309) para realizar clonado armónico.
25. El codificador de voz de la reivindicación
15, en el que los medios para discretizar diferencialmente
(1304,1305) comprenden además medios para minimizar la fuga durante
la discretización para impedir la propagación indefinida de los
errores del canal.
26. El codificador de voz de la reivindicación
15, en el que los medios para discretizar diferencialmente (1304,
1305) comprenden además medios para calcular los estimados de error
con una técnica de pesado espectral.
27. El codificador de voz de la reivindicación
15, comprende además medios para decodificar los factores de
ganancia para generar factores de ganancia decodificados, y para
decodificar valores discretizados generados por los medios para
discretizar diferencialmente para generar información espectral
normalizada decodificada, medios para tomar muestras crecientes
(1404) de la información espectral normalizada decodificada, y
medios para desnormalizar (1405) la información espectral
normalizada, decodificada y de la que se tomó muestras crecientes
con la pluralidad de los factores de ganancia decodificados.
28. El codificador de voz de la reivindicación
15, en el que el codificador de voz reside en una unidad suscripta
(10) de un sistema de comunicación inalámbrico.
29. El codificador de voz de cualquiera de las
reivindicaciones desde la 15 hasta la 28, en el que los subvectores
comprenden un subvector de banda alta y un subvector de banda
baja.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/356,756 US6324505B1 (en) | 1999-07-19 | 1999-07-19 | Amplitude quantization scheme for low-bit-rate speech coders |
US356756 | 1999-07-19 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2265958T3 true ES2265958T3 (es) | 2007-03-01 |
Family
ID=23402824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES00950430T Expired - Lifetime ES2265958T3 (es) | 1999-07-19 | 2000-07-18 | Discretizacion de magnitud espectral para un codificador de voz. |
Country Status (13)
Country | Link |
---|---|
US (1) | US6324505B1 (es) |
EP (1) | EP1204969B1 (es) |
JP (1) | JP4659314B2 (es) |
KR (2) | KR100898324B1 (es) |
CN (1) | CN1158647C (es) |
AT (1) | ATE324653T1 (es) |
AU (1) | AU6353600A (es) |
BR (1) | BRPI0012542B1 (es) |
CY (1) | CY1106119T1 (es) |
DE (1) | DE60027573T2 (es) |
ES (1) | ES2265958T3 (es) |
HK (1) | HK1047817A1 (es) |
WO (1) | WO2001006493A1 (es) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6456964B2 (en) * | 1998-12-21 | 2002-09-24 | Qualcomm, Incorporated | Encoding of periodic speech using prototype waveforms |
SE9903553D0 (sv) | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
AU4072400A (en) * | 1999-04-05 | 2000-10-23 | Hughes Electronics Corporation | A voicing measure as an estimate of signal periodicity for frequency domain interpolative speech codec system |
KR100434538B1 (ko) * | 1999-11-17 | 2004-06-05 | 삼성전자주식회사 | 음성의 천이 구간 검출 장치, 그 방법 및 천이 구간의음성 합성 방법 |
US7260523B2 (en) * | 1999-12-21 | 2007-08-21 | Texas Instruments Incorporated | Sub-band speech coding system |
GB0005515D0 (en) * | 2000-03-08 | 2000-04-26 | Univ Glasgow | Improved vector quantization of images |
ATE420432T1 (de) * | 2000-04-24 | 2009-01-15 | Qualcomm Inc | Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen |
US6937979B2 (en) * | 2000-09-15 | 2005-08-30 | Mindspeed Technologies, Inc. | Coding based on spectral content of a speech signal |
US6947888B1 (en) * | 2000-10-17 | 2005-09-20 | Qualcomm Incorporated | Method and apparatus for high performance low bit-rate coding of unvoiced speech |
US7606703B2 (en) * | 2000-11-15 | 2009-10-20 | Texas Instruments Incorporated | Layered celp system and method with varying perceptual filter or short-term postfilter strengths |
US7013269B1 (en) * | 2001-02-13 | 2006-03-14 | Hughes Electronics Corporation | Voicing measure for a speech CODEC system |
US6996523B1 (en) * | 2001-02-13 | 2006-02-07 | Hughes Electronics Corporation | Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system |
US6931373B1 (en) * | 2001-02-13 | 2005-08-16 | Hughes Electronics Corporation | Prototype waveform phase modeling for a frequency domain interpolative speech codec system |
US20050234712A1 (en) * | 2001-05-28 | 2005-10-20 | Yongqiang Dong | Providing shorter uniform frame lengths in dynamic time warping for voice conversion |
KR100841096B1 (ko) * | 2002-10-14 | 2008-06-25 | 리얼네트웍스아시아퍼시픽 주식회사 | 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법 |
US7272557B2 (en) * | 2003-05-01 | 2007-09-18 | Microsoft Corporation | Method and apparatus for quantizing model parameters |
EP3118849B1 (en) * | 2004-05-19 | 2020-01-01 | Fraunhofer Gesellschaft zur Förderung der Angewand | Encoding device, decoding device, and method thereof |
EP1814438B8 (en) * | 2004-11-08 | 2009-04-01 | Koninklijke Philips Electronics N.V. | Safe identification and association of wireless sensors |
KR100851970B1 (ko) * | 2005-07-15 | 2008-08-12 | 삼성전자주식회사 | 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치 |
TWI358056B (en) * | 2005-12-02 | 2012-02-11 | Qualcomm Inc | Systems, methods, and apparatus for frequency-doma |
KR101244310B1 (ko) * | 2006-06-21 | 2013-03-18 | 삼성전자주식회사 | 광대역 부호화 및 복호화 방법 및 장치 |
US9454974B2 (en) * | 2006-07-31 | 2016-09-27 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor limiting |
WO2008045846A1 (en) * | 2006-10-10 | 2008-04-17 | Qualcomm Incorporated | Method and apparatus for encoding and decoding audio signals |
CN101483495B (zh) * | 2008-03-20 | 2012-02-15 | 华为技术有限公司 | 一种背景噪声生成方法以及噪声处理装置 |
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
CN101630509B (zh) * | 2008-07-14 | 2012-04-18 | 华为技术有限公司 | 一种编解码方法、装置及系统 |
KR101301245B1 (ko) * | 2008-12-22 | 2013-09-10 | 한국전자통신연구원 | 스펙트럼 계수의 서브대역 할당 방법 및 장치 |
US8930185B2 (en) * | 2009-08-28 | 2015-01-06 | International Business Machines Corporation | Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program |
US8898057B2 (en) * | 2009-10-23 | 2014-11-25 | Panasonic Intellectual Property Corporation Of America | Encoding apparatus, decoding apparatus and methods thereof |
US8990094B2 (en) * | 2010-09-13 | 2015-03-24 | Qualcomm Incorporated | Coding and decoding a transient frame |
WO2014165032A1 (en) * | 2013-03-12 | 2014-10-09 | Aawtend, Inc. | Integrated sensor-array processor |
US10204638B2 (en) | 2013-03-12 | 2019-02-12 | Aaware, Inc. | Integrated sensor-array processor |
US10049685B2 (en) | 2013-03-12 | 2018-08-14 | Aaware, Inc. | Integrated sensor-array processor |
KR20150032390A (ko) * | 2013-09-16 | 2015-03-26 | 삼성전자주식회사 | 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법 |
EP3637620A1 (en) * | 2013-11-07 | 2020-04-15 | Telefonaktiebolaget LM Ericsson (publ) | Methods and devices for vector segmentation for coding |
US9628266B2 (en) * | 2014-02-26 | 2017-04-18 | Raytheon Bbn Technologies Corp. | System and method for encoding encrypted data for further processing |
JP6724932B2 (ja) * | 2018-01-11 | 2020-07-15 | ヤマハ株式会社 | 音声合成方法、音声合成システムおよびプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0815261B2 (ja) * | 1991-06-06 | 1996-02-14 | 松下電器産業株式会社 | 適応変換ベクトル量子化符号化法 |
ES2225321T3 (es) * | 1991-06-11 | 2005-03-16 | Qualcomm Incorporated | Aparaato y procedimiento para el enmascaramiento de errores en tramas de datos. |
JP3237178B2 (ja) * | 1992-03-18 | 2001-12-10 | ソニー株式会社 | 符号化方法及び復号化方法 |
US5884253A (en) | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
US5581653A (en) | 1993-08-31 | 1996-12-03 | Dolby Laboratories Licensing Corporation | Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder |
US5517595A (en) | 1994-02-08 | 1996-05-14 | At&T Corp. | Decomposition in noise and periodic signal waveforms in waveform interpolation |
TW295747B (es) * | 1994-06-13 | 1997-01-11 | Sony Co Ltd | |
JP3353266B2 (ja) * | 1996-02-22 | 2002-12-03 | 日本電信電話株式会社 | 音響信号変換符号化方法 |
-
1999
- 1999-07-19 US US09/356,756 patent/US6324505B1/en not_active Expired - Lifetime
-
2000
- 2000-07-18 WO PCT/US2000/019602 patent/WO2001006493A1/en active IP Right Grant
- 2000-07-18 DE DE60027573T patent/DE60027573T2/de not_active Expired - Lifetime
- 2000-07-18 ES ES00950430T patent/ES2265958T3/es not_active Expired - Lifetime
- 2000-07-18 AU AU63536/00A patent/AU6353600A/en not_active Abandoned
- 2000-07-18 EP EP00950430A patent/EP1204969B1/en not_active Expired - Lifetime
- 2000-07-18 BR BRPI0012542-3A patent/BRPI0012542B1/pt active IP Right Grant
- 2000-07-18 JP JP2001511668A patent/JP4659314B2/ja not_active Expired - Lifetime
- 2000-07-18 KR KR1020077017220A patent/KR100898324B1/ko active IP Right Grant
- 2000-07-18 KR KR1020027000727A patent/KR100898323B1/ko active IP Right Grant
- 2000-07-18 AT AT00950430T patent/ATE324653T1/de active
- 2000-07-18 CN CNB008130469A patent/CN1158647C/zh not_active Expired - Lifetime
-
2002
- 2002-12-30 HK HK02109402A patent/HK1047817A1/xx unknown
-
2006
- 2006-07-10 CY CY20061100958T patent/CY1106119T1/el unknown
Also Published As
Publication number | Publication date |
---|---|
WO2001006493A1 (en) | 2001-01-25 |
CY1106119T1 (el) | 2011-06-08 |
DE60027573D1 (de) | 2006-06-01 |
EP1204969B1 (en) | 2006-04-26 |
JP2003505724A (ja) | 2003-02-12 |
KR20020013965A (ko) | 2002-02-21 |
CN1158647C (zh) | 2004-07-21 |
AU6353600A (en) | 2001-02-05 |
BRPI0012542B1 (pt) | 2015-07-07 |
HK1047817A1 (en) | 2003-03-07 |
CN1375096A (zh) | 2002-10-16 |
EP1204969A1 (en) | 2002-05-15 |
KR100898323B1 (ko) | 2009-05-20 |
ATE324653T1 (de) | 2006-05-15 |
KR20070087222A (ko) | 2007-08-27 |
US6324505B1 (en) | 2001-11-27 |
BR0012542A (pt) | 2002-11-26 |
JP4659314B2 (ja) | 2011-03-30 |
KR100898324B1 (ko) | 2009-05-20 |
DE60027573T2 (de) | 2007-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2265958T3 (es) | Discretizacion de magnitud espectral para un codificador de voz. | |
ES2360176T3 (es) | Alisamiento de discontinuidades entre tramas de habla. | |
ES2287122T3 (es) | Procedimiento y aparato para cuantificar de manera predictiva habla sonora. | |
KR100912030B1 (ko) | 무선 통신 시스템에서 비대칭 스피치 코더를 사용하여 비대칭 링크를 생성하는 방법 및 장치 | |
ES2264420T3 (es) | Metodo y aparato para entrelazar metodos de discretizacion de informacion espectral en un codificador de voz. | |
ES2240121T3 (es) | Metodo y aparato para mantener un volumen determinado de bits en un audiocodificador. | |
JP2008040509A (ja) | 位相スペクトル情報をサブサンプリングする方法および装置 | |
ES2276690T3 (es) | Particion de espectro de frecuencia de una forma de onda prototipo. | |
RU2440628C2 (ru) | Системы и способы затенения первого пакета, соответствующего первой битовой скорости, во втором пакете, соответствующем второй битовой скорости |