ES2264420T3 - Metodo y aparato para entrelazar metodos de discretizacion de informacion espectral en un codificador de voz. - Google Patents
Metodo y aparato para entrelazar metodos de discretizacion de informacion espectral en un codificador de voz.Info
- Publication number
- ES2264420T3 ES2264420T3 ES00950441T ES00950441T ES2264420T3 ES 2264420 T3 ES2264420 T3 ES 2264420T3 ES 00950441 T ES00950441 T ES 00950441T ES 00950441 T ES00950441 T ES 00950441T ES 2264420 T3 ES2264420 T3 ES 2264420T3
- Authority
- ES
- Spain
- Prior art keywords
- vector
- hat
- voice
- discretization
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 110
- 230000003595 spectral effect Effects 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 143
- 238000004891 communication Methods 0.000 claims description 20
- 238000013139 quantization Methods 0.000 abstract description 5
- 230000005540 biological transmission Effects 0.000 description 10
- 230000007704 transition Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 239000002699 waste material Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- IRLPACMLTUPBCL-KQYNXXCUSA-N 5'-adenylyl sulfate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](COP(O)(=O)OS(O)(=O)=O)[C@@H](O)[C@H]1O IRLPACMLTUPBCL-KQYNXXCUSA-N 0.000 description 1
- 101150012579 ADSL gene Proteins 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
- G10L2019/0005—Multi-stage vector quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Analogue/Digital Conversion (AREA)
- Image Processing (AREA)
- Processing Of Color Television Signals (AREA)
Abstract
Un codificador de voz (200) que comprende: un filtro predictivo lineal (206) configurado para analizar un marco y generar un vector de codificación de información espectral de línea basado en esto; y un discretizador (210) acoplado al filtro predictivo lineal y configurado para discretizar vectorialmente (504) el vector de información espectral de línea con una primera técnica de discretización vectorial que usa un esquema de discretización vectorial basada en predicciones de media no móvil, en donde el discretizador (210) es además configurado para calcular (510) vectores de codificación de media móvil equivalentes para la primera técnica, actualizar (512) con los vectores de codificación de media móvil equivalentes una memoria de un código cifrado de media móvil de vectores de codificación para un número predefinido de marcos que fueron previamente procesados por el codificador de voz, calcular (502) un vector de discretización objetivo para la segunda técnica basado en la memoria actualizada de código cifrado de media móvil, discretizar vectorialmente (506) el vector de discretización objetivo con una segunda técnica de discretización vectorial para generar un vector de codificación objetivo discretizado, la segunda técnica de discretización vectorial que usa un esquema basado en predicciones de media móvil, actualizar (512) la memoria del código cifrado de media móvil con el vector de codificación objetivo discretizado, y calcular (508) vectores de información espectral de línea discretizados del vector de codificación objetivo discretizado.
Description
Método y aparato para entrelazar métodos de
discretización de información espectral en un codificador de
voz.
La invención presente pertenece en general al
campo del procesamiento de voz, y más específicamente a los métodos
y aparatos para la discretización de información espectral de línea
en codificadores de voz.
La transmisión de voz mediante técnicas
digitales se ha generalizado, particularmente en largas distancias y
en aplicaciones radiodifusoras de teléfono digital. Esto, a su vez,
ha creado interés en determinar la cantidad mínima de información
que puede ser enviada por un canal mientras se mantiene la calidad
percibida en la voz reconstruida. Si la voz es transmitida
simplemente tomando muestras y digitalizando, entonces una tasa de
datos del orden de los sesenta y cuatro kilo bits por segundo (kbps,
por sus siglas en inglés) es requerida para lograr la calidad de voz
del teléfono analógico convencional. Sin embargo, a través del uso
de análisis de voz, seguido por la codificación apropiada, la
transmisión, y la resíntesis en el aparato receptor, una reducción
significativa en la tasa de datos puede ser
lograda.
lograda.
Los dispositivos para codificar voz encuentran
uso en muchos campos de las telecomunicaciones. Un campo típico son
las comunicaciones inalámbricas. El campo de las comunicaciones
inalámbricas tiene muchas aplicaciones incluyendo, por ejemplo, los
teléfonos inalámbricos, localización, ciclos locales inalámbricos,
la telefonía inalámbrica como los sistemas de telefonía móvil y PCS,
telefonía móvil mediante protocolo de Internet (IP por sus siglas en
inglés), y los sistemas de comunicación de satélite. Una aplicación
particularmente importante es la telefonía inalámbrica para
suscriptores móviles.
Varias interfaces sobre el aire han sido
desarrolladas para sistemas de comunicación inalámbrica incluyendo,
por ejemplo, acceso múltiple por división de frecuencia (FDMA por
sus siglas en inglés), acceso múltiple por división de tiempo (TDMA
por sus siglas en inglés), y el acceso múltiple por división de
código (CDMA por sus siglas en inglés). En conexión con eso,
diversos estándares domésticos e internacionales han sido
establecidas incluyendo, por ejemplo, Servicio Telefónico Móvil
Avanzado (AMPS), Sistema Global para Comunicaciones Móviles (GSM por
sus siglas en inglés), y Estándar Ínterin 95
(IS-95). Un sistema de comunicación de telefonía
inalámbrica típico es un sistema de acceso múltiple por división de
código (CDMA por sus siglas en inglés). El estándar
IS-95 y sus derivados, IS-95A, ANSI
J-STD-008, IS-95B,
propusieron los estándares de tercera generación
IS-95C e IS-2000, etc.
(referenciados colectivamente en lo adelante como
IS-95), es promulgado por la Asociación
Internacional de Estándares (TIA por sus siglas en inglés) y otras
bien conocidas organizaciones de estándares para especificar el uso
de una interfaz CDMA sobre el aire para los sistemas de comunicación
de telefonía móvil o para los sistemas de comunicación de telefonía
PCS. Sistemas de comunicación inalámbricos típicos configurados
sustancialmente de acuerdo al uso del estándar IS-95
están descritos en la Patente de USA Nos. 5.103.459 y 4.901.307, los
cuales son asignados al apoderado de la presente invención.
Dispositivo que emplean técnicas para codificar
voz de la planilla extrayendo parámetros que guardan relación con
un modelo de generación de voz humana son llamados codificadores de
voz. Un codificador de voz divide la señal de voz entrante en
bloques de tiempo, o marcos de análisis. Los codificadores de voz
típicamente comprenden un codificador y un decodificador. El
codificador analiza el marco entrante de voz para extraer ciertos
parámetros relevantes, y luego discretiza los parámetros en una
representación binaria, esto es, en un conjunto de bits o un paquete
de datos binarios. Los paquetes de datos son transmitidos sobre el
canal de comunicación a un receptor y un decodificador. El
decodificador procesa los paquetes de datos, los desdiscretiza para
producir los parámetros, y resintetiza los marcos de voz usando los
parámetros no discretizados.
La función del codificador de voz es comprimir
la señal de voz digitalizada en una señal de tasa baja de bits
quitando todas las redundancias naturales inherentes a la voz. La
compresión digital es lograda representando el marco de voz de
entrada con un conjunto de parámetros y utilizando la discretización
para representar los parámetros con un conjunto de bits. Si el marco
de voz de entrada tiene un número de bits N_{i} y el paquete de
datos producido por el codificador de voz tiene un número de bits
N_{0}, el factor de compresión que logrado por el codificador de
voz es C_{r} = N_{i} | N_{0}. El reto es mantener una alta
calidad de voz de la voz decodificada mientras se lograr el factor
de compresión deseado. El comportamiento de un codificador de voz
depende de (1) cuán bien el modelo de voz, o la combinación del
proceso de análisis y el de síntesis descrito arriba, se comporta, y
(2) cuán bien es realizado el proceso de discretización de
parámetros con la tasa de bits objetivo N_{0} bits por marco. La
meta del modelo de voz es entonces captar la esencia de la señal de
voz, o la calidad de voz objetivo, con un conjunto pequeño de
parámetros para cada marco.
Quizás lo más importante en el diseño de un
codificador de voz es la búsqueda de un buen conjunto de parámetros
(incluyendo vectores) para describir la señal de voz. Un buen
conjunto de parámetros requiere un sistema con ancho de banda bajo
para la reconstrucción de una señal de voz perceptiblemente precisa.
El tono, el poder de la señal, la cubierta espectral (o formants),
la amplitud y los espectros de fase son ejemplos de los parámetros
de codificación de voz.
Los codificadores de voz pueden ser
implementados como codificadores de dominio de tiempo, los cuales
intentan captar la onda de voz de dominio de tiempo empleando
procesamiento de alta resolución de tiempo para codificar segmentos
pequeños de voz (típicamente submarcos de 5 milisegundos (ms)) a la
vez. Para cada submarco, una representación de alta precisión de un
espacio de código cifrado es encontrada por medio de varios
algoritmos de búsqueda conocidos en la técnica. Alternativamente,
los codificadores de voz pueden ser implementados como codificadores
de dominio de frecuencia, los que intentan capturar el espectro de
voz de corto plazo del marco de voz de entrada con un conjunto de
parámetros (análisis) y utilizar un proceso correspondiente de
síntesis para recrear la onda de voz a partir de los parámetros
espectrales. El discretizador de parámetros conserva los parámetros
representándolos con representaciones almacenadas de vectores de
codificación de acuerdo a técnicas de discretización conocidas
descritas en A. Gersho y R.M. Gray, VectorQuantization and Signal
Compression (1992).
Un codificador de voz de dominio de tiempo muy
conocido es el codificador Predictivo Linear de Código Excitado
(CELP por sus siglas en inglés) descrito en L.B. Rabiner y R.W.
Schafer, Digital Processing of Speech Signals
396-453 (1978). En un codificador CELP, las
correlaciones de corto plazo, o redundancias, en la señal de voz son
eliminadas mediante un análisis de lineal predicción (LP por sus
siglas en inglés), el cual encuentra los coeficientes de un filtro
del formant de corto plazo. Aplicar el filtro de predicción de corto
plazo al marco de voz entrante genera una señal de residuo LP, la
cual es luego modelada y discretizada con parámetros de filtro de
predicción de largo plazo y un subsiguiente código cifrado
estocástico. Así, la codificación CELP divide la tarea de codificar
la onda de voz de dominio de tiempo en las tareas separadas de
codificar los coeficientes del filtro LP de corto plazo y codificar
el residuo LP. La codificación por dominios de tiempo puede ser
realizada a una tasa fija (esto es, usando el mismo número de bits,
N_{0}, para cada marco) o en una tasa variable (en las cuales las
tasas de bits diferentes se utilizan para diferentes tipos de
contenidos de marco). Los codificadores de tasa variable intentan
usar sólo la cantidad de bits necesaria para codificar los
parámetros de codificador a un nivel adecuado para obtener la
calidad objetivo. Un codificador típico de tasa variable CELP es
descrito en U.S. Patent No. 5.414.796, el cual es asignado al
apoderado de la invención presente.
Los codificadores de dominio de tiempo como el
codificador CELP típicamente dependen de un número alto de bits,
N_{0}, por marco para conservar la exactitud de la onda de voz de
dominio de tiempo. Tales codificadores típicamente dan una calidad
de voz excelente dado el número de bits, N_{0}, por marco
relativamente grande (por ejemplo, 8 kilo bits por segundo o
superior). Sin embargo, a tasas de bits bajas (4 kilo bits por
segundo e inferior), los codificadores del dominio de tiempo no
pueden retener alta calidad y comportamiento robusto debido al
número limitado de bits disponibles. A tasas de bits bajas, el
espacio limitado de código cifrado recorta la capacidad de pareo de
la onda de los codificadores convencionales de dominio de tiempo,
los cuales son desarrollados de manera exitosa en aplicaciones
comerciales de tasa más alta. Por lo tanto, a pesar de mejoras con
el paso del tiempo, muchos sistemas codificadores CELP que operan a
tasas de bits bajas padecen perceptiblemente una distorsión
significativa típicamente caracterizada como ruido.
Existe actualmente una oleada de interés de
investigación y fuerte necesidad comercial para desarrollar un
codificador de voz de alta calidad funcionando a tasas en bits
medias (esto es, en el rango de 2.4 a 4 kilo bits por segundo y
menor). Las áreas de aplicación incluyen telefonía inalámbrica,
comunicaciones por satélite, telefonía por Internet, diversas
aplicaciones multimedia y de flujo de voz, correo de voz, y otros
sistemas de almacenamiento de voz. Las fuerzas motrices son la
necesidad de capacidad alta y la demanda de comportamiento robusto
bajo situaciones de pérdida de paquete. Varios esfuerzos recientes
de estandarización de codificación de voz son otra fuerza motriz
directiva que propulsa la investigación y el desarrollo de
algoritmos codificadores de voz de tasa baja. Un codificador de voz
de tasa baja crea más canales, o usuarios, por ancho de banda de
aplicación admisible, y un codificador de voz de tasa baja acoplado
con una capa adicional de codificación canales adecuado puede lograr
el total de bit presupuesto de las especificaciones del codificador
y puede permitir un comportamiento robusto bajo condiciones de error
del canal.
Una técnica efectiva para codificar voz
eficazmente en tasas en bits bajo es codificación multimodo. Una
técnica multimodo típica de codificación es descrita en
US-A-2002/0099548, titulada
"Codificacion de voz de tasa variable", archivada el 21 de
diciembre de 1998, asignada al apoderado de la invención presente.
Los codificadores multimodo convencionales aplican modos diferentes,
o algoritmos de codificación-decodificación, a tipos
diferentes de marcos de voz de entrada. Cada modo, o procesamiento
de codificación-decodificación, está hecho a la
medida para representar de manera óptima un cierto tipo de segmento
de voz, como, por ejemplo, de voz hablada, de voz no hablada, voz de
transición (por ejemplo, entre la hablada y la no hablada), y el
ruido de fondo (no voz) en la manera más eficiente. Un mecanismo
externo de decisión de modo de ciclo abierto examina el marco de voz
de entrada y toma una decisión relativa a cuál modo aplicar al
marco. La decisión de modo de ciclo abierto es típicamente realizada
extrayendo un número de parámetros del marco de entrada, evaluando
los parámetros en lo que se refiere a ciertas características
temporales y espectrales, y basando una decisión de modo según la
evaluación.
El artículo "Classified nonlinear predictive
vector quantization of speech spectral parameters" (Loo J H Y
et al, ICASSP 1996) revela intercalación periódica de dos
métodos de discretización.
En muchos codificadores convencionales de voz,
la información de la línea espectral como los pares de línea
espectral o los cosenos de la línea espectral son transmitidos sin
sacar provecho de la naturaleza del estado estable de la voz no
hablada mediante la codificación de los marcos de voz hablada sin
reducir la tasa de codificación suficientemente. Por lo tanto, el
ancho de banda valioso es desaprovechado. En otros codificadores
convencionales de voz, los codificadores multimodo de voz, o los
codificadores de voz de baja de tasa de bits, la naturaleza del
estado estable de la voz hablada es aprovechada para cada marco.
Consecuentemente, los marcos de estado no estable degradan, y la
calidad de voz sufre. Sería ventajoso proporcionar un método
adaptable de codificación que reaccionara a la naturaleza del
contenido de la voz de cada marco. Además, como la señal de voz es
generalmente de estado no estable, o no estacionario, la eficiencia
de discretización de los parámetros de información espectral de
línea (LSI por sus siglas en inglés) usados en la codificación de
voz podría ser mejorada utilizando un esquema en el cual los
parámetros LSI de cada marco de voz son codificados selectivamente
ya sea utilizando discretización vectorial (VQ por sus siglas en
inglés) basada en predicciones de la media móvil (MA por sus siglas
en inglés) o utilizando otros métodos estándar VQ. Tal esquema
sacaría provecho adecuadamente de las ventajas de cualquiera de los
dos métodos VQ citados anteriormente. Por lo tanto, sería deseable
proporcionar un codificador de voz que interpusiera los dos métodos
VQ mediante un mezclado apropiado de los dos esquemas en las
fronteras de transición de un método al otro. Es así que, hay una
necesidad de un codificador de voz que utilice múltiples métodos de
discretización vectorial para adaptarse a los cambios entre marcos
periódicos y marcos no periódicos.
La invención presente está dirigida a un
codificador de voz que utilice múltiples métodos de discretización
vectorial para que se adapte a cambios entre marcos periódicos y
marcos no periódicos. Consecuentemente, en un aspecto de la
invención, un codificador de voz incluye ventajosamente un filtro
lineal predictivo configurado para analizar un marco y generar un
vector de codificación de información espectral de línea basado en
este; y un discretizador acoplado al filtro predictivo lineal y
configurado para discretizar vectorialmente el vector de
información espectral de línea con una primera técnica de
discretización vectorial que usa un esquema de discretización
vectorial basado en predicciones de media no móvil, en donde el
discretizador es configurado además para calcular vectores de
codificación de media móvil equivalentes para la primera técnica,
actualizar con los vectores de codificación de media móvil
equivalentes una memoria de un código de cifrado de media móvil de
vectores de codificación para un número predefinido de marcos que
fueron previamente procesados por el codificador de voz, calcular un
vector de discretización objetivo para la segunda técnica basado en
la memoria actualizada de código cifrado de media móvil, discretizar
vectorialmente el vector de discretización objetivo con una segunda
técnica de discretización vectorial para generar un vector de
codificación objetivo discretizado, la segunda técnica de
discretización vectorial usando un esquema basado en predicciones de
media móvil, actualiza la memoria del código cifrado de media móvil
con el vector de codificación objetivo discretizado, y calcula los
vectores de información espectral de línea discretizada del vector
de codificación objetivo discretizado.
En otro aspecto de la invención, un método de
discretizar vectorialmente un vector de información espectral de
línea de un marco, usando las técnicas de discretización de
discretización de vector primera y segunda, la primera técnica
usando un esquema de discretización vectorial basado en predicciones
de media no móvil, la segunda técnica usando un esquema de
discretización vectorial basada en predicciones de media móvil,
ventajosamente incluyen los pasos de discretizar vectorialmente el
vector de información espectral de línea con la primera técnica de
discretización vectorial; calculando los vectores de codificación de
media móvil equivalentes para la primera técnica; actualizando con
los vectores de codificación de media móvil equivalentes una memoria
de un código cifrado de media móvil de vectores de codificación para
un número predefinido de marcos que fueron previamente procesados
por el codificador de voz; calculando un vector de discretización
objetivo para la segunda técnica basado en la memoria actualizada de
código cifrado de media móvil; discretizando vectorialmente el
vector de discretización objetivo con la segunda técnica de
discretización vectorial para generar un vector de codificación
objetivo discretizado; actualizando la memoria del código cifrado de
media móvil con el vector de codificación objetivo discretizado; y
deduciendo vectores de información espectral de línea discretizados
del vector de codificación objetivo discretizado.
En otro aspecto de la invención, un codificador
de voz ventajosamente incluye medios para el discretizar
vectorialmente un vector de información espectral de línea de un
marco con una primera técnica de discretización vectorial que usa un
esquema de discretización vectorial basada en predicciones de media
no móvil; medios para calcular vectores de codificación de media
móvil equivalentes para la primera técnica; medios para actualizar
con los vectores de codificación de media móvil equivalentes una
memoria de un código cifrado de media móvil de vectores de
codificación para un número predefinido de marcos que fueron
previamente procesados por el codificador de voz; medios para
calcular un vector de discretización objetivo para una segunda
técnica que usa un esquema de discretización vectorial basada en
predicciones de media móvil basada en la memoria actualizada de
código cifrado de media móvil; medios para el discretizar
vectorialmente el vector de discretización objetivo con la segunda
técnica de discretización vectorial para generar un vector de
codificación objetivo discretizado; medios para actualizar la
memoria del código cifrado de media móvil con el vector de
codificación objetivo discretizado; y medios para deducir vectores
de información espectral de línea discretizados del vector de
codificación objetivo discretizado.
La figura 1 es un diagrama de bloques de un
sistema telefónico inalámbrico.
La figura 2 es un diagrama de bloques de un
canal de comunicación terminado en cada extremo por codificadores de
voz.
La figura 3 es un diagrama de bloques de un
codificador.
La figura 4 es un diagrama de bloques de un
decodificador.
La figura 5 es un diagrama de flujo que ilustra
un proceso de decisión de codificación de voz.
La figura 6A es una gráfica de la amplitud de la
señal de voz versus tiempo, y la figura 6B es una gráfica de
amplitud de residuo de predicción lineal (LP por sus siglas en
inglés) versus tiempo.
La figura 7 es un diagrama de flujo que ilustra
los pasos de un método realizados por un codificador de voz para
intercalar dos métodos de discretización vectorial (VQ por sus
siglas en inglés) de información espectral de línea (LSI por sus
siglas en inglés).
Las realizaciones típicas descritas aquí radican
en un sistema de comunicación de telefonía inalámbrica configurado
para utilizar una interfaz sobre el aire CDMA. No obstante, sería
comprendido por esos expertos en la técnica que las características
de un método de submuestreo y de la realización del aparato de la
invención actual pueden residir en cualquiera de los sistemas de
comunicación que emplean una gran variedad de tecnologías conocidas
por esos expertos en la técnica.
Como es ilustrado en la figura 1, un sistema
telefónico inalámbrico CDMA generalmente incluye una pluralidad de
unidades móviles suscritas 10, una pluralidad de estaciones base 12,
controladores de estación base (BSCs por sus siglas en inglés) 14, y
un centro conmutativo móvil (MSC por sus siglas en inglés) 16. El
MSC 16 es configurado para interconectarse con una red telefónica
conmutativa pública convencional (PSTN por sus siglas en inglés) 18.
El MSC 16 es también configurado para interconectar con los BSCs 14.
Los BSCs 14 están acoplados a las estaciones base 12 a través de
líneas de transmisión. Las líneas de transmisión pueden ser
configuradas para soportar cualquiera de varias interfaces
conocidas incluyendo, por ejemplo, E1/T1, ATM, IP, PPP, Frame Relay,
HDSL, ADSL, o xDSL. Es entendido que pueden ser más de dos BSCs 14
en el sistema. Cada estación base 12 ventajosamente incluye al menos
un sector (no mostrado), cada sector comprende una antena
omnidireccional o una antena apuntada en una dirección específica
radialmente fuera de la estación base 12. Alternativamente, cada
sector puede comprender dos antenas para una recepción diversa. Cada
estación base 12 ventajosamente puede estar diseñada para dar
soporte a una pluralidad de asignaciones de frecuencias. La
intersección de un sector y una asignación de frecuencias pueden
ser referidas como un canal CDMA. Las estaciones base 12 también
pueden ser conocidas como subsistemas
transmisores-receptores de estaciones base (BTSs)
12. Alternativamente, "estación base" puede ser usada en la
industria para referirse colectivamente a un BSC 14 y a uno o más
BTSs 12. Los BTSs 12 también pueden ser denotados como "sitios
celulares" 12. Alternativamente, los sectores individuales de un
BTS 12 dado pueden ser referidos como sitios celulares. Las unidades
móviles suscritas 10 son típicamente teléfonos móviles o de PCS 10.
El sistema es ventajosamente configurado para el uso en conformidad
con el estándar IS-95.
Durante la operación típica del sistema
telefónico móvil, las estaciones base 12 reciben conjuntos de
señales enlace inversas de conjuntos de unidades móviles 10. Las
unidades móviles 10 conducen llamadas telefónicas u otras
comunicaciones. Cada señal enlace inversa recibida por una estación
base 12 dada es procesada dentro de esa estación base 12. Los datos
resultantes son reenviados a los BSCs 14. Los BSCs 14 proveen
ubicación de la fuente de llamada y funcionalidad de administración
de movilidad incluyendo la orquestación de pases suaves entre
estaciones base 12. Los BSCs 14 también enrutan los datos recibidos
del MSC 16, que provee servicios adicionales de ruteo para la
interfaz del PSTN 18. De modo semejante, el PSTN 18 interconecta con
el MSC 16, y el MSC 16 interconecta con los BSCs 14, el cual en
cambio controla estaciones base 12 para transmitir conjuntos de
señales de enlace reenviadas a conjuntos de unidades móviles 10.
En la figura 2 un primer codificador 100 recibe
muestras de voz digitalizadas s(n) y codifican las muestras
s(n) para la transmisión en un medio de transmisión 102, o
en un canal de comunicación 102, a un primer decodificador 104. El
decodificador 104 decodifica las muestras de voz codificadas y
sintetiza una señal de voz de salida S_{SYNTH}(n). Para la
transmisión en la dirección opuesta, un segundo codificador 106
codifica muestras de voz digitalizada s(n), las cuales son
transmitidas en un canal de comunicación 108. Un segundo
decodificador 110 recibe y decodifica las muestras de voz
codificadas, generando una señal sintetizada de voz de salida
S_{SYNTH}(n).
Las muestras de voz s(n) representan
señales de voz que han sido digitalizadas y discretizadas de acuerdo
a cualquiera de varios métodos conocidos en la técnica incluyendo,
por ejemplo, modulación de código por pulso (PCM por sus siglas en
inglés), la \mu-ley de
compresión-expansión, o A-ley. Como
conocidas en la técnica, las muestras de voz s(n) son
organizadas en marcos de datos de entrada en donde cada marco
comprende un número predeterminado de muestras de voz digitalizada
s(n). En una realización típica, una tasa de muestreo de 8
Khz. es empleada, con marcos cada 20 ms para un total de 160
muestras. En las realizaciones descritas abajo, la tasa de
transmisión de datos ventajosamente puede ser variada en una base
marco a marco de 13.2 kbps (tasa máxima) a 6.2 kbps (tasa media) a
2.6 kbps (un cuarto de tasa) a 1 kbps (un octavo de tasa). Variar la
tasa de transmisión de datos es ventajoso porque más bajas tasa de
bit pueden ser selectivamente utilizadas para marcos que contienen
relativamente menos información de voz. Como entendido por esos
expertos en la técnica, otras tasas de muestreo, tamaños del marco,
y las tasas de transmisión de datos pueden ser usadas.
El primer codificador 100 y el segundo
decodificador 110 conjuntamente comprenden un primer codificador de
voz, o un codificador-decodificador de voz. El
codificador de voz podría ser usado en cualquier dispositivo de
comunicación para transmitir señales de voz, incluyendo, por
ejemplo, las unidades suscritas, BTSs, o BSCs descritos arriba con
referencia a la figura 1. De modo semejante, el segundo codificador
106 y el primer decodificador 104 conjuntamente comprenden un
segundo codificador de voz. Es entendido por esos expertos en la
técnica que los codificadores de voz pueden ser implementados con un
procesador de señales digitales (PSD por sus siglas en inglés), un
circuito integrado para aplicaciones específicas (ASIC por sus
siglas en inglés), lógica de compuerta discreta, soporte lógico
inalterable, o cualquier módulo programable convencional del
software y un microprocesador. El módulo del software podría radicar
en memoria RAM, en memoria de destello, registros, o cualquier otra
forma de medio de almacenamiento escribible conocido en la técnica.
Alternativamente, cualquier procesador convencional, controlador, o
máquina de estado podría ser substituido por el microprocesador. Los
ASICs típicos diseñados específicamente para la codificación de voz
están descritos en U.S. Patent No. 5.727.123, asignado al apoderado
de la invención presente, y US-A-5
7845 32, archivado el 16 de febrero de 1994, asignado al apoderado
de la invención presente.
En la figura 3 un codificador 200 que puede ser
usados en un codificador de voz incluye un módulo de decisión de
modo 202, un módulo de estimación de tono 204, un módulo de análisis
LP 206, un filtro de análisis LP 208, un módulo de discretización LP
210, y un módulo de discretización de residuo 212. Los marcos de voz
de entrada s(n) les son provistos al módulo de decisión de
modo 202, al módulo de estimación de tono 204, al módulo de análisis
LP 206, y al filtro de análisis LP 208. El módulo de decisión de
modo 202 produce un índice de modo I_{m} y un modo M de
basado en la periodicidad, energía, relación señal/ruido (SNR por
sus siglas en inglés), o tasa de cruce cero, entre otras
características, de cada marco de voz de entrada s(n).
Varios métodos para clasificar marcos de voz según la periodicidad
son descritos en U.S. Patent No. 5.911.128, la cual está asignada al
apoderado de la invención presente. Tales métodos son también
incorporados en los Estándares Interinos de la Asociación de la
Industria de las Telecomunicaciones TIA/EIA IS-127 y
TIA/EIA IS-733. Un esquema típico de decisión de
modo está también descrito en dicho
US-A-2002/0099548.
El módulo de estimación de tono 204 produce un
índice de tono I_{p} y un valor de retraso P_{0} basado en cada
marco de voz de entrada s(n). El módulo de análisis LP 206
realiza análisis predictivo lineal en cada marco de voz de entrada
s(n) para generar un parámetro LP \alpha. El parámetro LP
\alpha le es provisto al módulo de discretización LP 210. El
módulo de discretización LP 210 también recibe el modo M,
por consiguiente realiza el proceso de discretización en una manera
dependiente del modo. El módulo de discretización LP 210 produce un
índice LP I_{LP} y un parámetro discretizado LP \hat{\alpha}.
El filtro de análisis LP 208 recibe el parámetro LP discretizado
\hat{\alpha} además del marco de voz de entrada s(n). El
filtro de análisis LP 208 genera una señal de residuo LP
R[n], lo cual representa el error entre los marcos de voz de
entrada s(n) y la voz reconstruida basado en los parámetros
discretizados estimados linealmente \hat{\alpha}. El residuo LP
R[n], el modo M, y el parámetro LP discretizado
\hat{\alpha} le son provistos al módulo de discretización de
residuo 212. Basado en estos valores, el módulo de discretización de
residuo 212 produce un índice de residuo I_{R} y una señal de
residuo discretizada \hat{R}[n].
En la figura 4 un decodificador 300 que puede
ser usado en un codificador de voz incluye un módulo de
decodificación de parámetro LP 302, un módulo de decodificación de
residuo 304, un módulo de decodificación de modo 306, y un filtro de
síntesis LP 308. El módulo de decodificación de modo 306 recibe y
decodifica un índice de modo I_{M}, generando de allí un modo
M. El módulo de decodificación de parámetro LP 302 recibe el
modo M y un índice LP I_{LP}. El módulo de decodificación
de parámetro LP 302 decodifica los valores recibidos para producir
un parámetro discretizado LP \hat{\alpha}. El módulo de
decodificación de residuo 304 recibe un índice de residuo I_{R},
un índice de tono I_{P}, y el índice de modo I_{M}. El módulo
de decodificación de residuo 304 decodifica los valores recibidos
para generar una señal discretizada de residuo \hat{R}[n].
La señal discretizada del residuo \hat{R}[n] y el parámetro
discretizado LP \hat{\alpha} le son provisto al filtro de síntesis
LP 308, el cual sintetiza una señal decodificada de voz de salida
\hat{s}[n] de allí.
La operación y la implementación de los varios
módulos del codificador 200 de la figura 3 y del decodificador 300
de la figura 4 son conocidas en la técnica y descritos en la
mencionada anteriormente U.S. Patent No. 5.414.796 y L.B. Rabiner y
R.W. Schafer, Digital Processing of Speech Signals
396-453 (1978).
Como es ilustrado en el diagrama de flujo de la
figura 5, un codificador de voz de acuerdo a una realización sigue
un conjunto de pasos en el procesamiento de muestras de voz a ser
transmitidas. En el paso 400 que el codificador de voz recibe
muestras digitales de señales de voz en marcos sucesivos. Al recibir
un marco dado, el codificador de voz procede al paso 402. En el paso
402 el codificador de voz detecta la energía del marco. La energía
es una medida de la actividad de voz del marco. La detección de voz
es realizada sumando los cuadrados de las amplitudes de las muestras
digitalizadas de voz y comparando la energía resultante con un valor
umbral. En una realización el valor umbral se adapta basado en el
nivel cambiante de ruido de fondo. Un detector típico de actividad
de voz de umbral variable como es descrito en la mencionada
anteriormente U.S. Patent No. 5.414.796. Algunos sonidos de voz no
hablada pueden ser muestras de energía sumamente baja que pueden ser
codificadas equivocadamente como ruido de fondo. Para impedir que
esto de ocurrir, la inclinación espectral de muestras de energía
baja puede usarse para distinguir la voz no hablada del ruido de
fondo, como es descrita en la mencionada anteriormente U.S. Patent
No. 5.414.796.
Después de detectar la energía del marco, el
codificador de voz procede al paso 404. En el paso 404 el
codificador de voz determina si la energía del marco detectada es
suficiente para clasificar el marco como que contiene información de
voz. Si la energía del marco detectada es menor que un nivel umbral
predefinido, entonces el codificador de voz procede al paso 406. En
el paso 406 el codificador de voz codifica el marco como de ruido de
fondo (esto es, no voz, o silencio). En una realización el marco de
ruido de fondo es codificado a 1/8 de la tasa, o 1 kbps. Si en el
paso 404 la energía del marco detectada alcanza o excede el nivel
predefinido del umbral, el marco es clasificado como de voz y el
codificador de voz procede al paso 408.
En el paso 408 que el codificador de voz
determina si el marco es de voz no hablada, esto es, el codificador
de voz examina la periodicidad del marco. Varios métodos conocidos
de determinación de periodicidad incluyen, por ejemplo, el uso de
cruces cero y el uso de funciones de autocorrelación normalizada
(NACFs por sus siglas en inglés). En particular, el uso de cruces
cero y NACFs para detectar periodicidad es descrito en la mencionada
anteriormente U.S. Patent No. 5.911.128 y
US-A-2002/0099548. Además, los
métodos citados anteriormente usados para hacer la distinción de la
voz hablada de la voz no hablada son incorporados en los Estándares
Interinos de la Asociación de la Industria de las Telecomunicaciones
TIA/EIA IS-127 y TIA/EIA IS-733. Si
se determina que el marco es de voz no hablada en el paso 408,
entonces el codificador de voz procede al paso 410. En el paso 410
el codificador de voz codifica el marco como voz no hablada. En una
realización los marcos de voz no hablada están codificados a un
cuarto de la tasa, o 2.6 kbps. Si en el paso 408 no se determina que
el marco es de voz no hablada, entonces el codificador de voz
procede al paso 412.
En el paso 412 el codificador de voz determina
si el marco es de voz de transición, usando métodos de detección de
periodicidad que son conocidos en la técnica, como son descrito en,
por ejemplo, la mencionada anteriormente U.S. Patent No. 5.911.128.
Si se determina que el marco es voz de transición, entonces el
codificador de voz procede al paso 414. En el paso 414 el marco es
codificado como de voz de transición (esto es, la transición de la
voz no hablada a la voz hablada). En una realización el marco de voz
de transición es codificado de acuerdo a un método de codificación
de interpolación multipulso descrito en
US-B-6260017, titulada
"Codificación por interpolacion multipulso de marcos de voz de
transición", archivada el 7 de mayo de 1999, asignada al
apoderado de la invención presente. En otra realización el marco de
voz de transición es codificado a tasa completa, o 13.2 kbps.
Si en el paso 412 el codificador de voz
determina que el marco no es de voz de transición, el codificador de
voz pasa al paso 416. En el paso 416 el codificador de voz codifica
el marco como de voz de transición. En una realización los marcos de
voz hablada pueden ser codificados a media tasa, o 6.2 kbps. Es
posible también codificar los marcos de voz hablada a tasa completa,
o 13.2 kbps (o tasa completa, 8 kbps, en un codificador 8k CELP).
Esos expertos en la técnica apreciarían, sin embargo, que codificar
marco de voz a media tasa permite al codificador ahorrar ancho de
banda valioso sacando provecho de la naturaleza de estado estable de
los marcos hablados. Además, a pesar de la tasa usada para
codificar la voz hablada, la voz hablada es ventajosamente
codificada mediante el uso de la información de los marcos
anteriores, y por lo tanto se dice que ha sido codificada de manera
predictiva.
Esos expertos apreciarían que tanto la señal de
voz como el residuo LP correspondiente pueden ser codificados
siguiendo los pasos mostrados en la figura 5. Las características de
onda del ruido, de la voz no hablada, de la voz de transición, y de
la voz hablada pueden ser vistas como una función en el tiempo en la
gráfica de la figura 6A. Las características de onda del ruido, del
residuo no hablado, del residuo de transición, y del residuo hablado
LP pueden ser visto como una función en el tiempo en la gráfica de
la figura 6B.
En una realización un codificador de voz ejecuta
los pasos de algoritmo mostrados en el diagrama de flujo de la
figura 7 para intercalar dos métodos de discretización vectorial (VQ
por sus siglas en inglés) de la información espectral de línea (LSI
por sus siglas en inglés). El codificador de voz ventajosamente
computa estimaciones del vector de código cifrado de media móvil (MA
pos sus siglas en inglés) equivalente para una VQ LSI basada en una
predicción no MA, que permite al codificador de voz intercalar dos
métodos de integración VQ LSI. En un esquema basado en predicciones
MA, un MA es calculado para un número previamente tratado de
marcos, P, el MA que va siendo calculado mediante la multiplicación
de los pesos de los parámetros por las entradas vectoriales
respectivas de código cifrado, como es descrito debajo. El MA es
sustraído del vector de entrada de los parámetros LSI para generar
un vector de discretización objetivo, también como es descrito más
abajo. Sería fácilmente apreciado por esos expertos en la técnica
que el método VQ basado en una predicción no MA puede ser cualquier
método conocido de VQ que no emplee un el esquema VQ basado en
predicciones MA.
Los parámetros LSI son típicamente
discretizados, ya sea mediante el uso VQ con predicción MA
intermarco o mediante el uso de cualquier otro método estándar VQ
basado en predicción no MA como, por ejemplo, VQ dividido, VQ
multietapa (MSVQ por sus siglas en inglés), VQ predictivo
intercambiado (SPVQ por sus siglas en inglés), o una combinación de
una cierta cantidad o todos estos. En la realización descrita con
referencia a la figura 7, un esquema es utilizado para mezclar
cualquiera de los métodos anteriormente citados de VQ con un método
VQ basado en predicciones MA. Esto es deseable porque mientras un
método VQ basado en predicciones MA se usa obtener el mejor
provecho en marcos de voz que son de naturaleza de estado estable, o
estacionarios, (la cual exhibe señales como esas mostradas para
marcos de voz estacionarios en las figuras 6A-B), un
método VQ basado en predicción no MA es usado para obtener el mejor
provecho en marcos de voz que son de naturaleza de estado no
estable, no estacionarios, (la cual exhibe señales como esas
mostradas para marcos de voz no hablada y marcos de transición en
las figuras 6A-B).
En esquemas VQ basados en predicciones no MA
para discretizar los parámetros LSI de N dimensiones, el vector de
entrada para el marco M-ésimo, L_{M} \equiv {L^{n}_{M}; n =
0,1, .., N - 1} es usado directamente como el objetivo para la
discretización y es discretizado al vector \hat{L}_{M} \equiv
{\hat{L}^{n}_{M}; n = 0,1, .., N - 1} usando cualquiera de las
técnicas VQ estándar anteriormente citadas.
En el esquema típico de predicción de intermarco
MA, el objetivo para la discretización es calculado como
donde {\hat{U}^{n}_{M - 1},
\hat{U}^{n}_{M - 2}, .., \hat{U}^{n}_{M - P}; n = 0,1, .., N -
1} son las entradas del código cifrado correspondiente a los
parámetros LSI de los P marcos procesados inmediatamente antes del
marco P, y {\alpha_{1}^{n}, \alpha_{2}^{n}, ..,
\alpha^{n}_{P}; n = 0,1, .., N - 1} son los pesos respectivos de
manera que {\alpha_{1}^{n} + \alpha_{2}^{n} +, ..,
\alpha^{n}_{P} = 1; n = 0,1, .., N - 1}. El objetivo de
discretización U_{M} es entonces discretizado usando cualquiera
de las técnicas VQ anteriormente citadas. El vector discretizado LSI
es calculado como
sigue:
El esquema de predicción MA requiere la
presencia de los valores pasados de las entradas de código cifrado,
{\hat{U}_{M - 1}, \hat{U}_{M - 2}, ..., \hat{U}_{M - P}}, de
los pasados P marcos. Mientras las entradas de código cifrado están
automáticamente disponibles para esos marcos (entre los pasados P
marcos) que fueron ellos mismos discretizados utilizando el esquema
MA, el resto de los pasados P marcos pudieron ser discretizado
usando una método VQ basado en predicción no MA, y las entradas
correspondientes del código cifrado (\hat{U}) no están
disponibles directamente para estos marcos. Esto dificulta mezclar,
o intercalar, los dos métodos VQ citados anteriormente.
En la realización descrita con referencia a la
figura 7, la siguiente ecuación se usa ventajosamente para calcular
estimaciones, \tilde{\hat{U}}_{M - K}, de la entrada de código
cifrado \hat{U}_{M - K} en los casos de K \in {1, 2,
..., P} la entrada de código cifrado \hat{U}_{M - K} no está
explícitamente disponible:
donde {\beta_{1}^{n},
\beta_{2}^{n}, .., \beta_{P}^{n}; n = 0,1, .., N - 1} son los
pesos respectivos de manera que {\beta_{1}^{n} + \beta_{2}^{n}
+, .., + \beta_{P}^{n} = 1; n = 0,1, .., N - 1}, y con la
condición inicial de {\tilde{\hat{U}}_{-1},
\tilde{\hat{U}}_{-2}, ..., \tilde{\hat{U}}_{-P}}. Una condición
inicial típica es {\tilde{\hat{U}}_{-1} = \tilde{\hat{U}}_{-2}
=, ..., = \tilde{\hat{U}}_{-P} = L^{B}}, donde L^{B} son los
valores prejuiciados de los parámetros LSI. Lo que sigue es un
conjunto típico de
pesos:
En el paso 500 del diagrama de flujo de la
figura 7, el codificador de voz determina si se debe discretizar el
vector L_{M} de entrada LSI con una técnica VQ basada en
predicciones MA. Esta decisión se basa ventajosamente en el
contenido de la voz del marco. Por ejemplo, los parámetros LSI para
marcos hablados estacionarios son discretizados para obtener mejor
provecho para con un método VQ basado en predicciones MA, mientras
que los parámetros LSI para marcos no hablados y los marcos de
transición son discretizados para obtener mejor provecho con un
método VQ basado en predicción no MA. Si el codificador de voz
decide discretizar el vector de entrada LSI con una técnica VQ
basada en predicciones MA, entonces el codificador de voz procede al
paso 502. Si, por otra parte, el codificador de voz decide no
discretizar el vector L_{M} de entrada LSI con una técnica VQ
basada en predicciones MA, entonces el codificador de voz procede al
paso 504.
En el paso 502 el codificador de voz calcula el
objetivo U_{M} para la discretización de acuerdo a la ecuación
(1) arriba. El codificador de voz luego procede al paso 506. En el
paso 506 el codificador de voz discretiza el objetivo U_{M} de
acuerdo a cualquier de las diversas técnicas generales VQ que son
bien conocidos en la técnica. El codificador de voz luego procede al
paso 508. En el paso 508 el codificador de voz calcula el vector
\hat{L}_{M} de los parámetros LSI discretizados a partir del
objetivo discretizado \hat{U}_{M} de acuerdo a la ecuación (2)
arriba.
En el paso 504 el codificador de voz discretiza
el objetivo L_{M} de acuerdo a cualquiera de las diversas técnicas
VQ basadas en predicción no MA que son bien conocidas en la técnica.
(Como esos expertos en la técnica entenderían, el vector objetivo
para la discretización en una técnica VQ basada en predicción no MA
es L_{M}, y no U_{M}.) El codificador de voz luego procede al
paso 510. En el paso 510 el codificador de voz calcula los vectores
de codificación \tilde{\hat{U}}_{M} equivalentes MA a partir
del vector \hat{L}_{M} de los parámetros LSI discretizados de
acuerdo a la ecuación (3) arriba.
En el paso 512 el codificador de voz utiliza el
objetivo \hat{U}_{M} discretizado obtenido en el paso 506 y los
vectores de codificación \tilde{\hat{U}}_{M} equivalentes MA
obtenidos en el paso 510 para actualizar la memoria de los vectores
de código cifrado de MA de los pasados P marcos. La memoria
actualizada de los vectores de código cifrado de MA de los pasados P
marcos es luego usada en el paso 502 para calcular el objetivo
U_{M} para la discretización para el vector L_{M + 1} LSI de
entrada para el siguiente marco.
Entonces, un aparato y método nuevo para
intercalar métodos de discretización de información espectral de
línea en un codificador de voz ha sido descrito. Esos expertos en la
técnica entenderían que los varios bloques lógicos ilustrativos y
pasos de algoritmo descritos con respecto a las realizaciones
reveladas en este punto pueden ser implementados o realizados con un
procesador de señales digitales (DSP por sus siglas en inglés), un
circuito integrado para aplicaciones específicas (ASIC por sus
siglas en inglés), circuitos de compuerta lógica o de transistores,
componentes discretos de hardware como, por ejemplo, los registros y
FIFO, un procesador ejecutando un conjunto de instrucciones de
soporte lógico inalterable, o cualquier módulo convencional de
software programable y un procesador. El procesador ventajosamente
puede ser un microprocesador, pero en la alternativa, el procesador
puede ser cualquier procesador convencional, controlador,
microcontrolador, o cualquier máquina de estados. El módulo del
software podría radicar en memoria RAM, memoria de destello,
registros, o cualquier otra forma de medio de almacenamiento
escribible conocido en la técnica. Esos expertos apreciarían además
que los datos, las instrucciones, los comandos, la información, las
señales, los bits, los símbolos, y los chips que puede ser
referenciados a todo lo largo de la descripción citada anteriormente
están ventajosamente representadas por voltajes, corrientes, ondas
electromagnéticas, campos magnéticos o partículas, partículas o
campos ópticos, o cualquier combinación de estos.
Realizaciones preferidas de la invención
presente han sido así mostradas y descritas. Sería aparente a un no
experto en la técnica, sin embargo, que numerosas alteraciones
pueden ser hechas a las realizaciones reveladas hasta este punto sin
apartarse del alcance de la invención. Por consiguiente, la
invención presente no está limitada excepto de acuerdo a las
siguientes reivindicaciones.
Claims (20)
1. Un codificador de voz (200) que
comprende:
un filtro predictivo lineal (206) configurado
para analizar un marco y generar un vector de codificación de
información espectral de línea basado en esto; y
un discretizador (210) acoplado al filtro
predictivo lineal y configurado para discretizar vectorialmente
(504) el vector de información espectral de línea con una primera
técnica de discretización vectorial que usa un esquema de
discretización vectorial basada en predicciones de media no
móvil,
en donde el discretizador (210) es además
configurado para calcular (510) vectores de codificación de media
móvil equivalentes para la primera técnica, actualizar (512) con los
vectores de codificación de media móvil equivalentes una memoria de
un código cifrado de media móvil de vectores de codificación para un
número predefinido de marcos que fueron previamente procesados por
el codificador de voz, calcular (502) un vector de discretización
objetivo para la segunda técnica basado en la memoria actualizada de
código cifrado de media móvil, discretizar vectorialmente (506) el
vector de discretización objetivo con una segunda técnica de
discretización vectorial para generar un vector de codificación
objetivo discretizado, la segunda técnica de discretización
vectorial que usa un esquema basado en predicciones de media móvil,
actualizar (512) la memoria del código cifrado de media móvil con el
vector de codificación objetivo discretizado, y calcular (508)
vectores de información espectral de línea discretizados del vector
de codificación objetivo discretizado.
2. El codificador de voz de la reivindicación 1,
en donde el marco es un marco de voz.
3. El codificador de voz de la reivindicación 1,
en donde el marco es un marco de residuo de predicción lineal.
4. El codificador de voz de la reivindicación 1,
en donde el vector de discretización objetivo es calculado de
acuerdo a la siguiente ecuación:
donde {\hat{U}^{n}_{M - 1},
\hat{U}^{n}_{M - 2}, .., \hat{U}^{n}_{M - P}; n = 0,1, .., N -
1} son entradas del código cifrado correspondiente a los parámetros
de información espectral de línea del número predefinido de marcos
procesados inmediatamente antes del marco, y {\alpha_{1}^{n},
\alpha_{2}^{n}, .., \alpha^{n}_{P}; n = 0,1, .., N - 1} son los
pesos respectivos de los parámetros de manera que {\alpha_{1}^{n}
+ \alpha_{2}^{n} +, .., \alpha^{n}_{P} = 1; n = 0,1, .., N -
1}.
5. El codificador de voz de la reivindicación 1,
en donde los vectores de información espectral de línea
discretizados son calculados de acuerdo a la siguiente ecuación:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde {\hat{U}^{n}_{M - 1},
\hat{U}^{n}_{M - 2}, .., \hat{U}^{n}_{M - P}; n = 0,1, .., N -
1} son entradas del código cifrado correspondiente a los parámetros
de información espectral de línea del número predefinido de marcos
procesados inmediatamente antes del marco, y {\alpha_{1}^{n},
\alpha_{2}^{n}, .., \alpha^{n}_{P}; n = 0,1, .., N - 1} son los
pesos respectivos de los parámetros de manera que
{\alpha_{1}^{n} + \alpha_{2}^{n} +, .., \alpha^{n}_{P} = 1; n
= 0,1, .., N -
1}.
6. El codificador de voz de la reivindicación 1,
donde los vectores de codificación de media móvil equivalentes son
calculados de acuerdo a la siguiente ecuación:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde {\beta_{1}^{n},
\beta_{2}^{n}, .., \beta_{P}^{n}; n = 0,1, .., N - 1} son los
respectivos pesos de los elementos del vector de codificación de
media móvil equivalentes tal que {\beta_{1}^{n} + \beta_{2}^{n}
+, .., + \beta_{P}^{n} = 1; n = 0,1, .., N - 1}, y donde es
establecida una condición inicial
{\tilde{\hat{U}}_{-1}, \tilde{\hat{U}}_{-2}, ..., \tilde{\hat{U}}_{-P}}.
{\tilde{\hat{U}}_{-1}, \tilde{\hat{U}}_{-2}, ..., \tilde{\hat{U}}_{-P}}.
7. El codificador de voz de la reivindicación 1,
en donde el codificador de voz reside en una unidad suscripta de un
sistema inalámbrico de comunicación.
8. Un método de discretizado vectorial de un
vector de información espectral de línea de un marco, usando la
primera y la segunda técnica de discretización vectorial, la primera
técnica (504) usando un esquema de discretización vectorial basada
en predicciones de media no móvil, la segunda técnica (506) usando
un esquema de discretización vectorial basada en predicciones de
media móvil, el método que comprende los pasos de:
discretizar vectorialmente (504) el vector de
información espectral de línea con la primera técnica de
discretización vectorial;
calcular (510) los vectores de codificación de
media móvil equivalentes para la primera técnica;
actualizar (512) con los vectores de
codificación de media móvil equivalentes la memoria de un código
cifrado de media móvil de vectores de codificación para un número
predefinido de marcos que fueron previamente procesados por el
codificador de voz;
calcular (502) un vector de discretización
objetivo para la segunda técnica basada en la memoria actualizada de
código cifrado de media móvil;
discretizar vectorialmente (506) el vector de
discretización objetivo con la segunda técnica de discretización
vectorial para generar un vector de codificación objetivo
discretizado;
actualizar (512) la memoria del código cifrado
de media móvil con el vector de codificación objetivo discretizado;
y
deducir (508) vectores de información espectral
de línea discretizados del vector de codificación objetivo
discretizado.
9. El método de la reivindicación 8, en donde el
marco es un marco de voz.
10. El método de la reivindicación 8, en donde
el marco es un marco de residuo de predicción lineal.
11. El método de la reivindicación 8, en donde
el paso de calcular comprende calcular la discretización objetivo de
acuerdo a la siguiente ecuación:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde {\hat{U}^{n}_{M - 1},
\hat{U}^{n}_{M - 2}, .., \hat{U}^{n}_{M - P}; n = 0,1, .., N -
1} son entradas del código cifrado correspondiente a los parámetros
de información espectral de línea del número predefinido de marcos
procesados inmediatamente antes del marco, y {\alpha_{1}^{n},
\alpha_{2}^{n}, .., \alpha^{n}_{P}; n = 0,1, .., N - 1} son los
pesos respectivos de los parámetros de manera que {\alpha_{1}^{n}
+ \alpha_{2}^{n} +, .., \alpha^{n}_{P} = 1; n = 0,1, .., N -
1}.
12. El método de la reivindicación 8, en
donde el paso de deducir comprende deducir los vectores de
información espectral de línea discretizados de acuerdo a la
siguiente ecuación:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde {\hat{U}^{n}_{M - 1},
\hat{U}^{n}_{M - 2}, .., \hat{U}^{n}_{M - P}; n = 0,1, .., N -
1} son entradas del código cifrado correspondiente a los parámetros
de información espectral de línea del número predefinido de marcos
procesados inmediatamente antes del marco, y {\alpha_{1}^{n},
\alpha_{2}^{n}, .., \alpha^{n}_{P}; n = 0,1, .., N - 1} son los
pesos respectivos de los parámetros de manera que
{\alpha_{1}^{n} + \alpha_{2}^{n} +, .., \alpha^{n}_{P} = 1; n
= 0,1, .., N -
1}.
13. El método de la reivindicación 8, en donde
el paso de calcular comprende calcular los vectores de código de
media móvil equivalentes de acuerdo a la siguiente ecuación:
donde {\beta_{1}^{n},
\beta_{2}^{n}, .., \beta_{P}^{n}; n = 0,1, .., N - 1} son los
respectivos pesos de los elementos del vector de codificación de
media móvil equivalentes tal que {\beta_{1}^{n} + \beta_{2}^{n}
+, .., + \beta_{P}^{n} = 1; n = 0,1, .., N - 1}, y donde es
establecida una condición inicial {\tilde{\hat{U}}_{-1},
\tilde{\hat{U}}_{-2}, ...,
\tilde{\hat{U}}_{-P}}.
14. Un codificador de voz, que
comprende:
medios para discretizar vectorialmente (504) un
vector de información espectral de línea de un marco con una primera
técnica de discretización vectorial que usa un esquema de
discretización vectorial basada en predicciones de media no
móvil;
medios para calcular (510) moviendo vectores de
codificación de media móvil equivalentes para la primera
técnica;
medios para actualizar (512) con los vectores de
codificación de media móvil equivalentes una memoria de un código
cifrado de media móvil de vectores de codificación para un número
predefinido de marcos que fueron previamente procesados por el
codificador de voz;
medios para calcular (502) un vector de
discretización objetivo para una segunda técnica que usa un esquema
de discretización vectorial basada en predicciones de media móvil
basados en la memoria actualizada de código cifrado de media
móvil;
medios para discretizar vectorialmente (506) el
vector de discretización objetivo con la segunda técnica de
discretización vectorial para generar un vector de codificación
objetivo discretizado;
medios para actualizar (512) la memoria del
código cifrado de media móvil con el vector de codificación objetivo
discretizado; y
medios para deducir (508) vectores de
información espectral de línea discretizados a partir del vector de
codificación objetivo discretizado.
15. El codificador de voz de la
reivindicación 14, en donde el marco es un marco de voz.
16. El codificador de voz de la
reivindicación 14, en donde el marco es un marco de residuo de
predicción lineal.
17. El codificador de voz de la
reivindicación 14, en donde la discretización objetivo es calculada
de acuerdo a la siguiente ecuación:
donde {\hat{U}^{n}_{M - 1},
\hat{U}^{n}_{M - 2}, .., \hat{U}^{n}_{M - P}; n = 0,1, .., N -
1} son entradas del código cifrado correspondiente a los parámetros
de información espectral de línea del número predefinido de marcos
procesados inmediatamente antes del marco, y {\alpha_{1}^{n},
\alpha_{2}^{n}, .., \alpha^{n}_{p}; n = 0,1, .., N - 1} son los
pesos respectivos de los parámetros de manera que {\alpha_{1}^{n}
+ \alpha_{2}^{n} +, .., \alpha^{n}_{p} = 1; n = 0,1, .., N -
1}.
18. El codificador de voz de la
reivindicación 14, en donde los vectores discretizados de
información espectral de línea son deducidos de acuerdo a la
siguiente ecuación:
\newpage
donde {\hat{U}^{n}_{M - 1},
\hat{U}^{n}_{M - 2}, .., \hat{U}^{n}_{M - P}; n = 0,1, .., N -
1} son entradas del código cifrado correspondiente a los parámetros
de información espectral de línea del número predefinido de marcos
procesados inmediatamente antes del marco, y {\alpha_{1}^{n},
\alpha_{2}^{n}, .., \alpha^{n}_{p}; n = 0,1, .., N - 1} son los
pesos respectivos de los parámetros de manera que
{\alpha_{1}^{n} + \alpha_{2}^{n} +, .., \alpha^{n}_{p} = 1; n
= 0,1, .., N -
1}.
19. El codificador de voz de la
reivindicación 14, en donde los vectores de codificación de media
variable equivalentes son calculados de acuerdo a la siguiente
ecuación:
donde {\beta_{1}^{n},
\beta_{2}^{n}, .., \beta_{P}^{n}; n = 0,1, .., N - 1} son los
respectivos pesos de los elemento del vector de codificación de
media móvil equivalentes tal que {\beta_{1}^{n} +
\beta_{2}^{n} +, .., + \beta_{P}^{n} = 1; n = 0,1, .., N - 1}, y
donde es establecida una condición inicial {\tilde{\hat{U}}_{-1},
\tilde{\hat{U}}_{-2}, ...,
\tilde{\hat{U}}_{-P}}.
20. El codificador de voz de la
reivindicación 14, en donde el codificador de voz reside en una
unidad suscripta de un sistema inalámbrico de comunicación.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/356,755 US6393394B1 (en) | 1999-07-19 | 1999-07-19 | Method and apparatus for interleaving line spectral information quantization methods in a speech coder |
US356755 | 1999-07-19 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2264420T3 true ES2264420T3 (es) | 2007-01-01 |
Family
ID=23402819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES00950441T Expired - Lifetime ES2264420T3 (es) | 1999-07-19 | 2000-07-19 | Metodo y aparato para entrelazar metodos de discretizacion de informacion espectral en un codificador de voz. |
Country Status (12)
Country | Link |
---|---|
US (1) | US6393394B1 (es) |
EP (1) | EP1212749B1 (es) |
JP (1) | JP4511094B2 (es) |
KR (1) | KR100752797B1 (es) |
CN (1) | CN1145930C (es) |
AT (1) | ATE322068T1 (es) |
AU (1) | AU6354600A (es) |
BR (1) | BRPI0012540B1 (es) |
DE (1) | DE60027012T2 (es) |
ES (1) | ES2264420T3 (es) |
HK (1) | HK1045396B (es) |
WO (1) | WO2001006495A1 (es) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6735253B1 (en) | 1997-05-16 | 2004-05-11 | The Trustees Of Columbia University In The City Of New York | Methods and architecture for indexing and editing compressed video over the world wide web |
US7143434B1 (en) | 1998-11-06 | 2006-11-28 | Seungyup Paek | Video description system and method |
ES2287122T3 (es) * | 2000-04-24 | 2007-12-16 | Qualcomm Incorporated | Procedimiento y aparato para cuantificar de manera predictiva habla sonora. |
US6937979B2 (en) * | 2000-09-15 | 2005-08-30 | Mindspeed Technologies, Inc. | Coding based on spectral content of a speech signal |
US20040128511A1 (en) * | 2000-12-20 | 2004-07-01 | Qibin Sun | Methods and systems for generating multimedia signature |
US20040204935A1 (en) * | 2001-02-21 | 2004-10-14 | Krishnasamy Anandakumar | Adaptive voice playout in VOP |
WO2002097796A1 (en) * | 2001-05-28 | 2002-12-05 | Intel Corporation | Providing shorter uniform frame lengths in dynamic time warping for voice conversion |
US7339992B2 (en) * | 2001-12-06 | 2008-03-04 | The Trustees Of Columbia University In The City Of New York | System and method for extracting text captions from video and generating video summaries |
US7289459B2 (en) * | 2002-08-07 | 2007-10-30 | Motorola Inc. | Radio communication system with adaptive interleaver |
WO2006096612A2 (en) | 2005-03-04 | 2006-09-14 | The Trustees Of Columbia University In The City Of New York | System and method for motion estimation and mode decision for low-complexity h.264 decoder |
CN101185125B (zh) * | 2005-04-01 | 2012-01-11 | 高通股份有限公司 | 用于带宽延伸语音预测激励信号的抗稀疏滤波的方法和设备 |
WO2007107659A2 (fr) * | 2006-03-21 | 2007-09-27 | France Telecom | Quantification vectorielle contrainte |
US7463170B2 (en) * | 2006-11-30 | 2008-12-09 | Broadcom Corporation | Method and system for processing multi-rate audio from a plurality of audio processing sources |
US7465241B2 (en) * | 2007-03-23 | 2008-12-16 | Acushnet Company | Functionalized, crosslinked, rubber nanoparticles for use in golf ball castable thermoset layers |
WO2009126785A2 (en) | 2008-04-10 | 2009-10-15 | The Trustees Of Columbia University In The City Of New York | Systems and methods for image archaeology |
WO2009155281A1 (en) * | 2008-06-17 | 2009-12-23 | The Trustees Of Columbia University In The City Of New York | System and method for dynamically and interactively searching media data |
US20100017196A1 (en) * | 2008-07-18 | 2010-01-21 | Qualcomm Incorporated | Method, system, and apparatus for compression or decompression of digital signals |
US8671069B2 (en) | 2008-12-22 | 2014-03-11 | The Trustees Of Columbia University, In The City Of New York | Rapid image annotation via brain state decoding and visual pattern mining |
CN102982807B (zh) * | 2012-07-17 | 2016-02-03 | 深圳广晟信源技术有限公司 | 用于对语音信号lpc系数进行多级矢量量化的方法和系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4901307A (en) | 1986-10-17 | 1990-02-13 | Qualcomm, Inc. | Spread spectrum multiple access communication system using satellite or terrestrial repeaters |
US5103459B1 (en) | 1990-06-25 | 1999-07-06 | Qualcomm Inc | System and method for generating signal waveforms in a cdma cellular telephone system |
BR9206143A (pt) | 1991-06-11 | 1995-01-03 | Qualcomm Inc | Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados |
US5784532A (en) | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
TW271524B (es) | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
US5664055A (en) * | 1995-06-07 | 1997-09-02 | Lucent Technologies Inc. | CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity |
US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
US5699485A (en) * | 1995-06-07 | 1997-12-16 | Lucent Technologies Inc. | Pitch delay modification during frame erasures |
JP3680380B2 (ja) * | 1995-10-26 | 2005-08-10 | ソニー株式会社 | 音声符号化方法及び装置 |
DE19845888A1 (de) * | 1998-10-06 | 2000-05-11 | Bosch Gmbh Robert | Verfahren zur Codierung oder Decodierung von Sprachsignalabtastwerten sowie Coder bzw. Decoder |
-
1999
- 1999-07-19 US US09/356,755 patent/US6393394B1/en not_active Expired - Lifetime
-
2000
- 2000-07-19 ES ES00950441T patent/ES2264420T3/es not_active Expired - Lifetime
- 2000-07-19 AU AU63546/00A patent/AU6354600A/en not_active Abandoned
- 2000-07-19 AT AT00950441T patent/ATE322068T1/de not_active IP Right Cessation
- 2000-07-19 WO PCT/US2000/019672 patent/WO2001006495A1/en active IP Right Grant
- 2000-07-19 BR BRPI0012540A patent/BRPI0012540B1/pt active IP Right Grant
- 2000-07-19 DE DE60027012T patent/DE60027012T2/de not_active Expired - Lifetime
- 2000-07-19 EP EP00950441A patent/EP1212749B1/en not_active Expired - Lifetime
- 2000-07-19 JP JP2001511670A patent/JP4511094B2/ja not_active Expired - Lifetime
- 2000-07-19 CN CNB008103526A patent/CN1145930C/zh not_active Expired - Lifetime
- 2000-07-19 KR KR1020027000784A patent/KR100752797B1/ko active IP Right Grant
-
2002
- 2002-09-20 HK HK02106869.3A patent/HK1045396B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
CN1361913A (zh) | 2002-07-31 |
DE60027012T2 (de) | 2007-01-11 |
EP1212749A1 (en) | 2002-06-12 |
JP4511094B2 (ja) | 2010-07-28 |
KR20020033737A (ko) | 2002-05-07 |
HK1045396B (zh) | 2005-02-18 |
DE60027012D1 (de) | 2006-05-18 |
JP2003524796A (ja) | 2003-08-19 |
BR0012540A (pt) | 2004-06-29 |
CN1145930C (zh) | 2004-04-14 |
HK1045396A1 (en) | 2002-11-22 |
KR100752797B1 (ko) | 2007-08-29 |
EP1212749B1 (en) | 2006-03-29 |
WO2001006495A1 (en) | 2001-01-25 |
AU6354600A (en) | 2001-02-05 |
BRPI0012540B1 (pt) | 2015-12-01 |
US6393394B1 (en) | 2002-05-21 |
ATE322068T1 (de) | 2006-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2265958T3 (es) | Discretizacion de magnitud espectral para un codificador de voz. | |
KR100805983B1 (ko) | 가변율 음성 코더에서 프레임 소거를 보상하는 방법 | |
ES2264420T3 (es) | Metodo y aparato para entrelazar metodos de discretizacion de informacion espectral en un codificador de voz. | |
ES2287122T3 (es) | Procedimiento y aparato para cuantificar de manera predictiva habla sonora. | |
KR100912030B1 (ko) | 무선 통신 시스템에서 비대칭 스피치 코더를 사용하여 비대칭 링크를 생성하는 방법 및 장치 | |
EP1214705B1 (en) | Method and apparatus for maintaining a target bit rate in a speech coder | |
US6324503B1 (en) | Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions | |
US7085712B2 (en) | Method and apparatus for subsampling phase spectrum information | |
ES2276690T3 (es) | Particion de espectro de frecuencia de una forma de onda prototipo. | |
KR101164834B1 (ko) | 제 1 비트 레이트와 연관된 제 1 패킷을 제 2 비트 레이트와 연관된 제 2 패킷으로 디밍하는 시스템 및 방법 |