ES2318820T3 - Procedimiento y aparatos de cuantificacion predictiva del habla de voces. - Google Patents
Procedimiento y aparatos de cuantificacion predictiva del habla de voces. Download PDFInfo
- Publication number
- ES2318820T3 ES2318820T3 ES07105323T ES07105323T ES2318820T3 ES 2318820 T3 ES2318820 T3 ES 2318820T3 ES 07105323 T ES07105323 T ES 07105323T ES 07105323 T ES07105323 T ES 07105323T ES 2318820 T3 ES2318820 T3 ES 2318820T3
- Authority
- ES
- Spain
- Prior art keywords
- speech
- values
- components
- amplitude
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000011002 quantification Methods 0.000 title claims description 27
- 239000013598 vector Substances 0.000 claims description 66
- 230000005540 biological transmission Effects 0.000 claims description 32
- 230000003595 spectral effect Effects 0.000 claims description 32
- 238000004891 communication Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 3
- 230000001934 delay Effects 0.000 claims 3
- 230000017105 transposition Effects 0.000 claims 1
- 238000005303 weighing Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 14
- 238000001228 spectrum Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 230000000737 periodic effect Effects 0.000 description 7
- 238000013139 quantization Methods 0.000 description 7
- 206010011878 Deafness Diseases 0.000 description 6
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000010363 phase shift Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 239000002699 waste material Substances 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/097—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Electrically Operated Instructional Devices (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
Un procesador adaptado para ejecutar un conjunto de instrucciones almacenadas en un medio de almacenamiento, estando las mencionadas instrucciones adaptadas para realizar un procedimiento de acuerdo con la reivindicación 6.
Description
Procedimiento y aparato de cuantificación
predictiva del habla de voces.
La presente invención pertenece en general al
campo del procesamiento de habla, y más específicamente a
procedimientos y aparatos para cuantificar de manera predictiva del
habla de voces.
La transmisión de voz mediante técnicas
digitales se ha extendido, particularmente en aplicaciones de
radiotelefonía digital y larga distancia. A su vez, esto ha creado
interés en determinar la cantidad más pequeña de información que
puede enviarse sobre un canal mientras se mantiene la calidad
percibida de habla reconstruida. Si el habla se transmite
simplemente muestreando y digitalizando, se requiere una tasa de
transmisión de datos del orden de sesenta y cuatro kilobits por
segundo (kpbs) para conseguir una calidad de habla del teléfono
analógico convencional. Sin embargo, a través del uso del análisis
de habla, seguido por el codificado, transmisión y resíntesis
adecuadas en el receptor, puede conseguirse una importante reducción
en la velocidad de la transmisión de datos.
Los dispositivos de compresión de habla
encuentran utilidad en muchos campos de las telecomunicaciones. Un
campo ejemplar son las comunicaciones inalámbricas. El campo de las
comunicaciones inalámbricas presenta muchas aplicaciones
incluyendo, por ejemplo, teléfonos inalámbricos, radiomensajería,
bucles locales inalámbricos, telefonía inalámbrica tal como
sistemas telefónicos PCS y celulares, telefonía de protocolo de
Internet (IP) móvil y sistemas de comunicación por satélite. Una
aplicación particularmente importante es la telefonía inalámbrica
para abonados móviles.
Se han desarrollado diversas interfaces radio
para sistemas de comunicación inalámbrica incluyendo, por ejemplo,
acceso múltiple por división de frecuencia (FDMA), acceso múltiple
por división de tiempo (TDMA) y acceso múltiple por división de
código (CDMA). En relación con los mismos, se han establecido
diversas normas internacionales y nacionales incluyendo, por
ejemplo, el servicio telefónico móvil avanzado (AMPS), el sistema
global para comunicaciones móviles (GSM), y la norma provisional 95
(IS-95). Un sistema de comunicación de telefonía
inalámbrica ejemplar es un sistema de acceso múltiple por división
de código (CDMA). La norma IS-95 y sus derivadas,
IS-95A, ANSI
J-STD-008, IS-95B,
las normas IS-95C e IS-2000 de
tercera generación propuestas, etc. (a las que se hace referencia
conjuntamente en el presente documento como IS-95),
se promulgaron por la Asociación de la Industria de
Telecomunicaciones (TIA) y otros cuerpos de normas bien conocidos
para especificar el uso de una interfaz aérea CDMA para sistemas de
comunicación de telefonía PCS o celular. En las patentes
estadounidenses nº 5.103.459 y 4.901.307, que están transferidas al
cesionario de la presente invención, se describen sistemas de
comunicación inalámbrica ejemplares configurados substancialmente
según el uso de la norma IS-95.
Los dispositivos que emplean técnicas para
comprimir el habla extrayendo parámetros que se refieren a un modelo
de generación de habla humana se denominan codificadores de habla.
Un codificador de habla divide la señal de habla entrante en
bloques de tiempo, o tramas de análisis. Los codificadores de habla
comprenden normalmente un codificador y un descodificador. El
codificador analiza la trama de habla entrante para extraer ciertos
parámetros relevantes, y después cuantifica los parámetros en una
representación binaria, es decir, a un conjunto de bits o un
paquete de datos binarios. Los paquetes de datos se transmiten sobre
el enlace de comunicación a un receptor y a un descodificador. El
descodificador procesa los paquetes de datos, los incuantifica para
producir los parámetros, y resintetiza las tramas de habla
utilizando los parámetros incuantificados.
La función del codificador de habla es comprimir
la señal de habla digitalizada en una señal de baja tasa de
transmisión de datos suprimiendo todas las redundancias naturales
inherentes en el habla. La compresión digital se consigue
representando la trama de habla de entrada con un conjunto de
parámetros y empleando cuantificación para representar los
parámetros con un conjunto de bits. Si la trama de habla de entrada
presenta un número de bits N_{i} y el paquete de datos producido
por el codificador de habla presenta un número de bits N_{o}, el
factor de compresión conseguido por el codificador de habla es
C_{r} = N_{i}/N_{o}. El reto es mantener la alta calidad de
voz de habla descodificada mientras se consigue el factor de
compresión objetivo. El rendimiento de un codificador de habla
depende de (1) la calidad con que funciona el modelo de habla, o la
combinación de los procesos de análisis y síntesis, y (2) la calidad
con la que se realiza el proceso de cuantificación de parámetros a
la tasa de transmisión de datos objetivo de N_{o} bits por trama.
La finalidad del modelo de habla es por tanto capturar la esencia
de la señal de habla, o la calidad de voz objetivo, con un pequeño
conjunto de parámetros para cada trama.
Quizás lo más importante en el diseño de un
codificador de habla es la búsqueda de un buen conjunto de
parámetros (incluyendo vectores) para describir la señal de habla.
Un buen conjunto de parámetros requiere un ancho de banda de
sistema bajo para la reconstrucción de una señal de habla precisa de
manera perceptiva. El tono, la potencia de la señal, la envolvente
espectral (o formantes), los espectros de amplitud, y los espectros
de fase son ejemplos de los parámetros de codificado de habla.
Los codificadores de habla pueden implementarse
como codificadores de dominio de tiempo, que intentan capturar la
forma de onda de habla de dominio de tiempo empleando procesamiento
de alta resolución de tiempo para codificar pequeños segmentos de
habla (normalmente subtramas de 5 milisegundos (ms)) a la vez. Para
cada subtrama, se encuentra una alta precisión representativa a
partir de un espacio de libro de código por medio de diversos
algoritmos de búsqueda conocidos en la técnica. Como alternativa,
los codificadores de habla pueden implementarse como codificadores
de dominio de frecuencia, que intentan capturar el espectro de habla
de corta duración de la trama de habla de entrada con un conjunto
de parámetros (análisis) y emplean un proceso de síntesis
correspondiente para recrear la forma de onda de habla a partir de
los parámetros espectrales. El cuantificador de parámetros conserva
los parámetros representándolos con representaciones almacenadas de
vectores de código según técnicas de cuantificación conocidas
descritas en A. Gersho & R.M. Gray, Vector Quantization and
Signal Compression (1992).
Un codificador de habla de dominio de tiempo
bien conocido es el codificador predictivo lineal de código excitado
(CELP) descrito en L.B. Rabiner & R.W. Schafer, Digital
Processing of Speech Signals 396-453 (1978). En
un codificador CELP, las correlaciones de corta duración, o
redundancias, en la señal de habla, se suprimen mediante un
análisis de predicción lineal (LP), que encuentra los coeficientes
de un filtro de formantes de corta duración. Al aplicar el filtro
de predicción de corta duración a la trama de habla entrante se
genera una señal residuo LP, que se modela y cuantifica
adicionalmente con parámetros de filtro de predicción de larga
duración y un libro de código estocástico posterior. De este modo,
el codificado CELP divide la tarea de codificar la forma de onda de
habla de dominio de tiempo en las tareas separadas de codificar los
coeficientes de filtro de corta duración LP y codificar el residuo
LP. El codificado de dominio de tiempo puede realizarse a un
velocidad fija (es decir, utilizando el mismo número de bits,
N_{o}, para cada trama) o a una velocidad variable (en la que se
utilizan diferentes velocidades de transmisión de bits para tipos
diferentes de contenidos de trama). Los codificadores de velocidad
variable intentan utilizar solamente la cantidad de bits necesaria
para codificar los parámetros de códec a un nivel adecuado para
obtener una calidad objetivo. Un codificador CELP de velocidad
variable ejemplar se describe en la patente estadounidense nº
5.414.796, que está transferida al cesionario de la presente
invención e incorporada por completo a este documento por medio de
referencia.
Los codificadores de dominio de tiempo tal como
el codificador CELP normalmente se basan en un alto número de bits,
N_{o}, por trama para conservar la precisión de la forma de onda
de habla de dominio de tiempo. Tales codificadores suministran una
excelente calidad de voz siempre que el número de bits, N_{o}, por
trama sea relativamente grande (por ejemplo, 8 kbps o superior).
Sin embargo, a velocidades de transmisión de bits bajas (4 kbps e
inferiores), los codificadores de dominio de tiempo no pueden
conservar una alta calidad y un rendimiento robusto debido al
número limitado de bits disponibles. A velocidades de transmisión de
bits bajas, el espacio de libro de código limitado limita la
capacidad de adaptación a la forma de onda de los codificadores de
dominio de tiempo convencionales, que se utilizan con éxito en
aplicaciones comerciales de velocidad superior. Por tanto, a pesar
de las mejoras a través del tiempo, muchos sistemas de codificado
CELP que operan a velocidades de transmisión de bits bajas
experimentan una importante distorsión de manera perceptiva
caracterizada normalmente como ruido.
Actualmente existe una tendencia de interés en
la investigación y una fuerte necesidad comercial de desarrollar un
codificador de habla de alta calidad que funcione a velocidades de
transmisión de bits medias a bajas (es decir, en el intervalo de
2,4 a 4 kbps e inferiores). Las áreas de aplicación incluyen
telefonía inalámbrica, comunicaciones por satélite, telefonía por
Internet, diversas aplicaciones multimedia y de flujo continuo de
voz, correo por voz, y otros sistemas de almacenamiento de voz. Las
fuerzas impulsoras son la necesidad de alta capacidad y la demanda
de un comportamiento robusto bajo situaciones de pérdida de
paquetes. Los diversos esfuerzos recientes de normalización del
codificado de habla son otra fuerza impulsora directa que promueve
la investigación y el desarrollo de algoritmos de codificado de
habla de baja velocidad. Un codificador de habla de baja velocidad
crea más canales, o usuarios, por ancho de banda de aplicación
disponible, y un codificador de habla de baja velocidad acoplado
con una capa adicional de codificado de canal adecuado puede ajustar
el presupuesto de bits global de las especificaciones de
codificador y suministrar un comportamiento robusto bajo
condiciones de error de canal.
Una técnica efectiva para codificar el habla de
manera eficaz a velocidades de transmisión de bits bajas es el
codificado multimodo. Una técnica de codificado multimodo ejemplar
se describe en la patente estadounidense nº 6.691.084, titulada
VARIABLE RATE SPEECH CODING, presentada el 21 de diciembre de 1998,
transferida al cesionario de la presente invención. Los
codificadores multimodo convencionales aplican diferentes modos, o
algoritmos de codificación-descodificación, a
diferentes tipos de tramas de habla de entrada. Cada modo, o
proceso de codificación-descodificación, se
personaliza para representar óptimamente un cierto tipo de segmento
de habla, tal como, por ejemplo, habla sonora, habla sorda, habla de
transición (por ejemplo, entre sonora y sorda), y ruido de fondo
(silencio, o no habla) de la manera más eficaz. Un mecanismo de
decisión de modo de bucle abierto, externo examina la trama de
habla de entrada y toma una decisión con respecto a qué modo
aplicar a la trama. La decisión de modo de bucle abierto se realiza
normalmente extrayendo un número de parámetros de la trama de
entrada, evaluando los parámetros en relación con ciertas
características temporales y espectrales, y basando una decisión de
modo en la
evaluación.
evaluación.
Los sistemas de codificado que operan a
velocidades del orden de 2,4 kbps son normalmente paramétricos por
naturaleza. Es decir, tales sistemas de codificado operan
transmitiendo parámetros que describen el periodo de tono y la
envolvente espectral (o formantes) de la señal de habla a intervalos
regulares. El sistema vocodificador LP es ilustrativo de estos
denominados codificadores paramétricos.
Los vocodificadores LP modelan una señal de
habla sonora con un único impulso por periodo de tono. Esta técnica
básica puede mejorarse para incluir información de transmisión sobre
la envolvente espectral, entre otras cosas. Aunque los
vocodificadores LP proporcionan generalmente un rendimiento
razonable, puede introducir una importante distorsión de manera
perceptiva, caracterizada normalmente como zumbido.
En los últimos años, han aparecido codificadores
que son híbridos de tanto los codificadores de forma de onda como
los codificadores paramétricos. El sistema de codificado de habla de
interpolación de forma de onda de prototipo (PWI) es ilustrativo de
estos denominados codificadores híbridos. El sistema de codificado
PWI puede conocerse también como un codificador de habla de periodo
de tono de prototipo (PPP). Un sistema de codificado PWI
proporciona un procedimiento eficaz para cifrar habla sonora. El
concepto básico de PWI es extraer un ciclo de tono representativo
(la forma de onda de prototipo) a intervalos fijos, transmitir su
descripción, y reconstruir la señal de habla interpolando entre las
formas de onda de prototipo. El procedimiento PWI puede operar o
bien sobre la señal residuo LP o sobre la señal de habla. Un
codificador de habla ejemplar PWI, o PPP, se describe en la patente
estadounidense nº 6.456.964, titulada PERIODIC SPEECH CODING,
presentada el 21 de diciembre de 1998, transferida al cesionario de
la presente invención. Otros codificadores de habla PWI, o PPP, se
describen en la patente estadounidense nº 5.884.253 y W. Bastiaan
Kleijn & Wolfgang Granzow "Methods for Waveform
Interpolation in Speech Coding, in 1 Digital Signal
Processing 215-230 (1991)".
En la mayoría de los codificadores de habla
convencionales, los parámetros de un prototipo de tono dado, o de
una trama dada, se cuantifican y transmiten cada uno individualmente
por el codificador. Además, se transmite un valor diferente para
cada parámetro. El valor de la diferencia especifica la diferencia
entre el valor de parámetro para el prototipo o trama actual y el
valor del parámetro para el prototipo o trama anterior. Sin
embargo, el cuantificar los valores de los parámetros y los valores
de la diferencia requiere utilizar bits (y por tanto ancho de
banda). En un codificador de habla de tasa de transmisión de datos
baja, es ventajoso transmitir el menor número de bits posible para
mantener satisfactoriamente la calidad de voz. Por esta razón, en
codificadores de habla de tasa de transmisión de datos baja, sólo se
cuantifican y se transmiten los valores de parámetros absolutos.
Sería deseable disminuir el número de bits transmitidos sin
disminuir el valor informativo. Por tanto, existe una necesidad de
un esquema predictivo para cuantificar el habla sonora que disminuya
la tasa de transmisión de datos de un codificador de habla.
La publicación de patente PCT nº WO 01/06495 de
"Qualcomm Incorporated" da a conocer un procedimiento y
aparato para intercalar procedimientos de cuantificación de
información espectral de línea en un codificador de habla.
La publicación de patente europea nº EP 0696026
de "NEC Corporation" da a conocer un dispositivo de
codificado de habla que puede suministrar una señal de habla a un
velocidad de transferencia de bits baja.
La Publicación de Patente Europea EP 0 696, a
nombre de NEC Corporation, describe un dispositivo de codificación
de voz capaz de entregar una señal de voz de excelente calidad de
sonido a una baja velocidad binaria.
La Publicación PCT número WO95/10760, a nombre
de Comsat Corporation, describe un codificador que proporciona un
alto grado de inteligibilidad de la voz y calidad de la voz natural,
incluyendo un analizador de predicción lineal de orden diez.
La presente invención, como se declara en las
reivindicaciones anejas está dirigida a un esquema predictivo para
la cuantificación de habla de voz que disminuya la velocidad binaria
de un codificador de voz. De acuerdo con esto, en un aspecto de la
invención, se proporciona un procedimiento de información de
cuantificación acerca de un parámetro de habla. El procedimiento
incluye de manera ventajosa la generación de al menos un valor
ponderado del parámetro para al menos una trama procesada
anteriormente de voz, en la que la suma de todos los pesos sea uno;
restando el al menos un valor ponderado de un valor del parámetro
para actualmente producir un valor de diferencia de la trama de
habla y cuantificar el valor de diferencia.
En otro aspecto de la invención, se proporciona
un codificador de voz configurado para cuantificar la información
acerca de un parámetro del habla. El codificador de voz incluye de
manera ventajosa un medio para generar al menos un valor ponderado
del parámetro para al menos una trama procesada con anterioridad, en
el que la suma de todos los pesos usados es uno; un medio para
restar el al menos un valor ponderado de un valor del parámetro
para una trama procesada actualmente de habla para producir un valor
de diferencia; y un medio para cuantificar el valor de
diferencia.
En otro aspecto de la invención, se proporciona
un elemento de infraestructura configurado para cuantificar
información acerca de un parámetro de habla. El elemento de
infraestructura incluye de manera ventajosa un generador de
parámetro configurado para generar al menos un valor ponderado del
parámetro para al menos una trama de habla procesada con
anterioridad, en la que la suma de todos los pesos usados es uno; y
un cuantificador acoplado al generador de parámetro y configurado
para restar el al menos un valor ponderado de un valor del
parámetro para una trama de habla procesada en ese momento para
producir un valor de diferencia y para cuantificar el valor de
diferencia.
En otro aspecto de la invención, se proporciona
una unidad de abonado configurada para cuantificar información
acerca de un parámetro de habla. La unidad de abonado incluye de
manera ventajosa un procesador y un medio de almacenamiento
acoplado al procesador y que contiene un conjunto de instrucciones
ejecutables por el procesador para generar al menos un valor
ponderado del parámetro para la al menos trama de habla procesada
con anterioridad, en la que la suma de todos los pesos usados es
uno, y restar el al menos un valor ponderado de un valor del
parámetro para una trama de habla actualmente procesada para
producir un valor de diferencia, y para cuantificar el valor de
diferencia.
En otro aspecto de la invención, se proporciona
un procedimiento de cuantificación acerca de un parámetro de fase
de habla. El procedimiento incluye de manera ventajosa la generación
de al menos un valor modificado del parámetro de fase para al menos
una trama de habla anteriormente procesada; aplicar un número de
desplazamientos de fase a al menos un valor modificado, el número
de desplazamientos de fase siendo mayor o igual a cero; restar el
al menos un valor modificado de un valor del parámetro de fase para
una trama de habla procesada actualmente para producir un valor
diferencia; y cuantificar el valor diferencia.
En otro aspecto de la invención, se proporciona
un codificador de habla configurado para cuantificar información
acerca de un parámetro de fase del habla implicada. El codificador
de habla incluye de manera ventajosa un medio para generar al menos
un valor modificado del parámetro de fase para al menos una trama
anteriormente procesada de habla; un medio para aplicar un número
de desplazamientos de fase a el menos un valor modificado de un
valor del parámetro de fase para una trama actualmente procesada de
habla para producir un valor diferencia; y un medio para
cuantificar el valor diferencia.
En otro aspecto de la invención, se proporciona
una unidad de abonado configurada para cuantificar información
acerca de un parámetro de fase de habla. La unidad de abonado
incluye de manera ventajosa un procesador; un medio de
almacenamiento acoplado al procesador y que contiene un conjunto de
instrucciones ejecutables por el procesador para generar al menos
un valor modificado del parámetro de fase para al menos la trama
anteriormente procesada de habla, aplicar un número de
desplazamientos de fase a al menos un valor modificado, el número
de desplazamientos de fase siendo mayor o igual a cero, restar el al
menos un valor modificado de un valor del parámetro para una trama
actualmente procesada de habla para producir un valor de diferencia
y para cuantificar el valor de
diferencia.
diferencia.
La figura 1 es un diagrama de bloques de un
sistema telefónico inalámbrico.
La figura 2 es un diagrama de bloques de un
canal de comunicación terminado en cada extremo por codificadores
de habla.
La figura 3 es un diagrama de bloques de un
codificador de habla.
La figura 4 es un diagrama de bloques de un
descodificador de habla.
La figura 5 es un diagrama de bloques de un
codificador de habla que incluye partes de codificador/transmisor y
descodificador/receptor.
La figura 6 es un gráfico de amplitud de señal
frente al tiempo para un segmento de habla sonora.
La figura 7 es un diagrama de bloques de un
cuantificador que puede utilizarse en un codificador de habla.
La figura 8 es un diagrama de bloques de un
procesador acoplado a un medio de almacenamiento.
Las realizaciones ejemplares descritas
posteriormente en el presente documento residen en un sistema de
comunicación de telefonía inalámbrica configurado para emplear una
interfaz aérea CDMA. Sin embargo, los expertos en la técnica
entenderían que un procedimiento y aparato para cifrar habla sonora
de manera predictiva que incorporan características de la presente
invención pueden residir en cualquiera de diversos sistemas de
comunicación que emplean una amplia gama de tecnologías conocidas
por los expertos en la técnica.
Como se ilustra en la figura 1, un sistema
telefónico inalámbrico CDMA incluye generalmente una pluralidad de
unidades 10 de abonado móviles, una pluralidad de estaciones 12
base, controladores 14 de estaciones base (BSCs), y un centro 16 de
conmutación móvil (MSC). El MSC 16 está configurado para
interconectarse con una red 18 telefónica pública conmutada (PSTN)
convencional. El MSC 16 está también configurado para
interconectarse con los BSC 14. Los BSC 14 están acoplados a las
estaciones 12 base (BSs) a través de líneas de retroceso. Las
líneas de retroceso pueden estar configuradas para soportar
cualquiera de diversas interfaces conocidas incluyendo, por
ejemplo, E1/T1, ATM, IP, PPP, Frame Relay, HDSL, ADSL o xDSL. Se
entiende que puede haber más de dos BSC 14 en el sistema. Cada
estación 12 base incluye de manera ventajosa al menos un sector (no
mostrado), comprendiendo cada sector una antena omnidireccional o
una antena que apunta a una dirección particular radialmente
alejada de la estación 12 base. Como alternativa, cada sector puede
comprender dos antenas para recepción de diversidad. Cada estación
12 base puede estar diseñada de manera ventajosa para soportar una
pluralidad de asignaciones de frecuencia. Puede hacerse referencia a
la intersección de un sector y una asignación de frecuencia como un
canal CDMA. Las estaciones 12 base (BSS) pueden también conocerse
como subsistemas 12 de transceptor de estación base (BSS). Como
alternativa, puede utilizarse "estación base" en la industria
para referirse conjuntamente a un BSC 14 y una o más BSs 12. La BSs
12 también puede denominarse "sitios de célula" 12. Como
alternativa, puede hacerse referencia a los sectores individuales de
una BSS 12 dada como sitios de célula. Las unidades 10 de abonado
móviles son normalmente teléfonos 10 PCS o celulares. El sistema
esta configurado de manera ventajosa para el uso según la norma
IS-95.
Durante el normal funcionamiento del sistema
telefónico celular, las estaciones 12 base reciben conjuntos de
señales de enlace inverso desde conjuntos de unidades 10 móviles.
Las unidades 10 móviles llevan a cabo llamadas telefónicas u otras
comunicaciones. Cada señal de enlace inverso recibida por una
estación 12 base dada se procesa en esa estación 12 base. Los datos
resultantes se reenvían al BSC 14. El BSC 14 proporciona asignación
de recursos de llamadas y funcionalidad de gestión de movilidad que
incluye la organización de traspasos continuos entre las estaciones
12 base. El BSC 14 también encamina los datos recibidos al MSC 16,
que proporciona servicios de encaminamiento adicionales para la
interconexión con la PSTN 18. De manera similar, la PSTN 18 se
interconecta con el MSC 16, y el MSC 16 se interconecta con el BSC
14, que a su vez controla a las estaciones 12 base para que
transmitan conjuntos de señales de enlace directo a conjuntos de
unidades 10 móviles. Los expertos deberían entender que las
unidades 10 de abonado pueden ser unidades fijas en realizaciones
alternativas.
En la figura 2 un primer codificador 100 recibe
muestras s(n) de habla digitalizadas y codifica las muestras
s(n) para la transmisión sobre un medio 102 de transmisión, o
canal 102 de comunicación, a un primer descodificador 104. El
descodificador 104 descodifica las muestras de habla codificadas y
sintetiza una señal S_{SINT}(n) de habla de salida. Para
la transmisión en la dirección contraria, un segundo codificador 106
codifica muestras s(n) de habla digitalizadas, que se
transmiten sobre un canal 108 de comunicación. Un segundo
descodificador 110 recibe y descodifica las muestras de habla
codificadas, generando una señal S_{SINT}(n) de habla de
salida sintetizada.
Las muestras s(n) de habla representan
señales de habla que se han digitalizado y cuantificado según
cualquiera de varios procedimientos conocidos en la técnica
incluyendo, por ejemplo, modulación por impulsos codificados (PCM),
ley \mu o ley A con comprensión - expansión. Como se conoce en la
técnica, las muestras s(n) de habla se organizan en tramas
de datos de entrada en las que cada trama comprende un número
predeterminado de muestras s(n) de habla digitalizadas. En
una realización ejemplar, se emplea una tasa de muestreo de 8 kHz,
comprendiendo cada trama de 20 ms 160 muestras. En las
realizaciones descritas posteriormente, la velocidad de la
transmisión de datos puede variarse de manera ventajosa trama por
trama desde velocidad completa a velocidad de medio a velocidad de
cuarto a velocidad de octavo. El variar la velocidad de transmisión
de datos es ventajoso ya que pueden emplearse selectivamente
velocidades de transmisión de bits inferiores pueden emplearse
selectivamente para tramas que contienen relativamente menos
información de habla. Como lo expertos en la técnica entienden,
pueden utilizarse otras tasas de muestreo y/o tamaños de trama.
También en las realizaciones descritas posteriormente, el modo de
codificación de habla (o codificado) puede variarse trama por trama
en respuesta a la información de habla o energía de la trama.
El primer codificador 100 y el segundo
descodificador 110 comprenden juntos un primer codificador
(codificador/descodificador), ó códec de palabra. El codificador de
habla podría utilizarse en cualquier dispositivo de comunicación
para transmitir señales de habla, incluyendo, por ejemplo, las
unidades de abonado, las BTS o los BSC descritos anteriormente con
referencia a la figura 1. De manera similar, el segundo codificador
106 y el primer descodificador 104 comprenden juntos un segundo
codificador de habla. Los expertos en la técnica comprenderán que
los codificadores de habla pueden implementarse con un procesador
de señales digitales (DSP), un circuito integrado de aplicación
específica (ASIC), lógica de puertas discretas, o cualquier módulo
de software programable convencional y un microprocesador. El
módulo de software podría residir en memoria RAM, memoria flash,
registros, o cualquier otra forma de medio de almacenamiento
conocido en la técnica. Como alternativa, cualquier procesador,
controlador o máquina de estados convencionales podrían sustituirse
por el microprocesador. Los ASIC ejemplares diseñados
específicamente para el codificado de habla se describen en la
patente estadounidense nº 5.727.123, transferida al cesionario de
la presente invención, e incorporada en su totalidad a este
documento, y la Patente de los Estados Unidos con número US 5 784
532, titulada VOCODER ASIC con fecha 16 de febrero de 1994 concedida
al cesionario de la presente invención.
En la figura 3 un codificador 200 que puede
utilizarse en un codificador de habla incluye un módulo 202 de
decisión de modo, un módulo 204 de estimación de tono, un módulo 206
de análisis LP, un filtro 208 de análisis LP, un módulo 210 de
cuantificación LP, y un módulo 212 de cuantificación de residuo. Las
tramas s(n) de habla de entrada se proporcionan al módulo
202 de decisión de modo, al módulo 204 de estimación de tono, al
módulo 206 de análisis LP, y al filtro 208 de análisis LP. El
módulo 202 de decisión de modo produce un índice I_{M} de modo y
un modo M basándose en la periodicidad, energía, relación señal a
ruido (SNR), velocidad de cruce por cero, entre otras
características, de cada trama s(n) de habla de entrada.
Varios procedimientos de clasificación de tramas de habla según la
periodicidad se describen en la patente estadounidense nº 5.911.128,
que está transferida al cesionario de la presente invención, e
incorporada por completo a este documento por medio de referencia.
Tales procedimientos también se incorporan en las normas
provisionales de la Asociación de la Industria de las
Telecomunicaciones TIA/EIA IS-127 y TIA/EIA
IS-733. Un esquema de decisión de modo ejemplar
también se describe en la solicitud de patente estadounidense
anteriormente mencionada con nº 6.691.084.
El módulo 204 de estimación de tono produce un
índice I_{P} de tono y un valor P_{0} de retardo basándose en
cada trama s(n) de habla de entrada. El módulo 206 de
análisis LP realiza análisis predictivo lineal sobre cada trama
s(n) de habla de entrada para generar un parámetro a
LP. El parámetro a LP se proporciona al módulo 210 de
cuantificación LP. El módulo 210 de cuantificación LP también recibe
el modo M, realizando por tanto el proceso de cuantificación de una
manera dependiente del modo. El módulo 210 de cuantificación LP
produce un índice ILP LP y un parámetro \hat{a} LP cuantificado.
El filtro 208 de análisis LP recibe el parámetro \hat{a} LP
cuantificado además de la trama s(n) de habla de entrada. El
filtro 208 de análisis LP genera una señal R[n] residuo LP,
que representa el error entre las tramas s(n) de habla de
entrada y el habla reconstruida basándose en los parámetros
\hat{a} predichos lineales cuantificados. El residuo R[n]
LP, el modo M, y el parámetro \hat{a} LP cuantificado se
proporcionan al módulo 212 de cuantificación de residuo. Basándose
en estos valores, el módulo 212 de cuantificación de residuo produce
un índice IR de residuo y una señal \hat{R}[n] de residuo
cuantificada.
En la figura 4 un descodificador 300 que puede
utilizarse en un codificador de habla incluye un módulo 302 de
descodificación de parámetros LP, un módulo 304 de descodificación
de residuos, un módulo 306 de descodificación de modo, y un filtro
308 de síntesis LP. El módulo 306 de descodificación de modo recibe
y descodifica un índice I_{M} de modo, generando a partir del
mismo un modo M. El módulo 302 de descodificación de parámetros LP
recibe el modo M y un índice I_{LP} LP. El módulo 302 de
descodificación de parámetros LP descodifica los valores recibidos
para producir un parámetro \hat{a} LP cuantificado. El módulo 304
de descodificación de residuos recibe un índice I_{R} de residuo,
un índice IP de tono y el índice IM de modo. El módulo 304 de
descodificación de residuos descodifica los valores recibidos para
generar una señal \hat{R}[n] de residuo cuantificada. La
señal \hat{R}[n] de residuo cuantificada y el parámetro
\hat{a} LP cuantificado se proporcionan al filtro 308 de síntesis
LP, que sintetiza una señal \hat{s}[n] de habla de salida
descodificada a partir de los mismos.
El funcionamiento e implementación de los
diversos módulos del codificador 200 de la figura 3 y el
descodificador 300 de la figura 4 se conocen en la técnica y se
describen en la patente estadounidense anteriormente mencionada nº
5.414.796 y L.B. Rabiner & R.W. Schafer, Digital Processing
of Speech Signals 396-453 (1978).
En una realización, ilustrada en la figura 5, un
codificador 400 de habla multimodo se comunica con un descodificador
402 de habla multimodo a través de un canal 404 de comunicación, o
medio de transmisión. El canal 404 de comunicación es de manera
ventajosa una interfaz RP configurada según la norma
IS-95. Los expertos en la técnica entenderían que
el codificador 400 presenta un descodificador asociado (no
mostrado). El codificador 400 y su descodificador asociado forman
juntos un primer codificador de habla. Los expertos en la técnica
también entenderían que el descodificador 402 presenta un
codificador asociado (no mostrado). El descodificador 402 y su
codificador asociado forman juntos un segundo codificador de habla.
El primer y segundo codificadores de habla pueden implementarse de
manera ventajosa como parte de un primer y segundo DSP, y pueden
residir en, por ejemplo, una unidad de abonado y una estación base
en un sistema telefónico celular o PCS, o en una unidad de abonado
y una pasarela en un sistema por satélite.
El codificador 400 incluye un calculador 406 de
parámetros, un módulo 408 de clasificación de modos, una pluralidad
de modos 410 de codificación, y un módulo 412 de formateo de
paquetes. El número de modos 410 de codificación se muestra como n,
que un experto en la técnica entendería que podría significar
cualquier número razonable de modos 410 de codificación. Por
simplicidad, sólo se muestran tres modos 410 de codificación, con
una línea de puntos que indica la existencia de otros modos 410 de
codificación. El descodificador 402 incluye un módulo 414
desensamblador de paquetes y detector de pérdidas de paquetes, una
pluralidad de modos 416 de descodificación, un descodificador 418
de borrado, y un filtro 420 posterior, o sintetizador de habla. El
número de modos 416 de descodificación se muestra como n, que un
experto entendería que podría significar cualquier número razonable
de modos 416 de descodificación. Por simplicidad, sólo se muestran
tres modos 416 de descodificación, con una línea de puntos que
indica la existencia de otros modos 416 de descodificación.
Una señal de habla, s(n) se proporciona
al calculador 406 de parámetros. La señal de habla se divide en
bloques de muestras llamados tramas. El valor n designa el número
de tramas. En una realización alternativa, se utiliza una señal de
error residual de predicción lineal (LP) en lugar de la señal de
habla. El residuo LP se utiliza por codificadores de habla tal
como, por ejemplo, el codificador CELP. El cálculo del residuo LP se
realiza de manera ventajosa proporcionando la señal de habla a un
filtro LP inverso (no mostrado). La función de transferencia del
filtro LP inverso, A(z), se calcula según la siguiente
ecuación:
en la que los coeficientes
a1 son derivaciones de filtro que presentan valores
predefinidos escogidos según procedimientos conocidos, tal como se
describe en la patente estadounidense anteriormente mencionada nº
5.414.796 y la patente estadounidense nº 6.456.964. El número
p indica el número de muestras previas que utiliza el filtro
LP inverso para fines de predicción. En una realización particular,
p se fija a
diez.
El calculador 406 de parámetros obtiene varios
parámetros basándose en la trama actual. En una realización estos
parámetros incluyen al menos uno de lo siguiente: coeficientes de
filtro de codificado predictivo lineal (LPC), coeficientes de par
espectral de línea (LSP), funciones de autocorrelación normalizadas
(NACF), retardo de bucle abierto, velocidades de cruce por cero,
energías de banda y la señal residual de formante. El cálculo de
los coeficientes LPC, coeficientes LSP, retardo de bucle abierto,
energías de banda y la señal residual de formante se describe en
detalle en la patente estadounidense anteriormente mencionada nº
5.414.796. El cálculo de las NACF y las velocidades de cruce por
cero se describe en detalle en la patente estadounidense
anteriormente mencionada nº 5.911.128.
El calculador 406 de parámetros está acoplado al
módulo 408 de clasificación de modos. El calculador 406 de
parámetros proporciona los parámetros al módulo 408 de clasificación
de modos. El módulo 408 de clasificación de modos está acoplado
para conmutar dinámicamente entre los modos 410 de codificación
trama por trama para seleccionar el modo 410 de codificación más
apropiado para la trama actual. El módulo 408 de clasificación de
modos selecciona un modo 410 de codificación particular para la
trama actual comparando los parámetros con umbrales predefinidos
y/o valores techo. Basándose en el contenido de energía de la trama,
el módulo 408 de clasificación de modos clasifica la trama como no
habla, o habla inactiva (por ejemplo, silencio, ruido de fondo, o
pausas entre palabras), o habla. Basándose en la periodicidad de la
trama, el módulo 408 de clasificación de modos clasifica entonces
tramas de habla como un tipo particular de habla, por ejemplo,
sonora, sorda o transitoria.
El habla sonora es habla que exhibe un grado
relativamente alto de periodicidad. Un segmento de habla sonora se
muestra en el gráfico de la figura 6. Como se indica, el periodo de
tono es una componente de una trama de habla que puede utilizarse
para favorecer el análisis y reconstrucción de los contenidos de la
trama. El habla sorda comprende normalmente sonidos consonánticos.
Las tramas de habla transitoria son normalmente transiciones entre
habla sonora y sorda. Las tramas que no se clasifican ni como
sonoras ni como sordas se clasifican como habla transitoria. Los
expertos en la técnica entenderán que podría emplearse cualquier
esquema de clasificación razonable.
Clasificar las tramas de habla es ventajoso
porque pueden utilizarse diferentes modos 410 de codificación para
codificar diferentes tipos de habla, dando como resultado un uso
eficaz del ancho de banda en un canal compartido tal como el canal
404 de comunicación. Por ejemplo, ya que el habla sonora es
periódica y por tanto altamente predictiva, pueden emplearse un
modo 410 de codificación altamente predictivo, de tasa de
transmisión de datos baja para codificar habla sonora. Los módulos
de clasificación tal como el módulo 408 de clasificación se
describen en detalle en el documento anteriormente mencionado US
6.691.084 y en la patente estadounidense nº US 6.640.209 titulada
CLOSED-LOOP MULTIMODE MIXED-DOMAIN
LINEAR PREDICTION (MDLP) SPEECH CODER, presentada el 26 de febrero
de 1999, transferida al cesionario de la presente invención, e
incorporada por completo a este documento por medio de
referencia.
El módulo 408 de clasificación de modos
selecciona un modo 410 de codificación para la trama actual
basándose en la clasificación de la trama. Los diversos modos 410
de codificación están acoplados en paralelo. Uno o más de los modos
410 de codificación pueden estar operativos en cualquier momento
dado. Sin embargo, sólo un modo 410 de codificación opera de manera
ventajosa en cualquier momento dado, y se selecciona según la
clasificación de la trama actual.
Los diferentes modos 410 de codificación operan
de manera ventajosa según diferentes velocidades de transmisión de
bits de codificado, diferentes esquemas de codificado, o diferentes
combinaciones de tasa de transmisión de datos de codificado y
esquema de codificado. Las diversas velocidades de codificado
utilizadas pueden ser velocidad completa, velocidad de medio,
velocidad de cuarto, y/o velocidad de octavo. Los diversos esquemas
de codificado utilizados pueden ser codificado CELP, codificado de
periodo de tono de prototipo (PPP) (o codificado de interpolación
de forma de onda (WI)), y/o codificado de predicción lineal de ruido
excitada (NELP). De este modo, por ejemplo, un modo 410 de
codificación particular podría ser CELP a velocidad completa, otro
modo 410 de codificación podría ser CELP velocidad de medio, otro
modo 410 de codificación podría ser PPP a velocidad de cuarto, y
otro modo 410 de codificación podría ser NELP.
Según un modo 410 de codificación CELP, un
modelo de tracto vocal predictivo lineal se excita con una versión
cuantificada de la señal residual LP. Los parámetros cuantificados
para la toda la trama anterior se utilizan para reconstruir la
trama actual. El modo 410 de codificación CELP proporciona de este
modo una reproducción relativamente precisa de habla pero a
expensas de una velocidad de retransmisión de bits de codificado
relativamente alta. El modo 410 de codificación CELP puede
utilizarse de manera ventajosa para codificar tramas clasificadas
como tramas transitorias. Un codificador de habla CELP de velocidad
variable ejemplar se describe en detalle en la patente
estadounidense anteriormente mencionada nº 5.414.796.
Según un modo 410 de codificación NELP, se
utiliza una señal filtrada de ruido seudoaletario para modelar la
trama de habla. El modo 410 de codificación NELP es una técnica
relativamente simple que consigue una tasa de transmisión de datos
baja. El modo 412 de codificación NELP puede utilizarse para
favorecer la codificación de tramas clasificadas como habla sorda.
Un modo de codificación NELP ejemplar se describe en detalle en la
patente estadounidense anteriormente mencionada US 6.456.964.
Según un modo 410 de codificación PPP, sólo se
codifica un subconjunto de los periodos de tono en cada trama. Los
periodos restantes de la señal de habla se reconstruyen interpolando
entre estos periodos de prototipo. En una implementación de dominio
de tiempo de codificado PPP, se calcula un primer conjunto de
parámetros que describe cómo modificar un periodo de prototipo
anterior para que se aproxime al periodo de prototipo actual. Se
seleccionan uno o más vectores de código que, cuando se suman,
aproximan la diferencia entre el periodo de prototipo actual y el
periodo de prototipo anterior modificado. Un segundo conjunto de
parámetros describe estos vectores de código seleccionados. En una
implementación de dominio de frecuencia de codificado PPP, se
calcula un conjunto de parámetros para describir los espectros de
amplitud y fase del prototipo. Esto puede realizarse o bien en un
sentido absoluto, o bien predictivamente como se describe
posteriormente en el presente documento. En cualquier
implementación de codificado PPP, el descodificador sintetiza una
señal de habla de salida reconstruyendo un prototipo actual
basándose en el primer y segundo conjuntos de parámetros. La señal
de habla se interpola entonces sobre la región entre el periodo de
prototipo reconstruido actual y el periodo de prototipo
reconstruido anterior. El prototipo es por tanto una parte de la
trama actual que se interpolará linealmente con prototipos de
tramas anteriores que estaban situadas de manera similar dentro de
la trama para reconstruir la señal de habla o la señal residual LP
en el descodificador (es decir, un periodo de prototipo pasado se
utiliza como un predictor del periodo de prototipo actual). Un
codificador de habla PPP ejemplar se describe en detalle en la
patente estadounidense anteriormente mencionada
nº 6.456.964.
nº 6.456.964.
Cifrar el periodo de prototipo en lugar de toda
la trama de habla reduce la tasa de transmisión de datos de
codificado requerida. Las tramas clasificadas como habla sonora
pueden cifrarse de manera ventajosa con un modo 410 de codificación
PPP. Como se ilustra en la figura 6, el habla sonora contiene
componentes periódicas, de lenta variación en el tiempo que se
aprovechan para favorecer el modo 410 de codificación PPP.
Aprovechando la periodicidad de la voz sonora, el modo 410 de
codificación PPP puede conseguir una velocidad de transferencia de
bits más baja que el modo 410 de codificación CELP.
El modo 410 de codificación seleccionado se
acopla al módulo 412 de formateo de paquetes. El modo 410 de
codificación seleccionado codifica, o cuantifica, la trama actual y
proporciona los parámetros de trama cuantificada al módulo 412 de
formateo de paquetes. El módulo 412 de formateo de paquetes ensambla
de manera ventajosa la información cuantificada en paquetes para la
transmisión sobre el canal 404 de comunicación. En una realización
el módulo 412 de formateo de paquetes está configurado para
proporcionar codificado de corrección de errores y formatear el
paquete según la norma IS-95. El paquete se
proporciona a un transmisor (no mostrado), se convierte a formato
analógico, se modula, y se transmite sobre el canal 404 de
comunicación a un receptor (no mostrado tampoco), que recibe,
demodula, y digitaliza el paquete, y proporciona el paquete al
descodificador 402.
En el descodificador 402, el módulo 414
desensamblador de paquetes y detector de pérdida de paquetes recibe
el paquete desde el receptor. El módulo 414 desensamblador de
paquetes y detector de pérdida de paquetes está acoplado para
conmutar dinámicamente entre los modos 416 de descodificación
paquete por paquete. El número de modos 416 de descodificación es
el mismo que el número de modos 410 de codificación, y como un
experto en la materia reconocería, cada modo 410 de codificación
numerado está asociado con un modo 416 de descodificación
respectivo numerado de manera similar configurado para emplear la
misma tasa de transmisión de datos de codificado y esquema de
codificado.
Si el módulo 414 desensamblador de paquetes y
detector de pérdida de paquetes detecta el paquete, el paquete se
desensambla y se proporciona al modo 416 de descodificación
pertinente. Si el módulo 414 desensamblador de paquetes y detector
de pérdida de paquetes no detecta un paquete, se declara un paquete
perdido y el descodificador 418 de borrado realiza de manera
ventajosa un procesamiento de borrado de trama como se describe en
una solicitud relacionada presentada junto con la presente,
titulada FRAME ERASURE COMPENSATION METHOD IN A VARIABLE RATE
SPEECH CODER, patente estadounidense nº US 6.584.438, y transferida
al cesionario de la presente invención.
La serie paralela de modos 416 de
descodificación y el descodificador 418 de borrado están acoplados
al filtro 420 posterior. El modo 416 de descodificación pertinente
descodifica, o descuantifica, el paquete y proporciona la
información al filtro 420 posterior. El filtro 420 posterior
reconstruye, o sintetiza, la trama de habla, emitiendo tramas de
habla sintetizada, \hat{s}(n). En la patente estadounidense
anteriormente mencionada nº 5.414.796 y la patente estadounidense
nº US 6.456.964 se describen en detalle modos de descodificación y
filtros posteriores ejemplares.
En una realización no se transmiten los propios
parámetros cuantificados. En su lugar, se transmiten índices de
libro de código que especifican direcciones en varias tablas de
consulta (LUT) (no mostradas) en el descodificador 402. El
descodificador 402 recibe los índices de libro de código y busca las
diversas LUT de libro de código para valores de parámetros
adecuados. En consecuencia, los índices de libro de código para
parámetros tales como, por ejemplo, retardo de tono, ganancia de
libro de código adaptable, y LSP pueden transmitirse, y el
descodificador 402 busca tres LUT de código asociadas.
Según el modo 410 de codificación CELP, se
transmiten los parámetros de retardo de tono, amplitud, fase y LSP.
Los índices de libro de código LSP se transmiten ya que la señal
residuo LP va a sintetizarse en el descodificador 402. Además, se
transmite la diferencia entre el valor de retardo de tono para la
trama actual y el valor de retardo de tono para la trama
anterior.
Según un modo de codificación PPP convencional
en el que va a sintetizarse la señal de habla en el descodificador,
sólo se transmiten los parámetros de retardo de tono, amplitud y
parámetros de fase. La tasa de transmisión de datos inferior
empleada por las técnicas de codificado de habla PPP convencionales
no permiten la transmisión de tanto la información de retardo de
tono absoluto como los valores de la diferencia de retardo de tono
relativo.
Según una realización, las tramas altamente
periódicas tales como las tramas de habla sonora se transmiten con
un modo 410 de codificación PPP de tasa de transmisión de datos baja
que cuantifica la diferencia entre el valor de retardo de tono para
la trama actual y el valor de retardo de tono para la trama anterior
para la transmisión, y no cuantifica el valor de retardo de tono
para la trama actual para la transmisión. Ya que las tramas sonoras
son altamente periódicas por naturaleza, transmitir el valor de
diferencia como el opuesto al valor de retardo de tono absoluto
permite conseguir una velocidad de codificado de bits inferior. En
una realización esta cuantificación se generaliza de manera que se
calcula una suma ponderada de los valores de parámetros para las
tramas anteriores, en la que la suma de los pesos es uno, y la suma
ponderada se resta del valor de parámetros para la trama actual.
Entonces la diferencia se
cuantifica.
cuantifica.
En una realización la cuantificación predictiva
de los parámetros LPC se realiza según la siguiente descripción.
Los parámetros LPC se convierten en información espectral de línea
(LSI) (o varios LSP), que se sabe que son más adecuados para la
cuantificación. El vector LSI de dimensión N para la trama
M-ésima puede denotarse como 2 En el esquema
de cuantificación predictiva, se calcula el vector de error objetivo
según la siguiente ecuación:
en la que los valores
4 son las contribuciones de los parámetros LSI de un
número de tramas, P, inmediatamente anteriores a la trama
M, y los valores 5 son pesos respectivos de
manera que
6
Las contribuciones, \hat{U}, pueden ser
iguales a los parámetros LSI cuantificados o incuantificados de la
correspondiente trama pasada. Un esquema de este tipo se conoce como
un procedimiento autoregresivo (AR). Como alternativa,
contribuciones, \hat{U}, pueden ser iguales al vector de error
cuantificado o incuantificado correspondiente a los parámetros LSI
de la correspondiente trama pasada. Un esquema de este tipo se
conoce como un procedimiento de media móvil (MA).
El vector de error objetivo, T, se
cuantifica entonces a \hat{T} utilizando cualquiera de diversas
técnicas de cuantificación de vectores (VQ) conocidas incluyendo,
por ejemplo, VQ dividido o VQ de varias etapas. Varias técnicas VQ
se describen en A. Gersho & R.M. Gray, Vector Quantization
and Signal Compression (1992). El vector LSI cuantificado se
reconstruye entonces a partir del vector de error objetivo
cuantificado, \hat{T}, utilizando la siguiente ecuación:
En una realización el esquema de cuantificación
anteriormente descrito se implementa con P=2, N=10
y
El vector objetivo anteriormente citado,
T, puede cuantificarse de manera ventajosa utilizando
dieciséis bits mediante el procedimiento VQ dividido bien
conocido.
Debido a su naturaleza periódica, las tramas
sonoras pueden cifrarse utilizando un esquema en el que se utiliza
todo el conjunto de bits para cuantificar un periodo de tono de
prototipo, o un conjunto finito de periodos de tono de prototipo,
de la trama de una longitud conocida. Esta longitud del periodo de
tono de prototipo se llama retardo de tono. Estos periodos de tono
de prototipo, y posiblemente los periodos de tono de prototipo de
tramas adyacentes, pueden utilizarse entonces para reconstruir toda
la trama de habla sin pérdida de calidad perceptiva. Este esquema
PPP de extracción del periodo de tono de prototipo de una trama de
habla y utilización de estos prototipos para reconstruir toda la
trama se describe en la patente estadounidense anteriormente
mencionada nº US 6.456.964.
En una realización, un cuantificador 500 se
utiliza para cuantificar tramas altamente periódicas tales como
tramas sonoras según un esquema de codificado PPP, como se muestra
en la figura7. El cuantificador 500 incluye un extractor 502 de
prototipos, un conversor 504 de dominio de frecuencia, un
cuantificador 506 de amplitud, y un cuantificador 508 de fase. El
extractor 502 de prototipos está acoplado al conversor 504 de
dominio de frecuencia. El conversor 504 de dominio de frecuencia
está acoplado al cuantificador 506 de amplitud y al cuantificador
508 de fase.
El extractor 502 de prototipos extrae un
prototipo de periodo de tono de una trama de habla,
s(n). En una realización alternativa, la trama es una
trama de residuo LP. El extractor 502 de prototipos proporciona el
prototipo de periodo de tono al conversor 504 de dominio de
frecuencia. El conversor 504 de dominio de frecuencia transforma el
prototipo de una representación de domino de tiempo a un
representación de dominio de frecuencia según cualquiera de varios
procedimientos conocidos incluyendo, por ejemplo, la transformada
de Fourier discreta (DFT) o la transformada rápida de Fourier (FFT).
El conversor 504 de domino de frecuencia genera un vector de
amplitud y un vector de fase. El vector de amplitud se proporciona
al cuantificador 506 de amplitud y el vector de fase se proporciona
al cuantificador 508 de fase. El cuantificador 506 de amplitud
cuantifica el conjunto de amplitudes, generando un vector de
amplitud cuantificado, \hat{A}, y el cuantificador 508 de fase
cuantifica el conjunto de fases, generando un vector de fase
cuantificado, \hat{\phi}.
Otros esquemas para cifrar tramas sonoras, tales
como, por ejemplo, codificado de habla de excitación multibanda
(MBE) y codificado armónico, transforman toda la trama (o bien
residuo LP o bien habla) o partes de la misma en valores de dominio
de frecuencia mediante representaciones de transformada de Fourier
que comprenden amplitudes y fases que pueden cuantificarse y
utilizarse para la síntesis en habla en el descodificador (no
mostrado). Para utilizar el cuantificador de la figura 7 con tales
esquemas de codificado, se omite el extractor 502 de prototipos, y
el conversor 504 de dominio de frecuencia sirve para descomponer las
representaciones espectrales de frecuencia de corta duración
complejas de la trama en un vector de amplitud y un vector de fase.
Y en cualquier esquema de codificado, puede aplicarse primero una
función de presentación en ventanas adecuada tal como, por ejemplo,
una ventana Hamming. Un esquema de codificado de habla MBE ejemplar
se describe en D.W. Griffin & J.S. Lim, "Multiband
Excitation Vocoder", 36(8) IEE Trans. on ASSP
(agosto de 1988). Un esquema de codificado armónico de habla
ejemplar se describe en L.B. Almeida & J.M. Tribolet,
"Harmonic Coding: A Low Bit-Rate, Good
Quality, Speech Coding Technique," Proc. ICASSP `82
1664-1667 (1982).
Ciertos parámetros deben cuantificarse para
cualquiera de los esquemas de codificado de tramas sonoras
anteriores. Estos parámetros son el retardo de tono o la frecuencia
de tono, y la forma de onda de periodo de tono de prototipo de
longitud de retardo de tono, o las representaciones espectrales de
corta duración (por ejemplo, representaciones de Fourier) de toda
la trama o una parte de la misma.
En una realización, la cuantificación predictiva
del retardo de tono o la frecuencia de tono se realiza según la
siguiente descripción. La frecuencia de tono y el retardo de tono
pueden obtenerse de manera unívoca entre sí escalando el recíproco
del otro con un factor de escala fijo. En consecuencia, es posible
cuantificar cualquiera de estos valores utilizando el siguiente
procedimiento. El retardo de tono (o la frecuencia de tono) para la
trama "m" puede denotarse como L_{m}. El
retardo de tono, L_{m}, puede cuantificarse a un calor
cuantificado \hat{L}_{m}, según la siguiente ecuación:
en la que los valores
L_{m1}, L_{m2},..., L_{mN} son retardos
de tono (o las frecuencias de tono) para las tramas m_{1},
m_{2},...,m_{N}, respectivamente, los valores
\eta_{m1}, \eta_{m2},..., \eta_{mN} son pesos
correspondientes, y \hat{\delta} L_{m} se obtiene a
partir de la siguiente
ecuación:
y se cuantifica \hat{\delta}
L_{m} utilizando cualquiera de diversas técnicas de
cuantificación escalar o vectorial conocidas. En una realización
particular se implementó un esquema de codificado de habla sonora,
de tasa de transmisión de datos baja que cuantifica \delta
L_{m} = L_{m} - L_{m-1}
utilizando sólo cuatro
bits.
En una realización, la cuantificación del
periodo de tono de prototipo o el espectro de corta duración de
toda la trama o partes de la misma se realiza según la siguiente
descripción. Como se trató anteriormente, el periodo de tono de
prototipo de una trama sonora puede cuantificarse eficazmente (o
bien en el dominio de habla o en bien en el dominio residual LP)
transformando primero la forma de onda de dominio de tiempo al
dominio de frecuencia en el que la señal puede representarse como un
vector de amplitudes y fases. Todos o algunos elementos de los
vectores de amplitud y fase pueden entonces cuantificarse por
separado utilizando una combinación de los procedimiento descritos
posteriormente. También como se mencionó anteriormente, en otros
esquemas tales como esquemas de codificado MBE o armónico, las
representaciones espectrales de frecuencia de corta duración
complejas de la trama pueden descomponerse en vectores de amplitudes
y de fase. Por lo tanto, los siguientes procedimientos de
cuantificación, o interpretaciones adecuadas de los mismos, pueden
aplicarse a cualquiera de las técnicas de codificado descritas
anteriormente.
En una realización, los valores de amplitud
pueden cuantificarse como sigue. El espectro de amplitud puede ser
un vector de dimensión fija o un vector de dimensión variable.
Además, el espectro de amplitud puede representarse como una
combinación de un vector de potencia de dimensión inferior y un
vector de espectro de amplitud normalizada obtenido normalizando el
espectro de amplitud original con el vector de potencia. El
siguiente procedimiento puede aplicarse a cualquier, o partes de
los mismos, elemento anteriormente mencionado (concretamente, el
espectro de amplitud, el espectro de potencia, o el espectro de
amplitud normalizada). Un subconjunto del vector de amplitud (o
potencia, o amplitud normalizada) para la trama "m"
puede denotarse como A_{m}. El vector de error de predicción de
amplitud (o potencia, o amplitud normalizada) se calcula primero
utilizando la siguiente ecuación:
en la que los valores A_{m1},
A_{m2},...A_{mN} son el subconjunto del vector de amplitud (o
potencia, o amplitud normalizada) para las tramas m_{1},
m_{2},..., m_{N}, respectivamente, y los valores
12 son los transpuestos de los correspondientes
vectores de
peso.
El vector de error de predicción puede
cuantificarse entonces utilizando cualquiera de los diversos
procedimientos VQ conocidos a un vector de error cuantificado
denominado \hat{\delta} A_{m}. La versión cuantificada de
A_{m} se da entonces mediante la siguiente ecuación:
Los pesos á establecen la cantidad de predicción
en el esquema de cuantificación. En una realización particular, el
esquema predictivo descrito anteriormente se ha implementado para
cuantificar un vector de potencia de dos dimensiones que utiliza
seis bits, y para cuantificar un vector de amplitud normalizada de
diecinueve dimensiones que utiliza doce bits. De esta manera, es
posible cuantificar el espectro de amplitud de un periodo de tono
de prototipo que utiliza un total de dieciocho bits.
En una realización, los valores de fase pueden
cuantificarse como sigue. Un subconjunto del vector de fase para la
trama "m" puede denotarse ö_{m}. Es posible
cuantificar ö_{m} como igual a la fase de una forma de onda de
referencia (dominio de tiempo o dominio de frecuencia de toda la
trama o una parte de la misma), y se aplican cero o más
desplazamientos lineales a una o más bandas de la transformación de
la forma de onda de referencia. Un técnica de cuantificación de
este tipo se describe en la patente estadounidense número US
6.397.175, titulada METHOD AND APPARATUS FOR SUBSAMPLING PHASE
SPECTRUM INFORMATION, presentada el 19 de julio de 1999,
transferida al cesionario de la presente invención. Una forma de
onda de referencia de este tipo podría ser una transformación de la
forma de onda de la trama m_{N}, o cualquier otra forma de
onda predeterminada.
Por ejemplo, en una realización que emplea un
esquema de codificado de habla sonora de velocidad de transferencia
de bits baja, el residuo LP de la trama "m-1" se
extiende primero según un contorno de tono preestablecido (como se
ha incorporado en la norma provisional de la Asociación de la
Industria de las Telecomunicaciones TIA/EIA
IS-127), en la trama "m". Entonces se
extrae un periodo de tono de prototipo de la forma de onda
extendida de una manera similar a la extracción del prototipo
incuantificado de la trama "m". Entonces se obtienen
las fases, ö'_{m-1}, del prototipo extraído.
Entonces los siguientes valores se igualan: ö_{m} =
ö'_{m-1}. De esta manera es posible cuantificar
las fases del prototipo de la trama "m" mediante la predicción
a partir de las fases de una transformación de la forma de onda de
la trama "m-1" no utilizando ningún
bit.
En una realización particular, los esquemas de
cuantificación predictiva anteriormente descritos se han
implementado para cifrar los parámetros LPC y el residuo LP de una
trama de habla sonora utilizando sólo treinta y ocho bits.
Por tanto, se ha descrito un procedimiento y
aparato novedosos y mejorados para cuantificar de manera predictiva
habla sonora. Los expertos en la técnica entenderían que los datos,
instrucciones, órdenes, información, señales, bits, símbolos y
elementos de código a los que puede hacerse referencia a través de
la descripción anterior se representan de manera ventajosa mediante
voltajes, corrientes, ondas electromagnéticas, partículas o campos
magnéticos, partículas o campos ópticos, o cualquier combinación de
los mismos. Los expertos apreciarán además que los diversos
bloques, módulos, circuitos, y etapas de algoritmo lógicos
ilustrativos descritos en relación con las realizaciones dadas a
conocer en el presente documento pueden implementarse como hardware
electrónico, software informático o combinaciones de ambos. Los
diversos componentes, bloques, módulos, circuitos y etapas
ilustrativos se han descrito generalmente en términos de su
funcionalidad. El que la funcionalidad se implemente como hardware
o como software depende de la aplicación particular y limitaciones
de diseño impuestas en todo el sistema. Los expertos reconocen la
intercambiabilidad de hardware y software en estas circunstancias, y
cómo implementar de la mejor manera la funcionalidad descrita para
cada aplicación particular. Como ejemplos, los diversos bloques,
módulos, circuitos y etapas de algoritmo lógicos descritos en
relación con las realizaciones dadas a conocer en el presente
documento pueden implementarse o realizarse con un procesador de
señales digitales (DSP), un circuito integrado de aplicación
específica (ASIC), una serie de puertas de campo programables
(FPGA), u otro dispositivo lógico programable, lógica de transistor
o puerta discreta, componentes de hardware discretos tales como,
por ejemplo, registros y FIFO, un procesador que ejecuta un conjunto
de instrucciones firmware, cualquier módulo de software programable
convencional y un procesador, o cualquier combinación de los mismos
diseñada para realizar las funciones descritas en el presente
documento. El procesador puede ser de manera ventajosa un
microprocesador, pero como alternativa, el procesador puede ser
cualquier procesador, controlador, microcontrolador o máquina de
estados convencionales. El módulo de software podría residir en
memoria RAM, memoria flash, memoria ROM, memoria EPROM, memoria
EEPROM, registros, disco duro, un disco extraíble, un
CD-ROM, o cualquier forma de medio de
almacenamiento conocida en la técnica. Como se ilustra en la figura
8, un procesador 600 ejemplar está acoplado de manera ventajosa a
un medio 602 de almacenamiento para leer información desde, y
escribir información en, el medio 602 de almacenamiento. Como
alternativa, el medio 602 de almacenamiento puede estar integrado
en el procesador 600. El procesador 600 y el medio 602 de
almacenamiento pueden residir en un ASIC (no mostrado). El ASIC
puede residir en un teléfono (no mostrado). Como alternativa, el
procesador 600 y el medio 602 de almacenamiento pueden residir en
un teléfono. El procesador 600 puede implementarse como una
combinación de un DSP y un microprocesador, o como dos
microprocesadores conjuntamente con un núcleo DSP, etc.
De este modo, se han mostrado y descrito las
realizaciones preferidas de la presente invención. Sin embargo,
sería evidente para un experto en la técnica que pueden realizarse
numerosas alteraciones de las realizaciones dadas a conocer en el
presente documento sin apartarse del alcance de la invención. Por lo
tanto, la presente invención no va a limitarse excepto según las
siguientes reivindicaciones.
Claims (22)
1. Un procesador adaptado para ejecutar un
conjunto de instrucciones almacenadas en un medio de almacenamiento,
estando las mencionadas instrucciones adaptadas para realizar un
procedimiento de acuerdo con la reivindicación 6.
2. El procesador de la reivindicación 1 en el
que el valor de retardo de tono cuantificado se obtiene a partir de
un valor \deltaL_{m} en base a la fórmula:
en la que los valores L_{m1},
L_{m2}, ..., L_{mN} son los retardos de tono para las tramas
m_{1}, m_{2}, ..., m_{N}, respectivamente, y los valores
\eta_{m1}, \eta_{m2, ...,} \eta_{mN} son los pesos
correspondientes a las tramas m_{1}, m_{2}, ..., m_{N},
respectivamente.
3. El procesador de la reivindicación 1, en el
que las componentes del vector de error objetivo cuantificado de
amplitud se basan en un vector de error objetivo de componentes de
amplitud (\deltaA_{m}) que se describe por medio de la
fórmula:
en la que los valores A_{m1},
A_{m2}, ..., A_{mN} son un subconjunto del vector de amplitud
para las tramas m_{1}, m_{2}, ..., m_{N}, respectivamente, y
los valores \alpha^{T}_{m}, \alpha^{T}_{m_{1}},...,
\alpha^{T}_{m_{N}} son los traspuestos de los correspondientes
vectores
ponderados.
4. El procesador de la reivindicación 1, en el
que los valores de fase cuantificados se basan en una fórmula:
en la que
\varphi'_{m-1} representa las fases de un
prototipo
extraído.
5. El procesador de la reivindicación 1, en el
que el vector de error objetivo cuantificado de las componentes de
información espectral se basa en un vector de error objetivo de
componentes de información espectral de línea (T_{M}^{n}) que
se describe por medio de la fórmula:
en la que L_{M}^{n} se refiere
a un vector de información espectral de línea de n dimensiones para
la trama M, los valores 18 son contribuciones de
los parámetros de información espectral de línea de un número de
tramas, P, inmediatamente antes de la trama M, y los valores
19 son los pesos respectivos de forma
que
6. Un procedimiento para formar un conjunto de
parámetros de trama de habla cuantificados, que comprende:
la cuantificación de manera predictiva de un
valor de retardo de tono;
la cuantificación de un vector de error objetivo
de componentes de amplitud;
la cuantificación de manera predictiva de
valores de fase; y
la cuantificación de un vector de error objetivo
de los componentes de información espectral de línea, en la que el
valor de retardo de tono, las componentes de amplitud, los valores
de fase y las componentes de información espectral lineal han sido
extraídas de una trama de habla de voz.
7. El procedimiento de la reivindicación 6, en
el que el valor de retardo de tono cuantificado se obtiene a partir
del valor \deltaL_{m}, en base a la fórmula:
en la que los valores L_{m1},
L_{m2}, ..., L_{mN} son los retardos de tono para las tramas
m_{1}, m_{2}, ..., m_{N}, respectivamente, y los valores
\eta_{m1}, \eta_{m2},..., \eta_{mN}, son los pesos
correspondientes a las tramas m_{1}, m_{2}, ..., m_{N},
respectivamente.
8. El procedimiento de la reivindicación 6 en el
que el vector de error objetivo cuantificado de las componentes de
amplitud se basa en un vector de error objetivo de componentes de
amplitud (\deltaA_{m}) que se describe por medio de una
fórmula:
en la que los valores A_{m1},
A_{m2},..., A_{mN} son un subconjunto del vector de amplitud
para las tramas m_{1}, m_{2}, ..., m_{N}, respectivamente, y
los valores 23 son los traspuestos de los
correspondientes vectores de
peso.
9. El procedimiento de la reivindicación 6 en el
que los valores de fase cuantificados se basan en una fórmula:
En la que \varphi'_{m-1}
representa las fases de un prototipo extraído.
10. El procedimiento de la reivindicación 6 en
el que el vector de error objetivo cuantificado de los componentes
de información espectral se basa en un vector de error objetivo de
los componentes de información espectral (T_{M}^{n}) que se
describe por medio de la fórmula:
en la que L_{M}^{n}_{ }se
refiere a un vector de información espectral de línea de n
dimensiones para la trama M, los
valores
son contribuciones de los
parámetros de información espectral de un número de tramas, P,
inmediatamente anteriores a la trama M y los
valores
son los respectivos pesos tales
como,
11. El procedimiento de la reivindicación 6, en
el que el valor de retardo de tono, las componentes de amplitud,
los valores de fase y las componentes de información espectral de
línea han sido extraídos de una trama de habla de voz, que
comprende además la extracción del valor de retardo de tono, las
componentes de amplitud, los valores de fase y las componentes de
información espectral de línea de una pluralidad de tramas de habla
de voz.
12. El procedimiento de la reivindicación 6, en
el que el valor de retardo de tono, las componentes de amplitud,
los valores de fase y las componentes de información espectrales de
línea han sido extraídas de una trama de habla de voz,
comprendiendo de manera adicional la transmisión del conjunto de
parámetros de trama de voz cuantificados a través de un canal de
comunicaciones sin hilos.
13. Un aparato que comprende:
un medio para cuantificar de manera predictiva
un valor de retardo de tono;
un medio para cuantificar un vector error
objetivo de componentes de amplitud;
un medio para predecir valores de fase
cuantificados;
un medio para cuantificar un vector de error
objetivo de componentes de información espectral lineales, en el
que el valor de retardo de tono, las componentes de amplitud, los
valores de fase y las componentes de información espectral de línea
han sido extraídas de una trama de habla de voz.
14. El aparato de la reivindicación 13 que
comprende un medio para transmitir un paquete de los vectores de
error cuantificados a través de un canal de comunicaciones sin
hilos.
15. El aparato de la reivindicación 13, en el
que el valor del retardo de tono cuantificado se obtiene a partir
del valor \deltaL_{m}, en base a la fórmula:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
en la que los valores L_{m1},
L_{m2}, ..., L_{mN} son los retardos de tono para las tramas
m_{1}, m_{2}, ..., m_{N}, respectivamente y los valores
\eta_{m1}, \eta_{m2}, ..., \eta_{mN}, son los pesos
correspondientes a las tramas m_{1}, m_{2}, ..., m_{N},
respectivamente.
16. El aparato de la reivindicación 13 en el que
el vector de error objetivo cuantificado de las componentes de
amplitud se basa en un vector de error objetivo de las componentes
de amplitud (\deltaA_{m}) que se describe por medio de la
fórmula:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
en la que los valores A_{m1},
A_{m2}, ..., A_{mN}, son un subconjunto del vector de amplitud
para las tramas m_{1}, m_{2}, ..., m_{N}, respectivamente, y
los
valores
son las traspuestas de los
correspondientes vectores de
ponderación.
17. El aparato de la reivindicación 13, en el
que los valores de fase cuantificados se basan en una fórmula:
en la que
\varphi'_{m-1} representa las fases de un
prototipo
extraído.
18. El aparato de la reivindicación 13, en el
que el vector de error objetivo cuantificado de las componentes de
información espectrales se basan en un vector de error objetivo de
componentes de información espectrales (T_{M}^{n}) que se
describe por medio de la fórmula:
en la que L_{M}^{n} se refiere
a un vector de información espectral de línea de n dimensiones para
la trama M, los valores 34 son contribuciones de
los parámetros de información espectral de línea de un número de
tramas, P, inmediatamente anterior a la trama M, y los
valores
son los respectivos pesos tal como
36
19. El aparato de la reivindicación 13 que
comprende:
un medio para extraer el valor de retardo de
tono, las componentes de amplitud, los valores de fase y las
componentes de información espectral de línea de una pluralidad de
tramas de habla de voz.
20. El procesador de la reivindicación 1 en el
que el procesador está adaptado de manera adicional para ejecutar
un conjunto de instrucciones almacenadas en un medio de
almacenamiento que está adaptado para extraer un valor de retardo
de tono, las componentes de amplitud, los valores de fase y las
componentes de información espectral de línea de una pluralidad de
tramas de habla de voz.
21. El procesador de la reivindicación 1, en el
que el procesador es además operativo para ejecutar un conjunto de
instrucciones almacenadas en un medio de almacenamiento que son
adaptadas para transmitir el conjunto de parámetros de trama de voz
cuantificado a través de un canal de comunicaciones sin
inalámbrico.
22. Un medio legible por medio de un ordenador
que comprende instrucciones que al producirse la ejecución en un
procesador, provocan que el procesador realice el procedimiento de
las reivindicaciones 6 a la 12.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US55728200A | 2000-04-24 | 2000-04-24 | |
US557282 | 2000-04-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2318820T3 true ES2318820T3 (es) | 2009-05-01 |
Family
ID=24224775
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES07105323T Expired - Lifetime ES2318820T3 (es) | 2000-04-24 | 2001-04-20 | Procedimiento y aparatos de cuantificacion predictiva del habla de voces. |
ES01927283T Expired - Lifetime ES2287122T3 (es) | 2000-04-24 | 2001-04-20 | Procedimiento y aparato para cuantificar de manera predictiva habla sonora. |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES01927283T Expired - Lifetime ES2287122T3 (es) | 2000-04-24 | 2001-04-20 | Procedimiento y aparato para cuantificar de manera predictiva habla sonora. |
Country Status (13)
Country | Link |
---|---|
US (2) | US7426466B2 (es) |
EP (3) | EP2040253B1 (es) |
JP (1) | JP5037772B2 (es) |
KR (1) | KR100804461B1 (es) |
CN (2) | CN1432176A (es) |
AT (3) | ATE553472T1 (es) |
AU (1) | AU2001253752A1 (es) |
BR (1) | BR0110253A (es) |
DE (2) | DE60137376D1 (es) |
ES (2) | ES2318820T3 (es) |
HK (1) | HK1078979A1 (es) |
TW (1) | TW519616B (es) |
WO (1) | WO2001082293A1 (es) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6493338B1 (en) | 1997-05-19 | 2002-12-10 | Airbiquity Inc. | Multichannel in-band signaling for data communications over digital wireless telecommunications networks |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
ATE553472T1 (de) | 2000-04-24 | 2012-04-15 | Qualcomm Inc | Prädikitve dequantisierung von stimmhaften sprachsignalen |
US6584438B1 (en) | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
EP1241663A1 (en) * | 2001-03-13 | 2002-09-18 | Koninklijke KPN N.V. | Method and device for determining the quality of speech signal |
JP4163680B2 (ja) * | 2002-04-26 | 2008-10-08 | ノキア コーポレイション | コードワードインデックスに対してパラメータ値のマッピングを行うための適応型方法およびシステム |
CA2392640A1 (en) | 2002-07-05 | 2004-01-05 | Voiceage Corporation | A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems |
JP4178319B2 (ja) * | 2002-09-13 | 2008-11-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理におけるフェーズ・アライメント |
US7835916B2 (en) * | 2003-12-19 | 2010-11-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Channel signal concealment in multi-channel audio systems |
EP2189978A1 (en) | 2004-08-30 | 2010-05-26 | QUALCOMM Incorporated | Adaptive De-Jitter Buffer for voice over IP |
US8085678B2 (en) | 2004-10-13 | 2011-12-27 | Qualcomm Incorporated | Media (voice) playback (de-jitter) buffer adjustments based on air interface |
US7508810B2 (en) | 2005-01-31 | 2009-03-24 | Airbiquity Inc. | Voice channel control of wireless packet data communications |
US8155965B2 (en) * | 2005-03-11 | 2012-04-10 | Qualcomm Incorporated | Time warping frames inside the vocoder by modifying the residual |
US8355907B2 (en) | 2005-03-11 | 2013-01-15 | Qualcomm Incorporated | Method and apparatus for phase matching frames in vocoders |
JP2009501353A (ja) * | 2005-07-14 | 2009-01-15 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ信号合成 |
US8477731B2 (en) * | 2005-07-25 | 2013-07-02 | Qualcomm Incorporated | Method and apparatus for locating a wireless local area network in a wide area network |
US8483704B2 (en) * | 2005-07-25 | 2013-07-09 | Qualcomm Incorporated | Method and apparatus for maintaining a fingerprint for a wireless network |
KR100900438B1 (ko) * | 2006-04-25 | 2009-06-01 | 삼성전자주식회사 | 음성 패킷 복구 장치 및 방법 |
CN101523486B (zh) * | 2006-10-10 | 2013-08-14 | 高通股份有限公司 | 用于编码和解码音频信号的方法和设备 |
RU2462769C2 (ru) | 2006-10-24 | 2012-09-27 | Войсэйдж Корпорейшн | Способ и устройство кодирования кадров перехода в речевых сигналах |
US8279889B2 (en) * | 2007-01-04 | 2012-10-02 | Qualcomm Incorporated | Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate |
US7979095B2 (en) * | 2007-10-20 | 2011-07-12 | Airbiquity, Inc. | Wireless in-band signaling with in-vehicle systems |
KR101441897B1 (ko) * | 2008-01-31 | 2014-09-23 | 삼성전자주식회사 | 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치 |
KR20090122143A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
US7983310B2 (en) * | 2008-09-15 | 2011-07-19 | Airbiquity Inc. | Methods for in-band signaling through enhanced variable-rate codecs |
US8594138B2 (en) | 2008-09-15 | 2013-11-26 | Airbiquity Inc. | Methods for in-band signaling through enhanced variable-rate codecs |
WO2010036739A1 (en) * | 2008-09-26 | 2010-04-01 | Telegent Systems, Inc. | Devices and methods of digital video and/or audio reception and/or output having error detection and/or concealment circuitry and techniques |
US8036600B2 (en) | 2009-04-27 | 2011-10-11 | Airbiquity, Inc. | Using a bluetooth capable mobile phone to access a remote network |
US8418039B2 (en) | 2009-08-03 | 2013-04-09 | Airbiquity Inc. | Efficient error correction scheme for data transmission in a wireless in-band signaling system |
ES2453098T3 (es) | 2009-10-20 | 2014-04-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Códec multimodo de audio |
US8249865B2 (en) | 2009-11-23 | 2012-08-21 | Airbiquity Inc. | Adaptive data transmission for a digital in-band modem operating over a voice channel |
CA2958360C (en) | 2010-07-02 | 2017-11-14 | Dolby International Ab | Audio decoder |
US8848825B2 (en) | 2011-09-22 | 2014-09-30 | Airbiquity Inc. | Echo cancellation in wireless inband signaling modem |
US9070356B2 (en) * | 2012-04-04 | 2015-06-30 | Google Technology Holdings LLC | Method and apparatus for generating a candidate code-vector to code an informational signal |
US9263053B2 (en) * | 2012-04-04 | 2016-02-16 | Google Technology Holdings LLC | Method and apparatus for generating a candidate code-vector to code an informational signal |
US9041564B2 (en) * | 2013-01-11 | 2015-05-26 | Freescale Semiconductor, Inc. | Bus signal encoded with data and clock signals |
IL294836A (en) * | 2013-04-05 | 2022-09-01 | Dolby Int Ab | Audio encoder and decoder |
SG11201510463WA (en) | 2013-06-21 | 2016-01-28 | Fraunhofer Ges Forschung | Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation |
PT3011555T (pt) | 2013-06-21 | 2018-07-04 | Fraunhofer Ges Forschung | Reconstrução de uma estrutura de discurso |
ES2689120T3 (es) * | 2014-03-24 | 2018-11-08 | Nippon Telegraph And Telephone Corporation | Método de codificación, codificador, programa y soporte de registro |
KR101972007B1 (ko) * | 2014-04-24 | 2019-04-24 | 니폰 덴신 덴와 가부시끼가이샤 | 주파수 영역 파라미터열 생성 방법, 부호화 방법, 복호 방법, 주파수 영역 파라미터열 생성 장치, 부호화 장치, 복호 장치, 프로그램 및 기록 매체 |
CN107731238B (zh) | 2016-08-10 | 2021-07-16 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
CN108074586B (zh) * | 2016-11-15 | 2021-02-12 | 电信科学技术研究院 | 一种语音问题的定位方法和装置 |
CN108280289B (zh) * | 2018-01-22 | 2021-10-08 | 辽宁工程技术大学 | 基于局部加权c4.5算法的冲击地压危险等级预测方法 |
CN109473116B (zh) * | 2018-12-12 | 2021-07-20 | 思必驰科技股份有限公司 | 语音编码方法、语音解码方法及装置 |
Family Cites Families (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4270025A (en) * | 1979-04-09 | 1981-05-26 | The United States Of America As Represented By The Secretary Of The Navy | Sampled speech compression system |
US4901307A (en) | 1986-10-17 | 1990-02-13 | Qualcomm, Inc. | Spread spectrum multiple access communication system using satellite or terrestrial repeaters |
JP2653069B2 (ja) * | 1987-11-13 | 1997-09-10 | ソニー株式会社 | ディジタル信号伝送装置 |
US5023910A (en) * | 1988-04-08 | 1991-06-11 | At&T Bell Laboratories | Vector quantization in a harmonic speech coding arrangement |
JP3033060B2 (ja) * | 1988-12-22 | 2000-04-17 | 国際電信電話株式会社 | 音声予測符号化・復号化方式 |
JPH0683180B2 (ja) | 1989-05-31 | 1994-10-19 | 松下電器産業株式会社 | 情報伝送装置 |
JPH03153075A (ja) | 1989-11-10 | 1991-07-01 | Mitsubishi Electric Corp | ショットキー型撮像素子 |
US5103459B1 (en) | 1990-06-25 | 1999-07-06 | Qualcomm Inc | System and method for generating signal waveforms in a cdma cellular telephone system |
US5247579A (en) * | 1990-12-05 | 1993-09-21 | Digital Voice Systems, Inc. | Methods for speech transmission |
ZA921988B (en) * | 1991-03-29 | 1993-02-24 | Sony Corp | High efficiency digital data encoding and decoding apparatus |
US5265190A (en) * | 1991-05-31 | 1993-11-23 | Motorola, Inc. | CELP vocoder with efficient adaptive codebook search |
CA2568984C (en) | 1991-06-11 | 2007-07-10 | Qualcomm Incorporated | Variable rate vocoder |
US5255339A (en) * | 1991-07-19 | 1993-10-19 | Motorola, Inc. | Low bit rate vocoder means and method |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
US5884253A (en) * | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
EP0751496B1 (en) * | 1992-06-29 | 2000-04-19 | Nippon Telegraph And Telephone Corporation | Speech coding method and apparatus for the same |
JPH06259096A (ja) * | 1993-03-04 | 1994-09-16 | Matsushita Electric Ind Co Ltd | 音声符号化装置 |
SG43128A1 (en) * | 1993-06-10 | 1997-10-17 | Oki Electric Ind Co Ltd | Code excitation linear predictive (celp) encoder and decoder |
IT1270439B (it) * | 1993-06-10 | 1997-05-05 | Sip | Procedimento e dispositivo per la quantizzazione dei parametri spettrali in codificatori numerici della voce |
WO1995010760A2 (en) * | 1993-10-08 | 1995-04-20 | Comsat Corporation | Improved low bit rate vocoders and methods of operation therefor |
US5784532A (en) | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
CA2154911C (en) * | 1994-08-02 | 2001-01-02 | Kazunori Ozawa | Speech coding device |
JP3003531B2 (ja) * | 1995-01-05 | 2000-01-31 | 日本電気株式会社 | 音声符号化装置 |
JP2907019B2 (ja) * | 1994-09-08 | 1999-06-21 | 日本電気株式会社 | 音声符号化装置 |
JP3153075B2 (ja) * | 1994-08-02 | 2001-04-03 | 日本電気株式会社 | 音声符号化装置 |
TW271524B (es) | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
JPH08179795A (ja) * | 1994-12-27 | 1996-07-12 | Nec Corp | 音声のピッチラグ符号化方法および装置 |
US5699478A (en) * | 1995-03-10 | 1997-12-16 | Lucent Technologies Inc. | Frame erasure compensation technique |
US5710863A (en) * | 1995-09-19 | 1998-01-20 | Chen; Juin-Hwey | Speech signal quantization using human auditory models in predictive coding systems |
TW321810B (es) * | 1995-10-26 | 1997-12-01 | Sony Co Ltd | |
JP3653826B2 (ja) * | 1995-10-26 | 2005-06-02 | ソニー株式会社 | 音声復号化方法及び装置 |
US5809459A (en) * | 1996-05-21 | 1998-09-15 | Motorola, Inc. | Method and apparatus for speech excitation waveform coding using multiple error waveforms |
JP3335841B2 (ja) * | 1996-05-27 | 2002-10-21 | 日本電気株式会社 | 信号符号化装置 |
JPH1091194A (ja) * | 1996-09-18 | 1998-04-10 | Sony Corp | 音声復号化方法及び装置 |
JPH10124092A (ja) * | 1996-10-23 | 1998-05-15 | Sony Corp | 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置 |
CN1262994C (zh) * | 1996-11-07 | 2006-07-05 | 松下电器产业株式会社 | 噪声消除器 |
US6202046B1 (en) * | 1997-01-23 | 2001-03-13 | Kabushiki Kaisha Toshiba | Background noise/speech classification method |
JPH113099A (ja) * | 1997-04-16 | 1999-01-06 | Mitsubishi Electric Corp | 音声符号化復号化システム、音声符号化装置及び音声復号化装置 |
US6073092A (en) * | 1997-06-26 | 2000-06-06 | Telogy Networks, Inc. | Method for speech coding based on a code excited linear prediction (CELP) model |
CN1145925C (zh) * | 1997-07-11 | 2004-04-14 | 皇家菲利浦电子有限公司 | 具有改进语音编码器和解码器的发射机 |
US6385576B2 (en) * | 1997-12-24 | 2002-05-07 | Kabushiki Kaisha Toshiba | Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch |
JPH11224099A (ja) * | 1998-02-06 | 1999-08-17 | Sony Corp | 位相量子化装置及び方法 |
FI113571B (fi) * | 1998-03-09 | 2004-05-14 | Nokia Corp | Puheenkoodaus |
EP1093230A4 (en) * | 1998-06-30 | 2005-07-13 | Nec Corp | speech |
US6301265B1 (en) * | 1998-08-14 | 2001-10-09 | Motorola, Inc. | Adaptive rate system and method for network communications |
US6188980B1 (en) * | 1998-08-24 | 2001-02-13 | Conexant Systems, Inc. | Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients |
US6480822B2 (en) * | 1998-08-24 | 2002-11-12 | Conexant Systems, Inc. | Low complexity random codebook structure |
US6104992A (en) * | 1998-08-24 | 2000-08-15 | Conexant Systems, Inc. | Adaptive gain reduction to produce fixed codebook target signal |
US6260010B1 (en) * | 1998-08-24 | 2001-07-10 | Conexant Systems, Inc. | Speech encoder using gain normalization that combines open and closed loop gains |
US6507814B1 (en) * | 1998-08-24 | 2003-01-14 | Conexant Systems, Inc. | Pitch determination using speech classification and prior pitch estimation |
DE69939086D1 (de) * | 1998-09-17 | 2008-08-28 | British Telecomm | Audiosignalverarbeitung |
EP0987680B1 (en) * | 1998-09-17 | 2008-07-16 | BRITISH TELECOMMUNICATIONS public limited company | Audio signal processing |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
CA2252170A1 (en) * | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US6456964B2 (en) * | 1998-12-21 | 2002-09-24 | Qualcomm, Incorporated | Encoding of periodic speech using prototype waveforms |
US6640209B1 (en) * | 1999-02-26 | 2003-10-28 | Qualcomm Incorporated | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder |
US6377914B1 (en) * | 1999-03-12 | 2002-04-23 | Comsat Corporation | Efficient quantization of speech spectral amplitudes based on optimal interpolation technique |
US6493664B1 (en) * | 1999-04-05 | 2002-12-10 | Hughes Electronics Corporation | Spectral magnitude modeling and quantization in a frequency domain interpolative speech codec system |
US6393394B1 (en) * | 1999-07-19 | 2002-05-21 | Qualcomm Incorporated | Method and apparatus for interleaving line spectral information quantization methods in a speech coder |
US6324505B1 (en) * | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Amplitude quantization scheme for low-bit-rate speech coders |
US6397175B1 (en) * | 1999-07-19 | 2002-05-28 | Qualcomm Incorporated | Method and apparatus for subsampling phase spectrum information |
US6574593B1 (en) * | 1999-09-22 | 2003-06-03 | Conexant Systems, Inc. | Codebook tables for encoding and decoding |
US6636829B1 (en) * | 1999-09-22 | 2003-10-21 | Mindspeed Technologies, Inc. | Speech communication system and method for handling lost frames |
WO2001052241A1 (en) * | 2000-01-11 | 2001-07-19 | Matsushita Electric Industrial Co., Ltd. | Multi-mode voice encoding device and decoding device |
ATE553472T1 (de) * | 2000-04-24 | 2012-04-15 | Qualcomm Inc | Prädikitve dequantisierung von stimmhaften sprachsignalen |
US6584438B1 (en) * | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
JP2002229599A (ja) * | 2001-02-02 | 2002-08-16 | Nec Corp | 音声符号列の変換装置および変換方法 |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
US20040176950A1 (en) * | 2003-03-04 | 2004-09-09 | Docomo Communications Laboratories Usa, Inc. | Methods and apparatuses for variable dimension vector quantization |
US7613607B2 (en) * | 2003-12-18 | 2009-11-03 | Nokia Corporation | Audio enhancement in coded domain |
EP1758099A1 (en) * | 2004-04-30 | 2007-02-28 | Matsushita Electric Industrial Co., Ltd. | Scalable decoder and expanded layer disappearance hiding method |
JPWO2008155919A1 (ja) * | 2007-06-21 | 2010-08-26 | パナソニック株式会社 | 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法 |
-
2001
- 2001-04-20 AT AT08173008T patent/ATE553472T1/de active
- 2001-04-20 ES ES07105323T patent/ES2318820T3/es not_active Expired - Lifetime
- 2001-04-20 CN CN01810523A patent/CN1432176A/zh active Pending
- 2001-04-20 DE DE60137376T patent/DE60137376D1/de not_active Expired - Lifetime
- 2001-04-20 JP JP2001579296A patent/JP5037772B2/ja not_active Expired - Lifetime
- 2001-04-20 EP EP08173008A patent/EP2040253B1/en not_active Expired - Lifetime
- 2001-04-20 DE DE60128677T patent/DE60128677T2/de not_active Expired - Lifetime
- 2001-04-20 AT AT07105323T patent/ATE420432T1/de not_active IP Right Cessation
- 2001-04-20 ES ES01927283T patent/ES2287122T3/es not_active Expired - Lifetime
- 2001-04-20 AU AU2001253752A patent/AU2001253752A1/en not_active Abandoned
- 2001-04-20 KR KR1020027014234A patent/KR100804461B1/ko active IP Right Grant
- 2001-04-20 EP EP01927283A patent/EP1279167B1/en not_active Expired - Lifetime
- 2001-04-20 AT AT01927283T patent/ATE363711T1/de not_active IP Right Cessation
- 2001-04-20 BR BR0110253-2A patent/BR0110253A/pt not_active Application Discontinuation
- 2001-04-20 WO PCT/US2001/012988 patent/WO2001082293A1/en active IP Right Grant
- 2001-04-20 EP EP07105323A patent/EP1796083B1/en not_active Expired - Lifetime
- 2001-04-20 CN CNB2005100527491A patent/CN100362568C/zh not_active Expired - Lifetime
- 2001-04-24 TW TW090109793A patent/TW519616B/zh not_active IP Right Cessation
-
2003
- 2003-10-15 HK HK05110732A patent/HK1078979A1/xx not_active IP Right Cessation
-
2004
- 2004-07-22 US US10/897,746 patent/US7426466B2/en not_active Expired - Lifetime
-
2008
- 2008-08-12 US US12/190,524 patent/US8660840B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1796083B1 (en) | 2009-01-07 |
CN100362568C (zh) | 2008-01-16 |
AU2001253752A1 (en) | 2001-11-07 |
ES2287122T3 (es) | 2007-12-16 |
EP1279167B1 (en) | 2007-05-30 |
EP2040253A1 (en) | 2009-03-25 |
TW519616B (en) | 2003-02-01 |
US8660840B2 (en) | 2014-02-25 |
CN1655236A (zh) | 2005-08-17 |
ATE363711T1 (de) | 2007-06-15 |
CN1432176A (zh) | 2003-07-23 |
EP1796083A3 (en) | 2007-08-01 |
EP1279167A1 (en) | 2003-01-29 |
EP1796083A2 (en) | 2007-06-13 |
DE60137376D1 (de) | 2009-02-26 |
ATE553472T1 (de) | 2012-04-15 |
JP5037772B2 (ja) | 2012-10-03 |
ATE420432T1 (de) | 2009-01-15 |
DE60128677D1 (de) | 2007-07-12 |
DE60128677T2 (de) | 2008-03-06 |
WO2001082293A1 (en) | 2001-11-01 |
KR20020093943A (ko) | 2002-12-16 |
HK1078979A1 (en) | 2006-03-24 |
US20040260542A1 (en) | 2004-12-23 |
US7426466B2 (en) | 2008-09-16 |
US20080312917A1 (en) | 2008-12-18 |
BR0110253A (pt) | 2006-02-07 |
KR100804461B1 (ko) | 2008-02-20 |
EP2040253B1 (en) | 2012-04-11 |
JP2003532149A (ja) | 2003-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2318820T3 (es) | Procedimiento y aparatos de cuantificacion predictiva del habla de voces. | |
KR100805983B1 (ko) | 가변율 음성 코더에서 프레임 소거를 보상하는 방법 | |
US8532984B2 (en) | Systems, methods, and apparatus for wideband encoding and decoding of active frames | |
CA2658560C (en) | Systems and methods for modifying a window with a frame associated with an audio signal | |
TW200912897A (en) | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding | |
US6397175B1 (en) | Method and apparatus for subsampling phase spectrum information | |
ES2276690T3 (es) | Particion de espectro de frecuencia de una forma de onda prototipo. | |
KR101164834B1 (ko) | 제 1 비트 레이트와 연관된 제 1 패킷을 제 2 비트 레이트와 연관된 제 2 패킷으로 디밍하는 시스템 및 방법 |