ES2287122T3 - Procedimiento y aparato para cuantificar de manera predictiva habla sonora. - Google Patents
Procedimiento y aparato para cuantificar de manera predictiva habla sonora. Download PDFInfo
- Publication number
- ES2287122T3 ES2287122T3 ES01927283T ES01927283T ES2287122T3 ES 2287122 T3 ES2287122 T3 ES 2287122T3 ES 01927283 T ES01927283 T ES 01927283T ES 01927283 T ES01927283 T ES 01927283T ES 2287122 T3 ES2287122 T3 ES 2287122T3
- Authority
- ES
- Spain
- Prior art keywords
- components
- speech
- amplitude
- error vector
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/097—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
Abstract
Un aparato para generar (500) una trama de salida de cifrador de habla, comprendiendo dicho aparato: medios para extraer componentes de retardo de tono, componentes de amplitud, componentes de fase y componentes de información espectral de línea a partir de una pluralidad de tramas de habla sonora; medios para obtener vectores de error objetivo, según un esquema de cuantificación predictiva, para las componentes de retardo de tono, componentes de amplitud, componentes de fase y componentes de información espectral lineal; medios para cuantificar el vector de error objetivo de las componentes de retardo de tono, el vector de error objetivo de las componentes de amplitud, el vector de error objetivo de las componentes de fase, y el vector de error objetivo de las componentes de información espectral de línea; medios para combinar los vectores de error objetivo cuantificados de las componentes de retardo de tono, componentes de amplitud, componentes de fase, y componentes de información espectral de línea para formar la trama de salida de cifrador de habla.
Description
Procedimiento y aparato para cuantificar de
manera predictiva habla sonora.
La presente invención pertenece en general al
campo del procesamiento de habla, y más específicamente a
procedimientos y aparatos para cuantificar de manera predictiva
habla sonora.
La transmisión de voz mediante técnicas
digitales se ha extendido, particularmente en aplicaciones de
radiotelefonía digital y larga distancia. A su vez, esto ha creado
interés en determinar la cantidad más pequeña de información que
puede enviarse sobre un canal mientras se mantiene la calidad
percibida de habla reconstruida. Si el habla se transmite
simplemente muestreando y digitalizando, se requiere una tasa de
transmisión de datos del orden de sesenta y cuatro kilobits por
segundo (kpbs) para conseguir una calidad de habla del teléfono
analógico convencional. Sin embargo, a través del uso del análisis
de habla, seguido por el cifrado, transmisión y resíntesis
adecuadas en el receptor, puede conseguirse una importante reducción
en la velocidad de la transmisión de datos.
Los dispositivos de compresión de habla
encuentran utilidad en muchos campos de las telecomunicaciones. Un
campo ejemplar son las comunicaciones inalámbricas. El campo de las
comunicaciones inalámbricas presenta muchas aplicaciones
incluyendo, por ejemplo, teléfonos inalámbricos, radiomensajería,
bucles locales inalámbricos, telefonía inalámbrica tal como
sistemas telefónicos PCS y celulares, telefonía de protocolo de
Internet (IP) móvil y sistemas de comunicación por satélite. Una
aplicación particularmente importante es la telefonía inalámbrica
para abonados móviles.
Se han desarrollado diversas interfaces aéreas
para sistemas de comunicación inalámbrica incluyendo, por ejemplo,
acceso múltiple por división de frecuencia (FDMA), acceso múltiple
por división de tiempo (TDMA) y acceso múltiple por división de
código (CDMA). En relación con los mismos, se han establecido
diversas normas internacionales y nacionales incluyendo, por
ejemplo, el servicio telefónico móvil avanzado (AMPS), el sistema
global para comunicaciones móviles (GSM), y la norma provisional 95
(IS-95). Un sistema de comunicación de telefonía
inalámbrica ejemplar es un sistema de acceso múltiple por división
de código (CDMA). La norma IS-95 y sus derivadas,
IS-95A, ANSI
J-STD-008, IS-95B,
las normas IS-95C e IS-2000 de
tercera generación propuestas, etc. (a las que se hace referencia
conjuntamente en el presente documento como IS-95),
se promulgaron por la Asociación de la Industria de
Telecomunicaciones (TIA) y otros cuerpos de normas bien conocidos
para especificar el uso de una interfaz aérea CDMA para sistemas de
comunicación de telefonía PCS o celular. En las patentes
estadounidenses nº 5.103.459 y 4.901.307, que están transferidas al
cesionario de la presente invención, se describen sistemas de
comunicación inalámbrica ejemplares configurados substancialmente
según el uso de la norma IS-95.
Los dispositivos que emplean técnicas para
comprimir el habla extrayendo parámetros que se refieren a un modelo
de generación de habla humana se denominan cifradores de habla. Un
cifrador de habla divide la señal de habla entrante en bloques de
tiempo, o tramas de análisis. Los cifradores de habla comprenden
normalmente un codificador y un descodificador. El codificador
analiza la trama de habla entrante para extraer ciertos parámetros
relevantes, y después cuantifica los parámetros en una
representación binaria, es decir, a un conjunto de bits o un paquete
de datos binarios. Los paquetes de datos se transmiten sobre el
enlace de comunicación a un receptor y a un descodificador. El
descodificador procesa los paquetes de datos, los incuantifica para
producir los parámetros, y resintetiza las tramas de habla
utilizando los parámetros incuantificados.
La función del cifrador de habla es comprimir la
señal de habla digitalizada en una señal de baja tasa de
transmisión de datos suprimiendo todas las redundancias naturales
inherentes en el habla. La compresión digital se consigue
representando la trama de habla de entrada con un conjunto de
parámetros y empleando cuantificación para representar los
parámetros con un conjunto de bits. Si la trama de habla de entrada
presenta un número de bits N_{i} y el paquete de datos producido
por el cifrador de habla presenta un número de bits N_{o}, el
factor de compresión conseguido por el cifrador de habla es C_{r}
= N_{i} / N_{o}. El reto es mantener la alta calidad de voz de
habla descodificada mientras se consigue el factor de compresión
objetivo. El rendimiento de un cifrador de habla depende de (1) la
calidad con que funciona el modelo de habla, o la combinación de
los procesos de análisis y síntesis, y (2) la calidad con la que se
realiza el proceso de cuantificación de parámetros a la tasa de
transmisión de datos objetivo de N_{o} bits por trama. La
finalidad del modelo de habla es por tanto capturar la esencia de
la señal de habla, o la calidad de voz objetivo, con un pequeño
conjunto de parámetros para cada trama.
Quizás lo más importante en el diseño de un
cifrador de habla es la búsqueda de un buen conjunto de parámetros
(incluyendo vectores) para describir la señal de habla. Un buen
conjunto de parámetros requiere un ancho de banda de sistema bajo
para la reconstrucción de una señal de habla precisa de manera
perceptiva. El tono, la potencia de la señal, la envolvente
espectral (o formantes), los espectros de amplitud, y los espectros
de fase son ejemplos de los parámetros de cifrado de habla.
Los cifradores de habla pueden implementarse
como cifradores de dominio de tiempo, que intentan capturar la
forma de onda de habla de dominio de tiempo empleando procesamiento
de alta resolución de tiempo para codificar pequeños segmentos de
habla (normalmente subtramas de 5 milisegundos (ms)) a la vez. Para
cada subtrama, se encuentra una alta precisión representativa a
partir de un espacio de libro de código por medio de diversos
algoritmos de búsqueda conocidos en la técnica. Como alternativa,
los cifradores de habla pueden implementarse como cifradores de
dominio de frecuencia, que intentan capturar el espectro de habla de
corta duración de la trama de habla de entrada con un conjunto de
parámetros (análisis) y emplean un proceso de síntesis
correspondiente para recrear la forma de onda de habla a partir de
los parámetros espectrales. El cuantificador de parámetros conserva
los parámetros representándolos con representaciones almacenadas de
vectores de código según técnicas de cuantificación conocidas
descritas en A. Gersho & R.M. Gray, Vector Quantization and
Signal Compression (1992).
Un cifrador de habla de dominio de tiempo bien
conocido es el cifrador predictivo lineal de código excitado (CELP)
descrito en L.B. Rabiner & R.W. Schafer, Digital Processing
of Speech Signals 396-453 (1978). En un
cifrador CELP, las correlaciones de corta duración, o redundancias,
en la señal de habla, se suprimen mediante un análisis de
predicción lineal (LP), que encuentra los coeficientes de un filtro
de formantes de corta duración. Al aplicar el filtro de predicción
de corta duración a la trama de habla entrante se genera una señal
residuo LP, que se modela y cuantifica adicionalmente con
parámetros de filtro de predicción de larga duración y un libro de
código estocástico posterior. De este modo, el cifrado CELP divide
la tarea de codificar la forma de onda de habla de dominio de
tiempo en las tareas separadas de codificar los coeficientes de
filtro de corta duración LP y codificar el residuo LP. El cifrado
de dominio de tiempo puede realizarse a un velocidad fija (es
decir, utilizando el mismo número de bits, N_{o}, para cada trama)
o a una velocidad variable (en la que se utilizan diferentes
velocidades de transmisión de bits para tipos diferentes de
contenidos de trama). Los cifradores de velocidad variable intentan
utilizar solamente la cantidad de bits necesaria para codificar los
parámetros de códec a un nivel adecuado para obtener una calidad
objetivo. Un cifrador CELP de velocidad variable ejemplar se
describe en la patente estadounidense nº 5.414.796, que está
transferida al cesionario de la presente invención.
Los cifradores de dominio de tiempo tal como el
cifrador CELP normalmente se basan en un alto número de bits,
N_{o}, por trama para conservar la precisión de la forma de onda
de habla de dominio de tiempo. Tales cifradores suministran una
excelente calidad de voz siempre que el número de bits, N_{o}, por
trama sea relativamente grande (por ejemplo, 8 kbps o superior).
Sin embargo, a velocidades de transmisión de bits bajas (4 kbps e
inferiores), los cifradores de dominio de tiempo no pueden conservar
una alta calidad y un rendimiento robusto debido al número limitado
de bits disponibles. A velocidades de transmisión de bits bajas, el
espacio de libro de código limitado limita la capacidad de
adaptación a la forma de onda de los cifradores de dominio de tiempo
convencionales, que se utilizan con éxito en aplicaciones
comerciales de velocidad superior. De ahí, a pesar de las mejoras a
través del tiempo, muchos sistemas de cifrado CELP que operan a
velocidades de transmisión de bits bajas experimentan una
importante distorsión de manera perceptiva caracterizada normalmente
como ruido.
Actualmente existe una tendencia de interés en
la investigación y una fuerte necesidad comercial de desarrollar un
cifrador de habla de alta calidad que funcione a velocidades de
transmisión de bits medias a bajas (es decir, en el intervalo de
2,4 a 4 kbps e inferiores). Las áreas de aplicación incluyen
telefonía inalámbrica, comunicaciones por satélite, telefonía por
Internet, diversas aplicaciones multimedia y de flujo continuo de
voz, correo por voz, y otros sistemas de almacenamiento de voz. Las
fuerzas impulsoras son la necesidad de alta capacidad y la demanda
de un comportamiento robusto bajo situaciones de pérdida de
paquetes. Los diversos esfuerzos recientes de normalización del
cifrado de habla son otra fuerza impulsora directa que promueve la
investigación y el desarrollo de algoritmos de cifrado de habla de
baja velocidad. Un cifrador de habla de baja velocidad crea más
canales, o usuarios, por ancho de banda de aplicación disponible, y
un cifrador de habla de baja velocidad acoplado con una capa
adicional de cifrado de canal adecuado puede ajustar el presupuesto
de bits global de las especificaciones de cifrador y suministrar un
comportamiento robusto bajo condiciones de error de canal.
Una técnica efectiva para codificar el habla de
manera eficaz a velocidades de transmisión de bits bajas es el
cifrado multimodo. Una técnica de cifrado multimodo ejemplar se
describe en la patente estadounidense nº 6.691.084, titulada
VARIABLE RATE SPEECH CODING, presentada el 21 de diciembre de 1998,
transferida al cesionario de la presente invención. Los cifradores
multimodo convencionales aplican diferentes modos, o algoritmos de
codificación-descodificación, a diferentes tipos de
tramas de habla de entrada. Cada modo, o proceso de
codificación-descodificación, se personaliza para
representar óptimamente un cierto tipo de segmento de habla, tal
como, por ejemplo, habla sonora, habla sorda, habla de transición
(por ejemplo, entre sonora y sorda), y ruido de fondo (silencio, o
no habla) de la manera más eficaz. Un mecanismo de decisión de modo
de bucle abierto, externo examina la trama de habla de entrada y
toma una decisión con respecto a qué modo aplicar a la trama. La
decisión de modo de bucle abierto se realiza normalmente extrayendo
un número de parámetros de la trama de entrada, evaluando los
parámetros en relación con ciertas características temporales y
espectrales, y basando una decisión de modo en la evaluación.
Los sistemas de cifrado que operan a velocidades
del orden de 2,4 kbps son normalmente paramétricos por naturaleza.
Es decir, tales sistemas de cifrado operan transmitiendo parámetros
que describen el periodo de tono y la envolvente espectral (o
formantes) de la señal de habla a intervalos regulares. El sistema
vocodificador LP es ilustrativo de estos denominados cifradores
paramétricos.
Los vocodificadores LP modelan una señal de
habla sonora con un único impulso por periodo de tono. Esta técnica
básica puede mejorarse para incluir información de transmisión sobre
la envolvente espectral, entre otras cosas. Aunque los
vocodificadores LP proporcionan generalmente un rendimiento
razonable, puede introducir una importante distorsión de manera
perceptiva, caracterizada normalmente como zumbido.
En los últimos años, han aparecido cifradores
que son híbridos de tanto los cifradores de forma de onda como los
cifradores paramétricos. El sistema de cifrado de habla de
interpolación de forma de onda de prototipo (PWI) es ilustrativo de
estos denominados cifradores híbridos. El sistema de cifrado PWI
puede conocerse también como un codificador de habla de periodo de
tono de prototipo (PPP). Un sistema de cifrado PWI proporciona un
procedimiento eficaz para cifrar habla sonora. El concepto básico de
PWI es extraer un ciclo de tono representativo (la forma de onda de
prototipo) a intervalos fijos, transmitir su descripción, y
reconstruir la señal de habla interpolando entre las formas de onda
de prototipo. El procedimiento PWI puede operar o bien sobre la
señal residuo LP o sobre la señal de habla. Un cifrador de habla
ejemplar PWI, o PPP, se describe en la patente estadounidense nº
6.456.964, titulada PERIODIC SPEECH CODING, presentada el 21 de
diciembre de 1998, transferida al cesionario de la presente
invención. Otros cifradores de habla PWI, o PPP, se describen en la
patente estadounidense nº 5.884.253 y W.Bastiaan Kleijn &
Wolfgang Granzow Methods for Waveform Interpolation in Speech
Coding, in 1 Digital Signal Processing
215-230 (1991).
En la mayoría de los cifradores de habla
convencionales, los parámetros de un prototipo de tono dado, o de
una trama dada, se cuantifican y transmiten cada uno individualmente
por el codificador. Además, se transmite un valor diferente para
cada parámetro. El valor de la diferencia especifica la diferencia
entre el valor de parámetro para el prototipo o trama actual y el
valor del parámetro para el prototipo o trama anterior. Sin
embargo, el cuantificar los valores de los parámetros y los valores
de la diferencia requiere utilizar bits (y por tanto ancho de
banda). En un cifrador de habla de tasa de transmisión de datos
baja, es ventajoso transmitir el menor número de bits posible para
mantener satisfactoriamente la calidad de voz. Por esta razón, en
cifradores de habla de tasa de transmisión de datos baja, sólo se
cuantifican y se transmiten los valores de parámetros absolutos.
Sería deseable disminuir el número de bits transmitidos sin
disminuir el valor informativo. Por tanto, existe una necesidad de
un esquema predictivo para cuantificar el habla sonora que disminuya
la tasa de transmisión de datos de un cifrador de habla.
La publicación de patente PCT nº WO 01/06495 de
"Qualcomm Incorporated" da a conocer un procedimiento y
aparato para intercalar procedimientos de cuantificación de
información espectral de línea en un cifrador de habla.
La publicación de patente europea nº EP 0696026
de "NEC Corporation" da a conocer un dispositivo de
cifrado de habla que puede suministrar una señal de habla a un
velocidad de transferencia de bits baja.
La publicación de patente PCT nº WO 01/06492
"de Qualcomm Incorporated" da a conocer un procedimiento
y aparato para submuestrear una información de espectro de fase que
incluye un cifrador de habla para analizar y reconstruir un
prototipo de una trama utilizando submuestreo inteligente de
información de espectro de fase del prototipo.
La publicación de patente PCT nº WO 95/10760 de
"Qualcomm Incorporated" da a conocer un vocodificador
que proporciona un alto grado de inteligibilidad de habla y calidad
de voz natural que incluye un analizador de predicción lineal de
orden diez.
La publicación de patente europea nº EP 0 336
658 de "American Telephone and Telegraph Company" da a
conocer una disposición de cifrado de habla armónico que sigue un
esquema predictivo para la cuantificación de espectros de amplitud y
fase.
La presente invención, como se expone en las
reivindicaciones adjuntas, está dirigida a un esquema predictivo
para cuantificar el habla sonora que disminuye la tasa de
transmisión de datos de un cifrador de habla.
La figura 1 es un diagrama de bloques de un
sistema telefónico inalámbrico.
La figura 2 es un diagrama de bloques de un
canal de comunicación terminado en cada extremo por cifradores de
habla.
La figura 3 es un diagrama de bloques de un
codificador de habla.
La figura 4 es un diagrama de bloques de un
descodificador de habla.
La figura 5 es un diagrama de bloques de un
cifrador de habla que incluye partes de codificador/transmisor y
descodificador/receptor.
La figura 6 es un gráfico de amplitud de señal
frente al tiempo para un segmento de habla sonora.
La figura 7 es un diagrama de bloques de un
cuantificador que puede utilizarse en un codificador de habla.
La figura 8 es un diagrama de bloques de un
procesador acoplado a un medio de almacenamiento.
Las realizaciones ejemplares descritas
posteriormente en el presente documento residen en un sistema de
comunicación de telefonía inalámbrica configurado para emplear una
interfaz aérea CDMA. Sin embargo, los expertos en la técnica
entenderían que un procedimiento y aparato para cifrar habla sonora
de manera predictiva que incorporan características de la presente
invención pueden residir en cualquiera de diversos sistemas de
comunicación que emplean una amplia gama de tecnologías conocidas
por los expertos en la técnica.
Como se ilustra en la figura 1, un sistema
telefónico inalámbrico CDMA incluye generalmente una pluralidad de
unidades 10 de abonado móviles, una pluralidad de estaciones 12
base, controladores 14 de estaciones base (BSC), y un centro 16 de
conmutación móvil (MSC). El MSC 16 está configurado para
interconectarse con una red 18 telefónica pública conmutada (PSTN)
convencional. El MSC 16 está también configurado para
interconectarse con los BSC 14. Los BSC 14 están acoplados a las
estaciones 12 base (BSS) a través de líneas de retroceso. Las
líneas de retroceso pueden estar configuradas para soportar
cualquiera de diversas interfaces conocidas incluyendo, por
ejemplo, E1/T1, ATM, IP, PPP, Frame Relay, HDSL, ADSL o xDSL. Se
entiende que puede haber más de dos BSC 14 en el sistema. Cada
estación 12 base incluye de manera ventajosa al menos un sector (no
mostrado), comprendiendo cada sector una antena omnidireccional o
una antena que apunta a una dirección particular radialmente
alejada de la estación 12 base. Como alternativa, cada sector puede
comprender dos antenas para recepción de diversidad. Cada estación
12 base puede estar diseñada de manera ventajosa para soportar una
pluralidad de asignaciones de frecuencia. Puede hacerse referencia a
la intersección de un sector y una asignación de frecuencia como un
canal CDMA. Las estaciones 12 base (BSS) pueden también conocerse
como subsistemas 12 de transceptor de estación base (BSS). Como
alternativa, puede utilizarse "estación base" en la industria
para referirse conjuntamente a un BSC 14 y una o más BSS 12. La BSS
12 también puede denominarse "sitios de célula" 12. Como
alternativa, puede hacerse referencia a los sectores individuales de
una BSS 12 dada como sitios de célula. Las unidades 10 de abonado
móviles son normalmente teléfonos 10 PCS o celulares. El sistema
esta configurado de manera ventajosa para el uso según la norma
IS-95.
Durante el normal funcionamiento del sistema
telefónico celular, las estaciones 12 base reciben conjuntos de
señales de enlace inverso desde conjuntos de unidades 10 móviles.
Las unidades 10 móviles llevan a cabo llamadas telefónicas u otras
comunicaciones. Cada señal de enlace inverso recibida por una
estación 12 base dada se procesa en esa estación 12 base. Los datos
resultantes se reenvían al BSC 14. El BSC 14 proporciona asignación
de recursos de llamadas y funcionalidad de gestión de movilidad que
incluye la organización de traspasos continuos entre las estaciones
12 base. El BSC 14 también encamina los datos recibidos al MSC 16,
que proporciona servicios de encaminamiento adicionales para la
interconexión con la PSTN 18. De manera similar, la PSTN 18 se
interconecta con el MSC 16, y el MSC 16 se interconecta con el BSC
14, que a su vez controla a las estaciones 12 base para que
transmitan conjuntos de señales de enlace directo a conjuntos de
unidades 10 móviles. Los expertos deberían entender que las
unidades 10 de abonado pueden ser unidades fijas en realizaciones
alternativas.
En la figura 2 un primer codificador 100 recibe
muestras s(n) de habla digitalizadas y codifica las muestras
s(n) para la transmisión sobre un medio 102 de transmisión, o
canal 102 de comunicación, a un primer descodificador 104. El
descodificador 104 descodifica las muestras de habla codificadas y
sintetiza una señal S_{SINT}(n) de habla de salida. Para
la transmisión en la dirección contraria, un segundo codificador 106
codifica muestras s(n) de habla digitalizadas, que se
transmiten sobre un canal 108 de comunicación. Un segundo
descodificador 110 recibe y descodifica las muestras de habla
codificadas, generando una señal S_{SINT}(n) de habla de
salida sintetizada.
Las muestras s(n) de habla representan
señales de habla que se han digitalizado y cuantificado según
cualquiera de varios procedimientos conocidos en la técnica
incluyendo, por ejemplo, modulación por impulsos codificados (PCM),
\mu-law compandida, o A-law. Como
se conoce en la técnica, las muestras s(n) de habla se
organizan en tramas de datos de entrada en las que cada trama
comprende un número predeterminado de muestras s(n) de habla
digitalizadas. En una realización ejemplar, se emplea una tasa de
muestreo de 8 kHz, comprendiendo cada trama de 20 ms 160 muestras.
En las realizaciones descritas posteriormente, la velocidad de la
transmisión de datos puede variarse de manera ventajosa trama por
trama desde velocidad completa a velocidad de medio a velocidad de
cuarto a velocidad de octavo. El variar la velocidad de transmisión
de datos es ventajoso ya que pueden emplearse selectivamente
velocidades de transmisión de bits inferiores pueden emplearse
selectivamente para tramas que contienen relativamente menos
información de habla. Como lo expertos en la técnica entienden,
pueden utilizarse otras tasas de muestreo y/o tamaños de trama.
También en las realizaciones descritas posteriormente, el modo de
codificación de habla (o cifrado) puede variarse trama por trama en
respuesta a la información de habla o energía de la trama.
El primer codificador 100 y el segundo
descodificador 110 comprenden juntos un primer cifrador
(codificador/descodificador), ó códec de voz. El cifrador de habla
podría utilizarse en cualquier dispositivo de comunicación para
transmitir señales de habla, incluyendo, por ejemplo, las unidades
de abonado, las BTS o los BSC descritos anteriormente con
referencia a la figura 1. De manera similar, el segundo codificador
106 y el primer descodificador 104 comprenden juntos un segundo
cifrador de habla. Los expertos en la técnica entienden que los
cifradores de habla pueden implementarse con un procesador de
señales digitales (DSP), un circuito integrado de aplicación
específica (ASIC), lógica de puertas discretas, o cualquier módulo
de software programable convencional y un microprocesador. El
módulo de software podría residir en memoria RAM, memoria flash,
registros, o cualquier otra forma de medio de almacenamiento
conocido en la técnica. Como alternativa, cualquier procesador,
controlador o máquina de estados convencionales podrían sustituirse
por el microprocesador. Los ASIC ejemplares diseñados
específicamente para el cifrado de habla se describen en la patente
estadounidense nº 5.727.123, transferida al cesionario de la
presente invención, y en la patente estadounidense nº 6.691.084,
titulada VOCODER ASIC, presentada el 16 de febrero de 1994,
transferida al cesionario de la presente invención.
En la figura 3 un codificador 200 que puede
utilizarse en un cifrador de habla incluye un módulo 202 de decisión
de modo, un módulo 204 de estimación de tono, un módulo 206 de
análisis LP, un filtro 208 de análisis LP, un módulo 210 de
cuantificación LP, y un módulo 212 de cuantificación de residuo. Las
tramas s(n) de habla de entrada se proporcionan al módulo
202 de decisión de modo, al módulo 204 de estimación de tono, al
módulo 206 de análisis LP, y al filtro 208 de análisis LP. El
módulo 202 de decisión de modo produce un índice I_{M} de modo y
un modo M basándose en la periodicidad, energía, relación señal a
ruido (SNR), velocidad de cruce por cero, entre otras
características, de cada trama s(n) de habla de entrada.
Varios procedimientos de clasificación de tramas de habla según la
periodicidad se describen en la patente estadounidense nº 5.911.128,
que está transferida al cesionario de la presente invención. Tales
procedimientos también se incorporan en las normas provisionales de
la Asociación de la Industria de las Telecomunicaciones TIA/EIA
IS-127 y TIA/EIA IS-733. Un esquema
de decisión de modo ejemplar también se describe en la solicitud de
patente estadounidense anteriormente mencionada con nº de serie
09/217.341.
El módulo 204 de estimación de tono produce un
índice I_{P} de tono y un valor P_{0} de retardo basándose en
cada trama s(n) de habla de entrada. El módulo 206 de
análisis LP realiza análisis predictivo lineal sobre cada trama
s(n) de habla de entrada para generar un parámetro a LP. El
parámetro a LP se proporciona al módulo 210 de cuantificación LP.
El módulo 210 de cuantificación LP también recibe el modo M,
realizando por tanto el proceso de cuantificación de una manera
dependiente del modo. El módulo 210 de cuantificación LP produce un
índice I_{LP} LP y un parámetro \hat{a} LP cuantificado. El
filtro 208 de análisis LP recibe el parámetro \hat{a} LP
cuantificado además de la trama s(n) de habla de entrada. El
filtro 208 de análisis LP genera una señal R[n] residuo LP,
que representa el error entre las tramas s(n) de habla de
entrada y el habla reconstruida basándose en los parámetros
\hat{a} predichos lineales cuantificados. El residuo R[n]
LP, el modo M, y el parámetro \hat{a} LP cuantificado se
proporcionan al módulo 212 de cuantificación de residuo. Basándose
en estos valores, el módulo 212 de cuantificación de residuo produce
un índice I_{R} de residuo y una señal
\hat{R}[n] de residuo cuantificada.
\hat{R}[n] de residuo cuantificada.
En la figura 4 un descodificador 300 que puede
utilizarse en un cifrador de habla incluye un módulo 302 de
descodificación de parámetros LP, un módulo 304 de descodificación
de residuos, un módulo 306 de descodificación de modo, y un filtro
308 de síntesis LP. El módulo 306 de descodificación de modo recibe
y descodifica un índice I_{M} de modo, generando a partir del
mismo un modo M. El módulo 302 de descodificación de parámetros LP
recibe el modo M y un índice I_{LP} LP. El módulo 302 de
descodificación de parámetros LP descodifica los valores recibidos
para producir un parámetro \hat{a} LP cuantificado. El módulo 304
de descodificación de residuos recibe un índice I_{R} de residuo,
un índice I_{P} de tono y el índice I_{M} de modo. El módulo
304 de descodificación de residuos descodifica los valores recibidos
para generar una señal \hat{R}[n] de residuo cuantificada.
La señal \hat{R}[n] de residuo cuantificada y el parámetro
\hat{a} LP cuantificado se proporcionan al filtro 308 de síntesis
LP, que sintetiza una señal \hat{s}[n] de habla de salida
descodificada a partir de los mismos.
El funcionamiento e implementación de los
diversos módulos del codificador 200 de la figura 3 y el
descodificador 300 de la figura 4 se conocen en la técnica y se
describen en la patente estadounidense anteriormente mencionada nº
5.414.796 y L.B. Rabiner & R.W. Schafer, Digital Processing
of Speech Signals 396-453 (1978).
En una realización, ilustrada en la figura 5, un
codificador 400 de habla multimodo se comunica con un descodificador
402 de habla multimodo a través de un canal 404 de comunicación, o
medio de transmisión. El canal 404 de comunicación es de manera
ventajosa una interfaz RP configurada según la norma
IS-95. Los expertos en la técnica entenderían que
el codificador 400 presenta un descodificador asociado (no
mostrado). El codificador 400 y su descodificador asociado forman
juntos un primer cifrador de habla. Los expertos en la técnica
también entenderían que el descodificador 402 presenta un
codificador asociado (no mostrado). El descodificador 402 y su
codificador asociado forman juntos un segundo cifrador de habla. El
primer y segundo cifradores de habla pueden implementarse de manera
ventajosa como parte de un primer y segundo DSP, y pueden residir
en, por ejemplo, una unidad de abonado y una estación base en un
sistema telefónico celular o PCS, o en una unidad de abonado y una
pasarela en un sistema por satélite.
El codificador 400 incluye un calculador 406 de
parámetros, un módulo 408 de clasificación de modos, una pluralidad
de modos 410 de codificación, y un módulo 412 de formateo de
paquetes. El número de modos 410 de codificación se muestra como n,
que un experto en la técnica entendería que podría significar
cualquier número razonable de modos 410 de codificación. Por
simplicidad, sólo se muestran tres modos 410 de codificación, con
una línea de puntos que indica la existencia de otros modos 410 de
codificación. El descodificador 402 incluye un módulo 414
desensamblador de paquetes y detector de pérdidas de paquetes, una
pluralidad de modos 416 de descodificación, un descodificador 418
de borrado, y un filtro 420 posterior, o sintetizador de habla. El
número de modos 416 de descodificación se muestra como n, que un
experto entendería que podría significar cualquier número razonable
de modos 416 de descodificación. Por simplicidad, sólo se muestran
tres modos 416 de descodificación, con una línea de puntos que
indica la existencia de otros modos 416 de descodificación.
\newpage
Una señal de habla, s(n) se proporciona
al calculador 406 de parámetros. La señal de habla se divide en
bloques de muestras llamados tramas. El valor n designa el número
de tramas. En una realización alternativa, se utiliza una señal de
error residual de predicción lineal (LP) en lugar de la señal de
habla. El residuo LP se utiliza por cifradores de habla tal como,
por ejemplo, el cifrador CELP. El cálculo del residuo LP se realiza
de manera ventajosa proporcionando la señal de habla a un filtro LP
inverso (no mostrado). La función de transferencia del filtro LP
inverso, A(z), se calcula según la siguiente
ecuación:
en la que los coeficientes
a1 son derivaciones de filtro que presentan valores
predefinidos escogidos según procedimientos conocidos, tal como se
describe en la patente estadounidense anteriormente mencionada nº
5.414.796 y la patente estadounidense nº 6.456.964. El número
p indica el número de muestras previas que utiliza el filtro
LP inverso para fines de predicción. En una realización particular,
p se fija a
diez.
El calculador 406 de parámetros obtiene varios
parámetros basándose en la trama actual. En una realización estos
parámetros incluyen al menos uno de lo siguiente: coeficientes de
filtro de cifrado predictivo lineal (LPC), coeficientes de par
espectral de línea (LSP), funciones de autocorrelación normalizadas
(NACF), retardo de bucle abierto, velocidades de cruce por cero,
energías de banda y la señal residual de formante. El cálculo de
los coeficientes LPC, coeficientes LSP, retardo de bucle abierto,
energías de banda y la señal residual de formante se describe en
detalle en la patente estadounidense anteriormente mencionada nº
5.414.796. El cálculo de las NACF y las velocidades de cruce por
cero se describe en detalle en la patente estadounidense
anteriormente mencionada nº 5.911.128.
El calculador 406 de parámetros está acoplado al
módulo 408 de clasificación de modos. El calculador 406 de
parámetros proporciona los parámetros al módulo 408 de clasificación
de modos. El módulo 408 de clasificación de modos está acoplado
para conmutar dinámicamente entre los modos 410 de codificación
trama por trama para seleccionar el modo 410 de codificación más
apropiado para la trama actual. El módulo 408 de clasificación de
modos selecciona un modo 410 de codificación particular para la
trama actual comparando los parámetros con umbrales predefinidos
y/o valores techo. Basándose en el contenido de energía de la trama,
el módulo 408 de clasificación de modos clasifica la trama como no
habla, o habla inactiva (por ejemplo, silencio, ruido de fondo, o
pausas entre palabras), o habla. Basándose en la periodicidad de la
trama, el módulo 408 de clasificación de modos clasifica entonces
tramas de habla como un tipo particular de habla, por ejemplo,
sonora, sorda o transitoria.
El habla sonora es habla que exhibe un grado
relativamente alto de periodicidad. Un segmento de habla sonora se
muestra en el gráfico de la figura 6. Como se indica, el periodo de
tono es una componente de una trama de habla que puede utilizarse
para favorecer el análisis y reconstrucción de los contenidos de la
trama. El habla sorda comprende normalmente sonidos consonánticos.
Las tramas de habla transitoria son normalmente transiciones entre
habla sonora y sorda. Las tramas que no se clasifican ni como
sonoras ni como sordas se clasifican como habla transitoria. Los
expertos en la técnica entenderían que podría emplearse cualquier
esquema de clasificación razonable.
Clasificar las tramas de habla es ventajoso
porque pueden utilizarse diferentes modos 410 de codificación para
codificar diferentes tipos de habla, dando como resultado un uso
eficaz del ancho de banda en un canal compartido tal como el canal
404 de comunicación. Por ejemplo, ya que el habla sonora es
periódica y por tanto altamente predictiva, pueden emplearse un
modo 410 de codificación altamente predictivo, de tasa de
transmisión de datos baja para codificar habla sonora. Los módulos
de clasificación tal como el módulo 408 de clasificación se
describen en detalle en el documento anteriormente mencionado US
6.691.084 y en la patente estadounidense nº US 6.640.209 titulada
CLOSED-LOOP MULTIMODE MIXED-DOMAIN
LINEAR PREDICTION (MDLP) SPEECH CODER, presentada el 26 de febrero
de 1999, transferida al cesionario de la presente invención.
El módulo 408 de clasificación de modos
selecciona un modo 410 de codificación para la trama actual
basándose en la clasificación de la trama. Los diversos modos 410
de codificación están acoplados en paralelo. Uno o más de los modos
410 de codificación pueden estar operativos en cualquier momento
dado. Sin embargo, sólo un modo 410 de codificación opera de manera
ventajosa en cualquier momento dado, y se selecciona según la
clasificación de la trama actual.
Los diferentes modos 410 de codificación operan
de manera ventajosa según diferentes velocidades de transmisión de
bits de cifrado, diferentes esquemas de cifrado, o diferentes
combinaciones de tasa de transmisión de datos de cifrado y esquema
de cifrado. Las diversas velocidades de cifrado utilizadas pueden
ser velocidad completa, velocidad de medio, velocidad de cuarto,
y/o velocidad de octavo. Los diversos esquemas de cifrado utilizados
pueden ser cifrado CELP, cifrado de periodo de tono de prototipo
(PPP) (o cifrado de interpolación de forma de onda (WI)), y/o
cifrado de predicción lineal de ruido excitada (NELP). De este modo,
por ejemplo, un modo 410 de codificación particular podría ser CELP
a velocidad completa, otro modo 410 de codificación podría ser CELP
velocidad de medio, otro modo 410 de codificación podría ser PPP a
velocidad de cuarto, y otro modo 410 de codificación podría ser
NELP.
Según un modo 410 de codificación CELP, un
modelo de tracto vocal predictivo lineal se excita con una versión
cuantificada de la señal residual LP. Los parámetros cuantificados
para la toda la trama anterior se utilizan para reconstruir la
trama actual. El modo 410 de codificación CELP proporciona de este
modo una reproducción relativamente precisa de habla pero a
expensas de una velocidad de retransmisión de bits de cifrado
relativamente alta. El modo 410 de codificación CELP puede
utilizarse de manera ventajosa para codificar tramas clasificadas
como tramas transitorias. Un cifrador de habla CELP de velocidad
variable ejemplar se describe en detalle en la patente
estadounidense anteriormente mencionada nº 5.414.796.
Según un modo 410 de codificación NELP, se
utiliza una señal filtrada de ruido seudoaletario para modelar la
trama de habla. El modo 410 de codificación NELP es una técnica
relativamente simple que consigue una tasa de transmisión de datos
baja. El modo 412 de codificación NELP puede utilizarse para
favorecer la codificación de tramas clasificadas como habla sorda.
Un modo de codificación NELP ejemplar se describe en detalle en la
patente estadounidense anteriormente mencionada US 6.456.964.
Según un modo 410 de codificación PPP, sólo se
codifica un subconjunto de los periodos de tono en cada trama. Los
periodos restantes de la señal de habla se reconstruyen interpolando
entre estos periodos de prototipo. En una implementación de dominio
de tiempo de cifrado PPP, se calcula un primer conjunto de
parámetros que describe cómo modificar un periodo de prototipo
anterior para que se aproxime al periodo de prototipo actual. Se
seleccionan uno o más vectores de código que, cuando se suman,
aproximan la diferencia entre el periodo de prototipo actual y el
periodo de prototipo anterior modificado. Un segundo conjunto de
parámetros describe estos vectores de código seleccionados. En una
implementación de dominio de frecuencia de cifrado PPP, se calcula
un conjunto de parámetros para describir los espectros de amplitud y
fase del prototipo. Esto puede realizarse o bien en un sentido
absoluto, o bien predictivamente como se describe posteriormente en
el presente documento. En cualquier implementación de cifrado PPP,
el descodificador sintetiza una señal de habla de salida
reconstruyendo un prototipo actual basándose en el primer y segundo
conjuntos de parámetros. La señal de habla se interpola entonces
sobre la región entre el periodo de prototipo reconstruido actual y
el periodo de prototipo reconstruido anterior. El prototipo es por
tanto una parte de la trama actual que se interpolará linealmente
con prototipos de tramas anteriores que estaban situadas de manera
similar dentro de la trama para reconstruir la señal de habla o la
señal residual LP en el descodificador (es decir, un periodo de
prototipo pasado se utiliza como un predictor del periodo de
prototipo actual). Un cifrador de habla PPP ejemplar se describe en
detalle en la patente estadounidense anteriormente mencionada nº
6.456.964.
Cifrar el periodo de prototipo en lugar de toda
la trama de habla reduce la tasa de transmisión de datos de cifrado
requerida. Las tramas clasificadas como habla sonora pueden cifrarse
de manera ventajosa con un modo 410 de codificación PPP. Como se
ilustra en la figura 6, el habla sonora contiene componentes
periódicas, de lenta variación en el tiempo que se aprovechan para
favorecer el modo 410 de codificación PPP. Aprovechando la
periodicidad de la voz sonora, el modo 410 de codificación PPP puede
conseguir una velocidad de transferencia de bits más baja que el
modo 410 de codificación CELP.
El modo 410 de codificación seleccionado se
acopla al módulo 412 de formateo de paquetes. El modo 410 de
codificación seleccionado codifica, o cuantifica, la trama actual y
proporciona los parámetros de trama cuantificada al módulo 412 de
formateo de paquetes. El módulo 412 de formateo de paquetes ensambla
de manera ventajosa la información cuantificada en paquetes para la
transmisión sobre el canal 404 de comunicación. En una realización
el módulo 412 de formateo de paquetes está configurado para
proporcionar cifrado de corrección de errores y formatear el
paquete según la norma IS-95. El paquete se
proporciona a un transmisor (no mostrado), se convierte a formato
analógico, se modula, y se transmite sobre el canal 404 de
comunicación a un receptor (no mostrado tampoco), que recibe,
demodula, y digitaliza el paquete, y proporciona el paquete al
descodificador 402.
En el descodificador 402, el módulo 414
desensamblador de paquetes y detector de pérdida de paquetes recibe
el paquete desde el receptor. El módulo 414 desensamblador de
paquetes y detector de pérdida de paquetes está acoplado para
conmutar dinámicamente entre los modos 416 de descodificación
paquete por paquete. El número de modos 416 de descodificación es
el mismo que el número de modos 410 de codificación, y como un
experto en la materia reconocería, cada modo 410 de codificación
numerado está asociado con un modo 416 de descodificación
respectivo numerado de manera similar configurado para emplear la
misma tasa de transmisión de datos de cifrado y esquema de
cifrado.
Si el módulo 414 desensamblador de paquetes y
detector de pérdida de paquetes detecta el paquete, el paquete se
desensambla y se proporciona al modo 416 de descodificación
pertinente. Si el módulo 414 desensamblador de paquetes y detector
de pérdida de paquetes no detecta un paquete, se declara un paquete
perdido y el descodificador 418 de borrado realiza de manera
ventajosa un procesamiento de borrado de trama como se describe en
una solicitud relacionada presentada junto con la presente,
titulada FRAME ERASURE COMPENSATION METHOD IN A VARIABLE RATE
SPEECH CODER, transferida al cesionario de la presente invención, y
concedida bajo la patente estadounidense nº US 6.584.438.
La serie paralela de modos 416 de
descodificación y el descodificador 418 de borrado están acoplados
al filtro 420 posterior. El modo 416 de descodificación pertinente
descodifica, o descuantifica, el paquete y proporciona la
información al filtro 420 posterior. El filtro 420 posterior
reconstruye, o sintetiza, la trama de habla, emitiendo tramas de
habla sintetizada, \hat{S}(n). En la patente estadounidense
anteriormente mencionada nº 5.414.796 y la patente estadounidense
nº US 6.456.964 se describen en detalle modos de descodificación y
filtros posteriores ejemplares.
En una realización no se transmiten los propios
parámetros cuantificados. En su lugar, se transmiten índices de
libro de código que especifican direcciones en varias tablas de
consulta (LUT) (no mostradas) en el descodificador 402. El
descodificador 402 recibe los índices de libro de código y busca las
diversas LUT de libro de código para valores de parámetros
adecuados. En consecuencia, los índices de libro de código para
parámetros tales como, por ejemplo, retardo de tono, ganancia de
libro de código adaptable, y LSP pueden transmitirse, y el
descodificador 402 busca tres LUT de código asociadas.
Según el modo 410 de codificación CELP, se
transmiten los parámetros de retardo de tono, amplitud, fase y LSP.
Los índices de libro de código LSP se transmiten ya que la señal
residuo LP va a sintetizarse en el descodificador 402. Además, se
transmite la diferencia entre el valor de retardo de tono para la
trama actual y el valor de retardo de tono para la trama
anterior.
Según un modo de codificación PPP convencional
en el que va a sintetizarse la señal de habla en el descodificador,
sólo se transmiten los parámetros de retardo de tono, amplitud y
parámetros de fase. La tasa de transmisión de datos inferior
empleada por las técnicas de cifrado de habla PPP convencionales no
permiten la transmisión de tanto la información de retardo de tono
absoluto como los valores de la diferencia de retardo de tono
relativo.
Según una realización, las tramas altamente
periódicas tales como las tramas de habla sonora se transmiten con
un modo 410 de codificación PPP de tasa de transmisión de datos baja
que cuantifica la diferencia entre el valor de retardo de tono para
la trama actual y el valor de retardo de tono para la trama anterior
para la transmisión, y no cuantifica el valor de retardo de tono
para la trama actual para la transmisión. Ya que las tramas sonoras
son altamente periódicas por naturaleza, transmitir el valor de
diferencia como el opuesto al valor de retardo de tono absoluto
permite conseguir una velocidad de cifrado de bits inferior. En una
realización esta cuantificación se generaliza de manera que se
calcula una suma ponderada de los valores de parámetros para las
tramas anteriores, en la que la suma de los pesos es uno, y la suma
ponderada se resta del valor de parámetros para la trama actual.
Entonces la diferencia se cuantifica.
En una realización la cuantificación predictiva
de los parámetros LPC se realiza según la siguiente descripción.
Los parámetros LPC se convierten en información espectral de línea
(LSI) (o varios LSP), que se sabe que son más adecuados para la
cuantificación. El vector LSI de dimensión N para la trama
M-ésima puede denotarse 2 como. En el
esquema de cuantificación predictiva, se calcula el vector de error
objetivo según la siguiente ecuación:
en la que los valores
4 son las contribuciones de los parámetros LSI de un
número de tramas, P, inmediatamente anteriores a la trama
M, y los valores 5 son pesos respectivos de
manera que
6
Las contribuciones, Û, pueden ser iguales a los
parámetros LSI cuantificados o incuantificados de la
correspondiente trama pasada. Un esquema de este tipo se conoce como
un procedimiento autoregresivo (AR). Como alternativa,
contribuciones, Û, pueden ser iguales al vector de error
cuantificado o incuantificado correspondiente a los parámetros LSI
de la correspondiente trama pasada. Un esquema de este tipo se
conoce como un procedimiento de media móvil (MA).
El vector de error objetivo, T, se
cuantifica entonces a \hat{T} utilizando cualquiera de diversas
técnicas de cuantificación de vectores (VQ) conocidas incluyendo,
por ejemplo, VQ dividido o VQ de varias etapas. Varias técnicas VQ
se describen en A. Gersho & R.M. Gray, Vector Quantization
and Signal Compression (1992). El vector LSI cuantificado se
reconstruye entonces a partir del vector de error objetivo
cuantificado, \hat{T}, utilizando la siguiente ecuación:
En una realización el esquema de cuantificación
anteriormente descrito se implementa con P=2, N=10
y
El vector objetivo anteriormente citado,
T, puede cuantificarse de manera ventajosa utilizando
dieciséis bits mediante el procedimiento VQ dividido bien
conocido.
Debido a su naturaleza periódica, las tramas
sonoras pueden cifrarse utilizando un esquema en el que se utiliza
todo el conjunto de bits para cuantificar un periodo de tono de
prototipo, o un conjunto finito de periodos de tono de prototipo,
de la trama de una longitud conocida. Esta longitud del periodo de
tono de prototipo se llama retardo de tono. Estos periodos de tono
de prototipo, y posiblemente los periodos de tono de prototipo de
tramas adyacentes, pueden utilizarse entonces para reconstruir toda
la trama de habla sin pérdida de calidad perceptiva. Este esquema
PPP de extracción del periodo de tono de prototipo de una trama de
habla y utilización de estos prototipos para reconstruir toda la
trama se describe en la patente estadounidense anteriormente
mencionada nº US 6.456.964.
En una realización, un cuantificador 500 se
utiliza para cuantificar tramas altamente periódicas tales como
tramas sonoras según un esquema de cifrado PPP, como se muestra en
la figura7. El cuantificador 500 incluye un extractor 502 de
prototipos, un conversor 504 de dominio de frecuencia, un
cuantificador 506 de amplitud, y un cuantificador 508 de fase. El
extractor 502 de prototipos está acoplado al conversor 504 de
dominio de frecuencia. El conversor 504 de dominio de frecuencia
está acoplado al cuantificador 506 de amplitud y al cuantificador
508 de fase.
El extractor 502 de prototipos extrae un
prototipo de periodo de tono de una trama de habla,
s(n). En una realización alternativa, la trama es una
trama de residuo LP. El extractor 502 de prototipos proporciona el
prototipo de periodo de tono al conversor 504 de dominio de
frecuencia. El conversor 504 de dominio de frecuencia transforma el
prototipo de una representación de domino de tiempo a un
representación de dominio de frecuencia según cualquiera de varios
procedimientos conocidos incluyendo, por ejemplo, la transformada
de Fourier discreta (DFT) o la transformada rápida de Fourier (FFT).
El conversor 504 de domino de frecuencia genera un vector de
amplitud y un vector de fase. El vector de amplitud se proporciona
al cuantificador 506 de amplitud y el vector de fase se proporciona
al cuantificador 508 de fase. El cuantificador 506 de amplitud
cuantifica el conjunto de amplitudes, generando un vector de
amplitud cuantificado, \hat{A}, y el cuantificador 508 de fase
cuantifica el conjunto de fases, generando un vector de fase
cuantificado, \hat{\phi}.
Otros esquemas para cifrar tramas sonoras, tales
como, por ejemplo, cifrado de habla de excitación multibanda (MBE)
y cifrado armónico, transforman toda la trama (o bien residuo LP o
bien habla) o partes de la misma en valores de dominio de
frecuencia mediante representaciones de transformada de Fourier que
comprenden amplitudes y fases que pueden cuantificarse y utilizarse
para la síntesis en habla en el descodificador (no mostrado). Para
utilizar el cuantificador de la figura 7 con tales esquemas de
cifrado, se omite el extractor 502 de prototipos, y el conversor
504 de dominio de frecuencia sirve para descomponer las
representaciones espectrales de frecuencia de corta duración
complejas de la trama en un vector de amplitud y un vector de fase.
Y en cualquier esquema de cifrado, puede aplicarse primero una
función de presentación en ventanas adecuada tal como, por ejemplo,
una ventana Hamming. Un esquema de cifrado de habla MBE ejemplar se
describe en D.W. Griffin & J.S. Lim, "Multiband Excitation
Vocoder", 36(8) IEE Trans. on ASSP (agosto de
1988). Un esquema de cifrado armónico de habla ejemplar se describe
en L.B. Almeida & J.M. Tribolet, "Harmonic Coding: A Low
Bit-Rate, Good Quality, Speech Coding
Technique," Proc. ICASSP '82 1664-1667
(1982).
Ciertos parámetros deben cuantificarse para
cualquiera de los esquemas de cifrado de tramas sonoras anteriores.
Estos parámetros son el retardo de tono o la frecuencia de tono, y
la forma de onda de periodo de tono de prototipo de longitud de
retardo de tono, o las representaciones espectrales de corta
duración (por ejemplo, representaciones de Fourier) de toda la
trama o una parte de la misma.
En una realización, la cuantificación predictiva
del retardo de tono o la frecuencia de tono se realiza según la
siguiente descripción. La frecuencia de tono y el retardo de tono
pueden obtenerse de manera unívoca entre sí escalando el recíproco
del otro con un factor de escala fijo. En consecuencia, es posible
cuantificar cualquiera de estos valores utilizando el siguiente
procedimiento. El retardo de tono (o la frecuencia de tono) para la
trama "m" puede denotarse como L_{m}. El
retardo de tono, L_{m}, puede cuantificarse a un calor
cuantificado, \hat{L}_{m}, según la siguiente ecuación:
en la que los valores
L_{m1}, L_{m2},..., L_{mN} son retardos
de tono (o las frecuencias de tono) para las tramas m_{1},
m_{2},..., m_{N}, respectivamente, los valores
\eta_{m1}, \eta_{m2},..., \eta_{mN} son pesos
correspondientes, y \hat{\delta}L_{m} se obtiene a
partir de la siguiente
ecuación:
y se cuantifica utilizando
cualquiera de diversas técnicas de cuantificación escalar o
vectorial conocidas. En una realización particular se implementó un
esquema de cifrado de habla sonora, de tasa de transmisión de datos
baja que cuantifica \hat{\delta}L_{m} = L_{m} -
L_{m-1} utilizando sólo cuatro
bits.
En una realización, la cuantificación del
periodo de tono de prototipo o el espectro de corta duración de
toda la trama o partes de la misma se realiza según la siguiente
descripción. Como se trató anteriormente, el periodo de tono de
prototipo de una trama sonora puede cuantificarse eficazmente (o
bien en el dominio de habla o en bien en el dominio residual LP)
transformando primero la forma de onda de dominio de tiempo al
dominio de frecuencia en el que la señal puede representarse como un
vector de amplitudes y fases. Todos o algunos elementos de los
vectores de amplitud y fase pueden entonces cuantificarse por
separado utilizando una combinación de los procedimiento descritos
posteriormente. También como se mencionó anteriormente, en otros
esquemas tales como esquemas de cifrado MBE o armónico, las
representaciones espectrales de frecuencia de corta duración
complejas de la trama pueden descomponerse en vectores de amplitudes
y de fase. Por lo tanto, los siguientes procedimientos de
cuantificación, o interpretaciones adecuadas de los mismos, pueden
aplicarse a cualquiera de las técnicas de cifrado descritas
anteriormente.
En una realización, los valores de amplitud
pueden cuantificarse como sigue. El espectro de amplitud puede ser
un vector de dimensión fija o un vector de dimensión variable.
Además, el espectro de amplitud puede representarse como una
combinación de un vector de potencia de dimensión inferior y un
vector de espectro de amplitud normalizada obtenido normalizando el
espectro de amplitud original con el vector de potencia. El
siguiente procedimiento puede aplicarse a cualquier, o partes de
los mismos, elemento anteriormente mencionado (concretamente, el
espectro de amplitud, el espectro de potencia, o el espectro de
amplitud normalizada). Un subconjunto del vector de amplitud (o
potencia, o amplitud normalizada) para la trama "m"
puede denotarse como A_{m}. El vector de error de predicción de
amplitud (o potencia, o amplitud normalizada) se calcula primero
utilizando la siguiente ecuación:
en la que los valores A_{m1},
A_{m2},...A_{mN} son el subconjunto del vector de amplitud (o
potencia, o amplitud normalizada) para las tramas m_{1},
m_{2},..., m_{N}, respectivamente,
12 y los valores son los transpuestos de los
correspondientes vectores de
peso.
El vector de error de predicción puede
cuantificarse entonces utilizando cualquiera de los diversos
procedimientos VQ conocidos a un vector de error cuantificado
denominado \hat{\delta}A_{m}. La versión cuantificada de
A_{m} se da entonces mediante la siguiente ecuación:
Los pesos á establecen la cantidad de predicción
en el esquema de cuantificación. En una realización particular, el
esquema predictivo descrito anteriormente se ha implementado para
cuantificar un vector de potencia de dos dimensiones que utiliza
seis bits, y para cuantificar un vector de amplitud normalizada de
diecinueve dimensiones que utiliza doce bits. De esta manera, es
posible cuantificar el espectro de amplitud de un periodo de tono
de prototipo que utiliza un total de dieciocho bits.
En una realización, los valores de fase pueden
cuantificarse como sigue. Un subconjunto del vector de fase para la
trama "m" puede denotarse ö_{m}. Es posible
cuantificar ö_{m} como igual a la fase de una forma de onda de
referencia (dominio de tiempo o dominio de frecuencia de toda la
trama o una parte de la misma), y se aplican cero o más
desplazamientos lineales a una o más bandas de la transformación de
la forma de onda de referencia. Un técnica de cuantificación de este
tipo se describe en la patente estadounidense número US 6.397.175,
titulada METHOD AND APPARATUS FOR SUBSAMPLING PHASE SPECTRUM
INFORMATION, presentada el 19 de julio de 1999, transferida al
cesionario de la presente invención. Una forma de onda de referencia
de este tipo podría ser una transformación de la forma de onda de la
trama m_{N}, o cualquier otra forma de onda
predeterminada.
Por ejemplo, en una realización que emplea un
esquema de cifrado de habla sonora de velocidad de transferencia de
bits baja, el residuo LP de la trama "m-1" se extiende
primero según un contorno de tono preestablecido (como se ha
incorporado en la norma provisional de la Asociación de la Industria
de las Telecomunicaciones TIA/EIA IS-127), en la
trama "m". Entonces se extrae un periodo de tono de
prototipo de la forma de onda extendida de una manera similar a la
extracción del prototipo incuantificado de la trama "m".
Entonces se obtienen las fases, ö'_{m-1}, del
prototipo extraído. Entonces los siguientes valores se igualan:
ö_{m} = ö'_{m-1}. De esta manera es posible
cuantificar las fases del prototipo de la trama "m"
mediante la predicción a partir de las fases de una transformación
de la forma de onda de la trama "m-1" no
utilizando ningún bit.
En una realización particular, los esquemas de
cuantificación predictiva anteriormente descritos se han
implementado para cifrar los parámetros LPC y el residuo LP de una
trama de habla sonora utilizando sólo treinta y ocho bits.
Por tanto, se ha descrito un procedimiento y
aparato novedosos y mejorados para cuantificar de manera predictiva
habla sonora. Los expertos en la técnica entenderían que los datos,
instrucciones, órdenes, información, señales, bits, símbolos y
elementos de código a los que puede hacerse referencia a través de
la descripción anterior se representan de manera ventajosa mediante
voltajes, corrientes, ondas electromagnéticas, partículas o campos
magnéticos, partículas o campos ópticos, o cualquier combinación de
los mismos. Los expertos apreciarán además que los diversos
bloques, módulos, circuitos, y etapas de algoritmo lógicos
ilustrativos descritos en relación con las realizaciones dadas a
conocer en el presente documento pueden implementarse como hardware
electrónico, software informático o combinaciones de ambos. Los
diversos componentes, bloques, módulos, circuitos y etapas
ilustrativos se han descrito generalmente en términos de su
funcionalidad. El que la funcionalidad se implemente como hardware
o como software depende de la aplicación particular y limitaciones
de diseño impuestas en todo el sistema. Los expertos reconocen la
intercambiabilidad de hardware y software en estas circunstancias, y
cómo implementar de la mejor manera la funcionalidad descrita para
cada aplicación particular. Como ejemplos, los diversos bloques,
módulos, circuitos y etapas de algoritmo lógicos descritos en
relación con las realizaciones dadas a conocer en el presente
documento pueden implementarse o realizarse con un procesador de
señales digitales (DSP), un circuito integrado de aplicación
específica (ASIC), una serie de puertas de campo programables
(FPGA), u otro dispositivo lógico programable, lógica de transistor
o puerta discreta, componentes de hardware discretos tales como,
por ejemplo, registros y FIFO, un procesador que ejecuta un conjunto
de instrucciones firmware, cualquier módulo de software programable
convencional y un procesador, o cualquier combinación de los mismos
diseñada para realizar las funciones descritas en el presente
documento. El procesador puede ser de manera ventajosa un
microprocesador, pero como alternativa, el procesador puede ser
cualquier procesador, controlador, microcontrolador o máquina de
estados convencionales. El módulo de software podría residir en
memoria RAM, memoria flash, memoria ROM, memoria EPROM, memoria
EEPROM, registros, disco duro, un disco extraíble, un
CD-ROM, o cualquier forma de medio de
almacenamiento conocida en la técnica. Como se ilustra en la figura
8, un procesador 600 ejemplar está acoplado de manera ventajosa a
un medio 602 de almacenamiento para leer información desde, y
escribir información en, el medio 602 de almacenamiento. Como
alternativa, el medio 602 de almacenamiento puede estar integrado
en el procesador 600. El procesador 600 y el medio 602 de
almacenamiento pueden residir en un ASIC (no mostrado). El ASIC
puede residir en un teléfono (no mostrado). Como alternativa, el
procesador 600 y el medio 602 de almacenamiento pueden residir en
un teléfono. El procesador 600 puede implementarse como una
combinación de un DSP y un microprocesador, o como dos
microprocesadores conjuntamente con un núcleo DSP, etc.
De este modo, se han mostrado y descrito las
realizaciones preferidas de la presente invención. Sin embargo,
sería evidente para un experto en la técnica que pueden realizarse
numerosas alteraciones de las realizaciones dadas a conocer en el
presente documento sin apartarse del alcance de la invención. Por lo
tanto, la presente invención no va a limitarse excepto según las
siguientes reivindicaciones.
Claims (12)
1. Un aparato para generar (500) una trama de
salida de cifrador de habla, comprendiendo dicho aparato:
medios para extraer componentes de retardo de
tono, componentes de amplitud, componentes de fase y componentes de
información espectral de línea a partir de una pluralidad de tramas
de habla sonora;
medios para obtener vectores de error objetivo,
según un esquema de cuantificación predictiva, para las componentes
de retardo de tono, componentes de amplitud, componentes de fase y
componentes de información espectral lineal;
medios para cuantificar el vector de error
objetivo de las componentes de retardo de tono,
- el vector de error objetivo de las componentes de amplitud,
- el vector de error objetivo de las componentes de fase, y
- el vector de error objetivo de las componentes de información espectral de línea;
medios para combinar los vectores de error
objetivo cuantificados de las componentes de retardo de tono,
componentes de amplitud, componentes de fase, y componentes de
información espectral de línea para formar la trama de salida de
cifrador de habla.
2. El aparato según la reivindicación 1, en el
que el vector de error objetivo cuantificado de componentes de
retardo de tono se basa en un vector de error objetivo de
componentes de retardo de tono (\hat{\delta}L_{m}) que se
describe mediante una fórmula:
en la que los valores L_{m1},
L_{m2},..., L_{mN} son los retardos de tono para las tramas
m_{1}, m_{2},..., m_{N}, respectivamente y los valores
\eta_{m1}, \eta_{m2},..., \eta_{mN} son pesos que
corresponden a las tramas m_{1}, m_{2},..., m_{N},
respectivamente.
3. El aparato según la reivindicación 1, en el
que el vector de error objetivo cuantificado de componentes de
amplitud se basa en un vector de error objetivo de componentes de
amplitud (\deltaA_{m}) que se describe mediante una
fórmula:
en la que los valores A_{m1},
A_{m2},...A_{mN} son un subconjunto del vector de amplitud para
las tramas m_{1}, m_{2},..., m_{N}, respectivamente, y los
valores 16 son los transpuestos de los
correspondientes vectores de
peso.
4. El aparato según la reivindicación1, en el
que el vector de error objetivo cuantificado de componentes de fase
se basa en un vector de error objetivo de componentes de fase
({\phi}_{m}) que se describe mediante una fórmula:
en la que 18
representa las fases de un prototipo
extraído.
5. El aparato según la reivindicación 1, en el
que el vector de error objetivo cuantificado de componentes de
información espectral lineal se basa en un vector de error objetivo
de componentes de información espectral de línea 19
que se describe mediante una fórmula:
en la que los valores
21 son las contribuciones de parámetros de
información espectral de línea de un número de tramas, P,
inmediatamente anteriores a la trama M, y los valores
22 son pesos respectivos de manera que
23
6. El aparato según la reivindicación 1, que
comprende además un medio para transmitir una trama de salida de
cifrador de habla a través de un canal de comunicación
inalámbrica.
7. Un procedimiento para generar una trama de
salida de cifrador de habla, que comprende:
extraer componentes de retardo de tono,
componentes de amplitud, componentes de fase, y componentes de
información espectral de línea de una pluralidad de tramas de habla
sonora;
obtener vectores de error objetivo, según un
esquema de cuantificación predictiva, para las componentes de
retardo de tono, componentes de amplitud, componentes de fase, y
componentes de información espectral de línea;
- cuantificar el vector de error objetivo de componentes de retardo de tono;
- cuantificar el vector de error objetivo de componentes de amplitud;
- cuantificar el vector de error objetivo de componentes de fase;
- cuantificar el vector de error objetivo de componentes de información espectral de línea; y
combinar los vectores de error objetivo
cuantificados de las componentes de retardo de tono, componentes de
amplitud, componentes de fase y componentes de información espectral
de línea para formar la trama de salida de cifrador de habla.
8. El procedimiento según la reivindicación 7,
en el que el vector de error objetivo cuantificado de componentes
de retardo de tono se basa en un vector de error objetivo de
componentes de retardo de tono (\hat{\delta}L_{m}) que se
describe mediante una fórmula:
en la que los valores L_{m1},
L_{m2},..., L_{mN} son los retardos de tono para las tramas
m_{1}, m_{2},..., m_{N}, respectivamente y los valores
\eta_{m1}, \eta_{m2},..., \eta_{mN} son pesos que
corresponden a las tramas m_{1}, m_{2},..., m_{N},
respectivamente.
9. El procedimiento según la reivindicación 7,
en el que el vector de error objetivo cuantificado de componentes de
amplitud se basa en un vector de error objetivo de componentes de
amplitud (\deltaA_{m}) que se describe mediante una
fórmula:
en la que los valores A_{m1},
A_{m2},...A_{mN} son un subconjunto del vector de amplitud para
las tramas m_{1}, m_{2},..., m_{N}, respectivamente, y los
valores 26 son los transpuestos de los
correspondientes vectores de
peso.
10. El procedimiento según la reivindicación 7,
en el que el vector de error objetivo cuantificado de componentes
de fase se basa en un vector de error objetivo de componentes de
fase (\phi_{m}) que se describe mediante una fórmula:
en la que 28
representa las fases de un prototipo
extraído.
11. El procedimiento según la reivindicación 7,
en el que el vector de error objetivo cuantificado de componentes
de información espectral de línea se basa en un vector de error
objetivo de componentes de información espectral de línea
29 que se describe mediante una fórmula:
en la que los valores
31 son las contribuciones de parámetros de
información espectral de línea de un número de tramas, P,
inmediatamente anteriores a la trama M, y los valores
32 son pesos respectivas de manera que
33
12. El procedimiento según la reivindicación 7,
que comprende además transmitir la trama de salida de cifrador de
habla a través de un canal de comunicación inalámbrica.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US55728200A | 2000-04-24 | 2000-04-24 | |
US557282 | 2000-04-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2287122T3 true ES2287122T3 (es) | 2007-12-16 |
Family
ID=24224775
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES07105323T Expired - Lifetime ES2318820T3 (es) | 2000-04-24 | 2001-04-20 | Procedimiento y aparatos de cuantificacion predictiva del habla de voces. |
ES01927283T Expired - Lifetime ES2287122T3 (es) | 2000-04-24 | 2001-04-20 | Procedimiento y aparato para cuantificar de manera predictiva habla sonora. |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES07105323T Expired - Lifetime ES2318820T3 (es) | 2000-04-24 | 2001-04-20 | Procedimiento y aparatos de cuantificacion predictiva del habla de voces. |
Country Status (13)
Country | Link |
---|---|
US (2) | US7426466B2 (es) |
EP (3) | EP1796083B1 (es) |
JP (1) | JP5037772B2 (es) |
KR (1) | KR100804461B1 (es) |
CN (2) | CN1432176A (es) |
AT (3) | ATE420432T1 (es) |
AU (1) | AU2001253752A1 (es) |
BR (1) | BR0110253A (es) |
DE (2) | DE60128677T2 (es) |
ES (2) | ES2318820T3 (es) |
HK (1) | HK1078979A1 (es) |
TW (1) | TW519616B (es) |
WO (1) | WO2001082293A1 (es) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6493338B1 (en) | 1997-05-19 | 2002-12-10 | Airbiquity Inc. | Multichannel in-band signaling for data communications over digital wireless telecommunications networks |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US6584438B1 (en) | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
EP1796083B1 (en) | 2000-04-24 | 2009-01-07 | Qualcomm Incorporated | Method and apparatus for predictively quantizing voiced speech |
EP1241663A1 (en) * | 2001-03-13 | 2002-09-18 | Koninklijke KPN N.V. | Method and device for determining the quality of speech signal |
AU2003226596A1 (en) * | 2002-04-26 | 2003-11-10 | Nokia Corporation | Adaptive method and system for mapping parameter values to codeword indexes |
CA2392640A1 (en) | 2002-07-05 | 2004-01-05 | Voiceage Corporation | A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems |
JP4178319B2 (ja) * | 2002-09-13 | 2008-11-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理におけるフェーズ・アライメント |
US7835916B2 (en) * | 2003-12-19 | 2010-11-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Channel signal concealment in multi-channel audio systems |
CA2691959C (en) | 2004-08-30 | 2013-07-30 | Qualcomm Incorporated | Method and apparatus for an adaptive de-jitter buffer |
US8085678B2 (en) | 2004-10-13 | 2011-12-27 | Qualcomm Incorporated | Media (voice) playback (de-jitter) buffer adjustments based on air interface |
US7508810B2 (en) | 2005-01-31 | 2009-03-24 | Airbiquity Inc. | Voice channel control of wireless packet data communications |
US8155965B2 (en) | 2005-03-11 | 2012-04-10 | Qualcomm Incorporated | Time warping frames inside the vocoder by modifying the residual |
US8355907B2 (en) | 2005-03-11 | 2013-01-15 | Qualcomm Incorporated | Method and apparatus for phase matching frames in vocoders |
RU2008105555A (ru) * | 2005-07-14 | 2009-08-20 | Конинклейке Филипс Электроникс Н.В. (Nl) | Синтез аудиосигнала |
US8477731B2 (en) | 2005-07-25 | 2013-07-02 | Qualcomm Incorporated | Method and apparatus for locating a wireless local area network in a wide area network |
US8483704B2 (en) * | 2005-07-25 | 2013-07-09 | Qualcomm Incorporated | Method and apparatus for maintaining a fingerprint for a wireless network |
KR100900438B1 (ko) * | 2006-04-25 | 2009-06-01 | 삼성전자주식회사 | 음성 패킷 복구 장치 및 방법 |
CN101523486B (zh) * | 2006-10-10 | 2013-08-14 | 高通股份有限公司 | 用于编码和解码音频信号的方法和设备 |
DK2102619T3 (en) | 2006-10-24 | 2017-05-15 | Voiceage Corp | METHOD AND DEVICE FOR CODING TRANSITION FRAMEWORK IN SPEECH SIGNALS |
US8279889B2 (en) * | 2007-01-04 | 2012-10-02 | Qualcomm Incorporated | Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate |
AU2008311749B2 (en) | 2007-10-20 | 2013-01-17 | Airbiquity Inc. | Wireless in-band signaling with in-vehicle systems |
KR101441897B1 (ko) * | 2008-01-31 | 2014-09-23 | 삼성전자주식회사 | 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치 |
KR20090122143A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US7983310B2 (en) * | 2008-09-15 | 2011-07-19 | Airbiquity Inc. | Methods for in-band signaling through enhanced variable-rate codecs |
US8594138B2 (en) | 2008-09-15 | 2013-11-26 | Airbiquity Inc. | Methods for in-band signaling through enhanced variable-rate codecs |
WO2010036739A1 (en) * | 2008-09-26 | 2010-04-01 | Telegent Systems, Inc. | Devices and methods of digital video and/or audio reception and/or output having error detection and/or concealment circuitry and techniques |
US8073440B2 (en) | 2009-04-27 | 2011-12-06 | Airbiquity, Inc. | Automatic gain control in a personal navigation device |
US8418039B2 (en) | 2009-08-03 | 2013-04-09 | Airbiquity Inc. | Efficient error correction scheme for data transmission in a wireless in-band signaling system |
CA2778240C (en) | 2009-10-20 | 2016-09-06 | Fraunhofer Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-mode audio codec and celp coding adapted therefore |
US8249865B2 (en) | 2009-11-23 | 2012-08-21 | Airbiquity Inc. | Adaptive data transmission for a digital in-band modem operating over a voice channel |
IL311020A (en) | 2010-07-02 | 2024-04-01 | Dolby Int Ab | After–selective bass filter |
US8848825B2 (en) | 2011-09-22 | 2014-09-30 | Airbiquity Inc. | Echo cancellation in wireless inband signaling modem |
US9263053B2 (en) * | 2012-04-04 | 2016-02-16 | Google Technology Holdings LLC | Method and apparatus for generating a candidate code-vector to code an informational signal |
US9070356B2 (en) * | 2012-04-04 | 2015-06-30 | Google Technology Holdings LLC | Method and apparatus for generating a candidate code-vector to code an informational signal |
US9041564B2 (en) * | 2013-01-11 | 2015-05-26 | Freescale Semiconductor, Inc. | Bus signal encoded with data and clock signals |
MX343673B (es) * | 2013-04-05 | 2016-11-16 | Dolby Int Ab | Codificador y decodificador de audio. |
PL3011554T3 (pl) * | 2013-06-21 | 2019-12-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Szacowanie opóźnienia wysokości tonu |
CN110931025A (zh) | 2013-06-21 | 2020-03-27 | 弗朗霍夫应用科学研究促进协会 | 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法 |
US9911427B2 (en) * | 2014-03-24 | 2018-03-06 | Nippon Telegraph And Telephone Corporation | Gain adjustment coding for audio encoder by periodicity-based and non-periodicity-based encoding methods |
EP3447766B1 (en) * | 2014-04-24 | 2020-04-08 | Nippon Telegraph and Telephone Corporation | Encoding method, encoding apparatus, corresponding program and recording medium |
CN107731238B (zh) | 2016-08-10 | 2021-07-16 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
CN108074586B (zh) * | 2016-11-15 | 2021-02-12 | 电信科学技术研究院 | 一种语音问题的定位方法和装置 |
CN108280289B (zh) * | 2018-01-22 | 2021-10-08 | 辽宁工程技术大学 | 基于局部加权c4.5算法的冲击地压危险等级预测方法 |
CN109473116B (zh) * | 2018-12-12 | 2021-07-20 | 思必驰科技股份有限公司 | 语音编码方法、语音解码方法及装置 |
Family Cites Families (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4270025A (en) * | 1979-04-09 | 1981-05-26 | The United States Of America As Represented By The Secretary Of The Navy | Sampled speech compression system |
US4901307A (en) | 1986-10-17 | 1990-02-13 | Qualcomm, Inc. | Spread spectrum multiple access communication system using satellite or terrestrial repeaters |
JP2653069B2 (ja) * | 1987-11-13 | 1997-09-10 | ソニー株式会社 | ディジタル信号伝送装置 |
US5023910A (en) * | 1988-04-08 | 1991-06-11 | At&T Bell Laboratories | Vector quantization in a harmonic speech coding arrangement |
JP3033060B2 (ja) * | 1988-12-22 | 2000-04-17 | 国際電信電話株式会社 | 音声予測符号化・復号化方式 |
JPH0683180B2 (ja) | 1989-05-31 | 1994-10-19 | 松下電器産業株式会社 | 情報伝送装置 |
JPH03153075A (ja) | 1989-11-10 | 1991-07-01 | Mitsubishi Electric Corp | ショットキー型撮像素子 |
US5103459B1 (en) | 1990-06-25 | 1999-07-06 | Qualcomm Inc | System and method for generating signal waveforms in a cdma cellular telephone system |
US5247579A (en) * | 1990-12-05 | 1993-09-21 | Digital Voice Systems, Inc. | Methods for speech transmission |
ZA921988B (en) * | 1991-03-29 | 1993-02-24 | Sony Corp | High efficiency digital data encoding and decoding apparatus |
US5265190A (en) * | 1991-05-31 | 1993-11-23 | Motorola, Inc. | CELP vocoder with efficient adaptive codebook search |
ES2240252T3 (es) | 1991-06-11 | 2005-10-16 | Qualcomm Incorporated | Vocodificador de velocidad variable. |
US5255339A (en) * | 1991-07-19 | 1993-10-19 | Motorola, Inc. | Low bit rate vocoder means and method |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
US5884253A (en) * | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
DE69328450T2 (de) * | 1992-06-29 | 2001-01-18 | Nippon Telegraph & Telephone | Verfahren und Vorrichtung zur Sprachkodierung |
JPH06259096A (ja) * | 1993-03-04 | 1994-09-16 | Matsushita Electric Ind Co Ltd | 音声符号化装置 |
IT1270439B (it) * | 1993-06-10 | 1997-05-05 | Sip | Procedimento e dispositivo per la quantizzazione dei parametri spettrali in codificatori numerici della voce |
SG43128A1 (en) * | 1993-06-10 | 1997-10-17 | Oki Electric Ind Co Ltd | Code excitation linear predictive (celp) encoder and decoder |
AU7960994A (en) * | 1993-10-08 | 1995-05-04 | Comsat Corporation | Improved low bit rate vocoders and methods of operation therefor |
US5784532A (en) * | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
JP2907019B2 (ja) * | 1994-09-08 | 1999-06-21 | 日本電気株式会社 | 音声符号化装置 |
JP3003531B2 (ja) * | 1995-01-05 | 2000-01-31 | 日本電気株式会社 | 音声符号化装置 |
CA2154911C (en) | 1994-08-02 | 2001-01-02 | Kazunori Ozawa | Speech coding device |
JP3153075B2 (ja) * | 1994-08-02 | 2001-04-03 | 日本電気株式会社 | 音声符号化装置 |
TW271524B (es) | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
JPH08179795A (ja) * | 1994-12-27 | 1996-07-12 | Nec Corp | 音声のピッチラグ符号化方法および装置 |
US5699478A (en) * | 1995-03-10 | 1997-12-16 | Lucent Technologies Inc. | Frame erasure compensation technique |
US5710863A (en) * | 1995-09-19 | 1998-01-20 | Chen; Juin-Hwey | Speech signal quantization using human auditory models in predictive coding systems |
TW321810B (es) * | 1995-10-26 | 1997-12-01 | Sony Co Ltd | |
JP3653826B2 (ja) * | 1995-10-26 | 2005-06-02 | ソニー株式会社 | 音声復号化方法及び装置 |
US5809459A (en) * | 1996-05-21 | 1998-09-15 | Motorola, Inc. | Method and apparatus for speech excitation waveform coding using multiple error waveforms |
JP3335841B2 (ja) * | 1996-05-27 | 2002-10-21 | 日本電気株式会社 | 信号符号化装置 |
JPH1091194A (ja) * | 1996-09-18 | 1998-04-10 | Sony Corp | 音声復号化方法及び装置 |
JPH10124092A (ja) * | 1996-10-23 | 1998-05-15 | Sony Corp | 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置 |
DE69721595T2 (de) * | 1996-11-07 | 2003-11-27 | Matsushita Electric Ind Co Ltd | Verfahren zur Erzeugung eines Vektorquantisierungs-Codebuchs |
US6202046B1 (en) * | 1997-01-23 | 2001-03-13 | Kabushiki Kaisha Toshiba | Background noise/speech classification method |
JPH113099A (ja) * | 1997-04-16 | 1999-01-06 | Mitsubishi Electric Corp | 音声符号化復号化システム、音声符号化装置及び音声復号化装置 |
US6073092A (en) * | 1997-06-26 | 2000-06-06 | Telogy Networks, Inc. | Method for speech coding based on a code excited linear prediction (CELP) model |
CN1145925C (zh) * | 1997-07-11 | 2004-04-14 | 皇家菲利浦电子有限公司 | 具有改进语音编码器和解码器的发射机 |
US6385576B2 (en) * | 1997-12-24 | 2002-05-07 | Kabushiki Kaisha Toshiba | Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch |
JPH11224099A (ja) * | 1998-02-06 | 1999-08-17 | Sony Corp | 位相量子化装置及び方法 |
FI113571B (fi) * | 1998-03-09 | 2004-05-14 | Nokia Corp | Puheenkoodaus |
CA2336360C (en) * | 1998-06-30 | 2006-08-01 | Nec Corporation | Speech coder |
US6301265B1 (en) | 1998-08-14 | 2001-10-09 | Motorola, Inc. | Adaptive rate system and method for network communications |
US6507814B1 (en) * | 1998-08-24 | 2003-01-14 | Conexant Systems, Inc. | Pitch determination using speech classification and prior pitch estimation |
US6104992A (en) * | 1998-08-24 | 2000-08-15 | Conexant Systems, Inc. | Adaptive gain reduction to produce fixed codebook target signal |
US6480822B2 (en) * | 1998-08-24 | 2002-11-12 | Conexant Systems, Inc. | Low complexity random codebook structure |
US6260010B1 (en) * | 1998-08-24 | 2001-07-10 | Conexant Systems, Inc. | Speech encoder using gain normalization that combines open and closed loop gains |
US6188980B1 (en) * | 1998-08-24 | 2001-02-13 | Conexant Systems, Inc. | Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients |
EP0987680B1 (en) * | 1998-09-17 | 2008-07-16 | BRITISH TELECOMMUNICATIONS public limited company | Audio signal processing |
DE69939086D1 (de) * | 1998-09-17 | 2008-08-28 | British Telecomm | Audiosignalverarbeitung |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
CA2252170A1 (en) * | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US6456964B2 (en) * | 1998-12-21 | 2002-09-24 | Qualcomm, Incorporated | Encoding of periodic speech using prototype waveforms |
US6640209B1 (en) * | 1999-02-26 | 2003-10-28 | Qualcomm Incorporated | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder |
US6377914B1 (en) * | 1999-03-12 | 2002-04-23 | Comsat Corporation | Efficient quantization of speech spectral amplitudes based on optimal interpolation technique |
AU4201100A (en) * | 1999-04-05 | 2000-10-23 | Hughes Electronics Corporation | Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system |
US6324505B1 (en) * | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Amplitude quantization scheme for low-bit-rate speech coders |
US6397175B1 (en) | 1999-07-19 | 2002-05-28 | Qualcomm Incorporated | Method and apparatus for subsampling phase spectrum information |
US6393394B1 (en) * | 1999-07-19 | 2002-05-21 | Qualcomm Incorporated | Method and apparatus for interleaving line spectral information quantization methods in a speech coder |
US6636829B1 (en) * | 1999-09-22 | 2003-10-21 | Mindspeed Technologies, Inc. | Speech communication system and method for handling lost frames |
US6574593B1 (en) * | 1999-09-22 | 2003-06-03 | Conexant Systems, Inc. | Codebook tables for encoding and decoding |
AU2547201A (en) * | 2000-01-11 | 2001-07-24 | Matsushita Electric Industrial Co., Ltd. | Multi-mode voice encoding device and decoding device |
US6584438B1 (en) * | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
EP1796083B1 (en) * | 2000-04-24 | 2009-01-07 | Qualcomm Incorporated | Method and apparatus for predictively quantizing voiced speech |
JP2002229599A (ja) * | 2001-02-02 | 2002-08-16 | Nec Corp | 音声符号列の変換装置および変換方法 |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
US20040176950A1 (en) * | 2003-03-04 | 2004-09-09 | Docomo Communications Laboratories Usa, Inc. | Methods and apparatuses for variable dimension vector quantization |
US7613607B2 (en) * | 2003-12-18 | 2009-11-03 | Nokia Corporation | Audio enhancement in coded domain |
US20080249766A1 (en) * | 2004-04-30 | 2008-10-09 | Matsushita Electric Industrial Co., Ltd. | Scalable Decoder And Expanded Layer Disappearance Hiding Method |
US20100185442A1 (en) * | 2007-06-21 | 2010-07-22 | Panasonic Corporation | Adaptive sound source vector quantizing device and adaptive sound source vector quantizing method |
-
2001
- 2001-04-20 EP EP07105323A patent/EP1796083B1/en not_active Expired - Lifetime
- 2001-04-20 AT AT07105323T patent/ATE420432T1/de not_active IP Right Cessation
- 2001-04-20 BR BR0110253-2A patent/BR0110253A/pt not_active Application Discontinuation
- 2001-04-20 CN CN01810523A patent/CN1432176A/zh active Pending
- 2001-04-20 ES ES07105323T patent/ES2318820T3/es not_active Expired - Lifetime
- 2001-04-20 AT AT08173008T patent/ATE553472T1/de active
- 2001-04-20 ES ES01927283T patent/ES2287122T3/es not_active Expired - Lifetime
- 2001-04-20 KR KR1020027014234A patent/KR100804461B1/ko active IP Right Grant
- 2001-04-20 CN CNB2005100527491A patent/CN100362568C/zh not_active Expired - Lifetime
- 2001-04-20 DE DE60128677T patent/DE60128677T2/de not_active Expired - Lifetime
- 2001-04-20 AU AU2001253752A patent/AU2001253752A1/en not_active Abandoned
- 2001-04-20 EP EP01927283A patent/EP1279167B1/en not_active Expired - Lifetime
- 2001-04-20 EP EP08173008A patent/EP2040253B1/en not_active Expired - Lifetime
- 2001-04-20 JP JP2001579296A patent/JP5037772B2/ja not_active Expired - Lifetime
- 2001-04-20 WO PCT/US2001/012988 patent/WO2001082293A1/en active IP Right Grant
- 2001-04-20 AT AT01927283T patent/ATE363711T1/de not_active IP Right Cessation
- 2001-04-20 DE DE60137376T patent/DE60137376D1/de not_active Expired - Lifetime
- 2001-04-24 TW TW090109793A patent/TW519616B/zh not_active IP Right Cessation
-
2003
- 2003-10-15 HK HK05110732A patent/HK1078979A1/xx not_active IP Right Cessation
-
2004
- 2004-07-22 US US10/897,746 patent/US7426466B2/en not_active Expired - Lifetime
-
2008
- 2008-08-12 US US12/190,524 patent/US8660840B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
KR20020093943A (ko) | 2002-12-16 |
CN1655236A (zh) | 2005-08-17 |
BR0110253A (pt) | 2006-02-07 |
CN1432176A (zh) | 2003-07-23 |
ATE420432T1 (de) | 2009-01-15 |
US20040260542A1 (en) | 2004-12-23 |
DE60128677D1 (de) | 2007-07-12 |
US20080312917A1 (en) | 2008-12-18 |
EP2040253B1 (en) | 2012-04-11 |
EP1796083B1 (en) | 2009-01-07 |
EP1796083A3 (en) | 2007-08-01 |
ATE363711T1 (de) | 2007-06-15 |
US7426466B2 (en) | 2008-09-16 |
JP2003532149A (ja) | 2003-10-28 |
TW519616B (en) | 2003-02-01 |
EP1279167B1 (en) | 2007-05-30 |
JP5037772B2 (ja) | 2012-10-03 |
HK1078979A1 (en) | 2006-03-24 |
WO2001082293A1 (en) | 2001-11-01 |
AU2001253752A1 (en) | 2001-11-07 |
EP1279167A1 (en) | 2003-01-29 |
DE60137376D1 (de) | 2009-02-26 |
ATE553472T1 (de) | 2012-04-15 |
CN100362568C (zh) | 2008-01-16 |
KR100804461B1 (ko) | 2008-02-20 |
ES2318820T3 (es) | 2009-05-01 |
US8660840B2 (en) | 2014-02-25 |
EP1796083A2 (en) | 2007-06-13 |
EP2040253A1 (en) | 2009-03-25 |
DE60128677T2 (de) | 2008-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2287122T3 (es) | Procedimiento y aparato para cuantificar de manera predictiva habla sonora. | |
KR100805983B1 (ko) | 가변율 음성 코더에서 프레임 소거를 보상하는 방법 | |
TW200912897A (en) | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding | |
ES2264420T3 (es) | Metodo y aparato para entrelazar metodos de discretizacion de informacion espectral en un codificador de voz. | |
ES2297578T3 (es) | Procedimiento y aparato para submuestrear informacion del espectro de fase. | |
ES2276690T3 (es) | Particion de espectro de frecuencia de una forma de onda prototipo. | |
KR101164834B1 (ko) | 제 1 비트 레이트와 연관된 제 1 패킷을 제 2 비트 레이트와 연관된 제 2 패킷으로 디밍하는 시스템 및 방법 |