ES2288950T3 - Procedimiento de compensacion de borrado de tramas en un codificador de voz de velocidad de transmision variable. - Google Patents
Procedimiento de compensacion de borrado de tramas en un codificador de voz de velocidad de transmision variable. Download PDFInfo
- Publication number
- ES2288950T3 ES2288950T3 ES01930579T ES01930579T ES2288950T3 ES 2288950 T3 ES2288950 T3 ES 2288950T3 ES 01930579 T ES01930579 T ES 01930579T ES 01930579 T ES01930579 T ES 01930579T ES 2288950 T3 ES2288950 T3 ES 2288950T3
- Authority
- ES
- Spain
- Prior art keywords
- frame
- value
- voice
- current
- plot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/097—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Analogue/Digital Conversion (AREA)
- Stereophonic System (AREA)
- Devices For Executing Special Programs (AREA)
Abstract
Un procedimiento para compensar un borrado de trama en un codifcador de voz, que comprende: descuantificar un valor de retardo de paso y un primer valor delta para una trama actual procesada después de que se ha declarado una trama borrada, siendo el primer valor delta igual a la diferencia entre el valor de retardo de paso para la trama actual y un valor de retardo de paso para la trama inmediatamente precedente a la trama actual; recibir un segundo valor delta cuantificado para al menos una trama anterior a la trama actual y después del borrado de trama sin recibir un valor de retardo de paso cuantificado para la al menos una trama; descuantificar el segundo valor delta para la al menos una trama antes de la trama actual y después del borrado de la trama, en el que el segundo valor de trama es igual a la diferencia entre un valor de retardo de paso para la al menos una trama y un valor de retardo de paso para una trama inmediatamente precedente a la al menos una trama; substraer el primervalor delta del valor de retardo de paso para la tarma actual para generar un valor de retardo de paso para la al menos una trama anterior a la trama actual; y substraer el segundo valor delta del valor de retardo de paso generado para la al menos una trama anterior a la trama actual para generar un valor de retardo de paso para la trama borrada.
Description
Procedimiento de compensación de borrado de
tramas en un codificador de voz de velocidad de transmisión
variable.
La presente invención pertenece, en términos
generales, al campo del procesamiento de voz, y más concretamente
al campo de los procedimientos y aparatos para compensar los
borrados de tramas de codificadores de voz de velocidad
variable.
Se ha extendido la transmisión de voz mediante
técnicas digitales, particularmente en aplicaciones radiotelefónicas
de larga distancia y digitales. Esto, a su vez, ha suscitado un
interés en determinar la menor cantidad de información que puede
ser enviada a través de un canal manteniendo sin embargo la calidad
percibida de la voz reconstruída. Si la voz es transmitida mediante
el simple muestreo y digitalización, se requiere una velocidad de
datos del orden de sesenta y cuatro kilobits por segundo (kbps) para
conseguir una velocidad de voz de un teléfono analógico
convencional. Sin embargo, mediante el empleo del análisis de voz,
seguido por la codificación, transmisión y resíntesis apropiadas en
el receptor, puede conseguirse una reducción significativa de la
velocidad de datos.
Dispositivos para comprimir la voz encuentran
empleo en muchos campos de las telecomunicaciones. Un campo
ejemplar es el de las comunicaciones inalámbricas. El campo de las
comunicaciones inalámbricas tiene muchas aplicaciones, incluyendo,
por ejemplo, teléfonos inalámbricos, paginación, bucles locales
inalámbricos, telefonía inalámbrica, como por ejemplo sistemas
telefónicos celulares y PCS, telefonía móvil de Protocolo Internet
(IP), y sistemas de comunicaciones vía satélite. Una aplicación
particularmente importante es la telefonía inalámbrica para
abonados al servicio móvil.
Se ha desarrollado distintas interfaces a través
de las ondas destinadas a sistemas de comunicaciones inalámbricas
incluyendo, por ejemplo, el acceso múltiple por división de
frecuencias (FDMA), el acceso múltiple por división de tiempo
(TDMA), y el acceso múltiple por división de código (CDMA). En
conexión con estos sistemas, se han establecido diversos estándares
nacionales e internacionales, incluyendo por ejemplo, el Servicio
Avanzado de Telefonía Móvil (AMPS), el Sistema Global de
Comunicaciones Móviles (GSM), y el Estándar Provisional 95
(IS-95). Un sistema ejemplar de comunicaciones
telefónicas inalámbricas es un sistema de acceso múltiple por
división de código (CDMA). El estándar IS-95 y sus
derivados, IS-95A, ANSI
J-STD-008, IS-95B,
propusieron los estándares de tercera generación
IS-95C e IS-2000, etc. (designados
colectivamente en la presente memoria como IS-95),
son promulgados por la Asociación del Sector de las
Telecomunicaciones (TIA) y otros organismos para el desarrollo de
estándares bien conocidos para especificar el uso de una interfaz a
través de las ondas de un sistema CDMA para sistemas de
comunicación de teléfonos celulares o PCS, Sistemas de comunicación
inalámbrica ejemplares, configurados de acuerdo con el uso del
estándar IS-95 se describen en las patentes
estadounidenses Nos. 5,103,459 y
4,901,307.
4,901,307.
Los dispositivos que emplean técnicas para
comprimir la voz extrayendo parámetros que se refieren a un modelo
de generación de voz humana se denominan codificadores de voz. Un
codificador de voz divide la señal de voz entrante en bloques de
tiempo, o tramas de análisis. Los codificadores de voz típicamente
incluyen un codificador y un descodificador. El codificador analiza
la trama de voz entrante para extraer determinados parámetros
relevantes, y a continuación cuantifica los parámetros en una
representación binaria, esto es, en un conjunto de bits o un
paquete de datos binarios. Los paquetes de datos son transmitidos a
través del canal de comunicación hasta un receptor y un
descodificador. El descodificador procesa los paquetes de datos, y
los descuantifica para producir los parámetros y resintetiza las
tramas de voz utilizando los parámetros descuantificados.
La función del codificador de voz es comprimir
la señal de voz digitalizada en una señal de velocidad baja de
tráfico binario eliminando todas las redundancias naturales
inherentes al habla. La compresión digital se consigue
representando la trama de voz de entrada con un conjunto de
parámetros y empleando la cuantificación para representar los
parámetros con un conjunto de bits. Si la trama de voz de entrada
tiene un número de bits N_{i} y el paquete de datos producido por
el codificador de voz tiene un número de bits N_{o}, el factor de
compresión conseguido mediante el codificador de voz es C_{r} =
N_{i} / N_{o}. La dificultad consiste en mantener una elevada
calidad de voz de la voz descodificada consiguiendo al tiempo el
factor de compresión perseguido. La eficacia de un codificador de
voz depende de 1) hasta qué punto es bueno el comportamiento del
modelo de voz, o la combinación del proceso de análisis y síntesis
anteriormente descrito, y 2) hasta qué punto es bueno el
comportamiento del proceso de cuantificación de los parámetros en la
velocidad de bits perseguida de N_{o} bits por trama. El
objetivo del modelo de voz es así capturar la esencia de una señal
de voz, o la calidad de voz perseguida, con un conjunto pequeño de
parámetros para cada trama.
Quizás lo más importante en el diseño de un
descodificador de voz es la búsqueda de un buen conjunto de
parámetros (incluyendo vectores) para describir la señal de voz. Un
buen conjunto de parámetros requiere un ancho de banda de sistema
bajo para la reconstrucción de una señal de voz de percepción
nítida. El paso, la potencia de la señal, el envolvente espectral
(o formantes), los espectros de amplitud, y los espectros de fase
son ejemplos de parámetros de codificación de voz.
Los codificadores de voz pueden implementarse
como codificadores del dominio del tiempo, los cuales intentan
capturar la forma de onda de voz de dominio del tiempo empleando un
procesamiento de resolución de tiempo alto para codificar pequeños
segmentos de voz (típicamente cinco subtramas por milisegundo (ms))
de una vez. Para cada subtrama se encuentra un representante de
alta precisión obtenido de un espacio de código de cifrado y
descifrado por medio de distintos algoritmos de búsqueda conocidos
en la técnica. Alternativamente, los codificadores de voz pueden
ser implementados como codificadores de dominio de la frecuencia,
los cuales intentan capturar el espectro de voz a corto plazo de la
trama de voz de entrada con un conjunto de parámetros (análisis) y
emplean un proceso de síntesis correspondiente para recrear la onda
de forma de voz a partir de los parámetros espectrales. El
cuantificador de parámetros guarda los parámetros representándolos
con representaciones almacenadas de vectores de código de acuerdo
con técnicas de cuantificación conocidas descritas en la obra de A.
Gersho & R.M.Gray, Cuantificación de Vectores y Compresión
de Señales Vector ["Vector Quantization and Signal
Compression"] (1992).
Un codificador de voz de dominio del tiempo bien
conocido es el codificador Code Excited Linear Predictive (CELP)
descrito en la obra de L.B. Rabiner & R.W. Schafer, Digital
Processing of Speech Signals 396-453 (1978). En
un codificador CELP, las correlaciones a corto plazo, o redundancias
en la señal de voz son eliminadas mediante un análisis de
predicción lineal (LP), que encuentra los coeficientes de un filtro
formante a corto plazo. La aplicación del filtro de predicción a
corto plazo a la trama de voz entrante genera una señal residual de
LP, que es ulteriormente modelada y cuantificada con unos parámetros
de filtro de predicción a largo plazo y un posterior código de
cifrado y descifrado estocástico. Así, la codificación CELP divide
la tarea de codificación de la onda de forma de voz de dominio de
tiempo en las tareas separadas de codificación de los coeficientes
de filtro a corto plazo de la LP y de codificación del residuo de la
LP. La codificación de dominio del tiempo puede llevarse a cabo a
una velocidad fija (esto es, utilizando el mismo número de bits,
N_{o}, para cada trama) o a una velocidad variable (en la cual se
utilizan velocidades de bits diferentes para diferentes tipos de
contenidos de tramas). Los codificadores de velocidad variable
intentan utilizar únicamente la cantidad de bits necesarios para
codificar los parámetros del códec hasta un nivel adecuado para
obtener la calidad perseguida. Un codificador ejemplar CELP de
velocidad variable se describe en la Patente estadounidense No.
5,414,796.
Los codificadores de dominio del tiempo tales
como el codificador CELP típicamente se basan en un número alto de
bits, N_{o}, por trama para mantener la precisión de la onda de
forma de voz del dominio del tiempo. Dichos codificadores
típicamente proporcionan una calidad de voz excelente al contar con
un número de bits, N_{o}, por trama relativamente grande (por
ejemplo, 8 kbps o más). Sin embargo, a velocidades de bits bajas (4
kbps e inferiores), los codificadores de dominio del tiempo no
consiguen mantener un rendimiento sólido y de alta calidad debido
al número limitado de bits disponibles. A velocidades de bits
bajas, el espacio de código de cifrado y descifrado limitado
recorta la capacidad de encaje de la forma de onda de los
codificadores de dominio del tiempo convencionales, los cuales se
despliegan de modo satisfactorio en aplicaciones comerciales de
velocidades más altas. Por tanto, a pesar de las mejoras obtenidas
en relación con el tiempo, muchos sistemas de codificación CELP que
operan a velocidades de bits bajas se resienten de una distorsión de
la percepción significativa típicamente caracterizada como
ruido.
En la actualidad existe un repentino aumento de
interés investigador y una fuerte demanda comercial para elaborar
un codificador de voz de alta calidad que opere a velocidades de
bits medias y bajas (esto es, del orden de 2,4 a 4 kbps e
inferiores). Las áreas de aplicación incluyen la telefonía
inalámbrica, las comunicaciones vía satélite, la telefonía de
Internet, diversas aplicaciones multimedia y de transmisión de
flujos de voz, correo de voz, y otros sistemas de almacenamiento de
voz. Las fuerzas impulsoras son la necesidad de una alta capacidad
y la demanda de un rendimiento sólido bajo situaciones de pérdida de
paquetes. Los distintos esfuerzos recientes de estandarización de
la codificación de voz es otra fuerza impulsora directa que propulsa
la investigación y desarrollo de algoritmos de codificación de voz
de baja velocidad. El codificador de voz de baja velocidad crea más
canales, o usuarios, por anchura de banda de aplicación permisible,
y un codificador de voz de baja velocidad acoplado con una capa
adicional de codificación de canales apropiada puede encajar con el
presupuesto global de bits de las especificaciones del codificador
y para proporcionar un rendimiento sólido bajo condiciones de error
de canal.
Una técnica eficaz para codificar la voz
eficientemente a velocidades de bits bajas es la codificación
multimodo. Una técnica de codificación multimodo ejemplar se
describe en la Patente estadounidense No. 6,691,084 titulada
"Codificacion de voz de velocidad variable" [VARIABLE RATE
SPEECH CODING], solicitada el 21 de Diciembre de 1988. Los
codificadores multimodo convencionales aplican modos diferentes, o
algoritmos de codificación - descodificación, a tipos diferentes de
tramas de voz de entrada. Cada modo, o proceso de codificación -
descodificación, es personalizado para representar de forma óptima
un cierto tipo de segmento de voz, como por ejemplo, voz
vocalizada, voz no vocalizada, voz de transición (esto es, entre
vocalizada y no vocalizada), ruido de fondo (silencio o sin voz) de
la manera más eficiente. Un mecanismo de decisión de modo de bucle
abierto determina la trama de voz de entrada y adopta una decisión
con respecto a qué modo se aplica a la trama. La decisión de modo
de bucle abierto se lleva a cabo típicamente extrayendo diversos
parámetros de la trama de entrada, evaluando los parámetros para
verificar las características temporales y espectrales, y basar una
decisión de modo sobre la evaluación.
Los sistemas de codificación que operan a
velocidades del orden de 2,4 kbps son en general de naturaleza
paramétrica. Esto es, dichos sistemas de codificación operan
mediante la transmisión de parámetros que describen el periodo de
paso y la envoltura espectral (o formantes) de la señal de voz a
intervalos regulares. Ilustrativo de estos llamados codificadores
paramétricos es el sistema vocoder de LP.
Los vocódificadores de LP modelan una señal de
voz vocalizada con un único impulso por periodo de paso. Esta
técnica básica puede aumentarse para incluir información de
transmisión acerca de la envoltura espectral, entre otras cosas.
Aunque los vocódificadores de LP proporcionan un rendimiento
razonable en términos generales, pueden introducir una distorsión
auditiva considerable auditivamente, típicamente caracterizada como
zumbido.
En los últimos años, han surgido unos
codificadores que son unos híbridos de los codificadores en forma de
onda y de los codificadores paramétricos. Ilustrativo de estos
llamados codificadores híbridos es el sistema de codificación de
voz de interpolación de onda de forma prototipo (PWI). El sistema de
codificación PWI puede también conocerse como codificador de voz de
periodo de paso prototipo (PPP). Un sistema de codificación PWI
suministra un procedimiento eficaz para codificar voz vocalizada. El
concepto básico de la PWI es extraer un ciclo de paso
representativo (la forma de onda prototipo) a intervalos fijos, para
transmitir su descripción y para reconstruir la señal de voz
mediante la interpolación entre formas de ondas prototipo. El
procedimiento PWI puede operar ya sea sobre la señal residual de LP
o sobre la señal de voz. Un codificador de voz ejemplar PWI, o PPP,
se describe en la Patente estadounidense No. 6,456,964, titulada
"Codificación de voz periódica" ["PERIODIC SPEECH
CODING"], solicitada el 21 de Diciembre de 1998. Otros
codificadores de voz distintos del PWI, o del PPP, se describen
en la Patente estadounidense No. 5,884,253 y en la obra de W.
Bastiaan Kleijn & Wolfgang Granzow Procedimientos para la
Interpretación de Formas de Onda en la Codificación de Voz en 1
Procedimiento de Señal Digital ["Methods for Waveform
Interpolation in Speech Coding, in 1 Digital Signal
Processing"] 215-230 (1991).
En la mayoría de los codificadores de voz
convencionales, los parámetros de un prototipo de paso determinado,
o de una trama determinada, son individualmente cuantificados y
transmitidos por el codificador. Así mismo, un valor de diferencia
es transmitido para cada parámetro. El valor de diferencia
especifica la diferencia entre el valor del parámetro para la trama
o prototipo actual, y el valor del parámetro para la trama o
prototipo anteriores. El documento EP 0,731,448 (AT & AT
Corp.) divulga un sistema de codificación de voz en el cual
diversos valores de parámetros de voz son transmitidos así como un
delta de parámetros de voz en el que el delta de parámetros de voz
representa un cambio en el retardo de paso de una trama presente
respecto de una trama inmediatamente precedente. Sin embargo, la
cuantificación de los valores de los parámetros y de los valores de
diferencia requiere el uso de bits (y por tanto del ancho de banda).
En un codificador de voz de velocidad de bits baja, es ventajoso
transmitir el menor número de bits posible para mantener una calidad
de voz satisfactoria. Por esta razón, en codificadores de voz de
velocidad de bit baja convencionales, únicamente los errores de
parámetro absolutos son cuantificados y transmitidos. Sería deseable
reducir el número de bits transmitidos sin reducir el valor de
información. De acuerdo con ello, una estrategia de cuantificación
que cuantifica la diferencia entre una suma ponderada de los valores
de parámetro para las tramas previas y el valor de parámetro para
la trama actual se describe en el documento EP 1279167 B1, titulado
"Procedimiento y aparato para cuantificar de manera predictiva la
voz vocalizada" ["METHOD AND APPARATUS FOR PREDICTIVELY
QUANTIZING VOICED SPEECH"], cedido al cesionario de la presente
invención.
Los codificadores de voz experimentan un borrado
de tramas, o una pérdida de paquetes, debido a las deficientes
condiciones del canal. Una solución utilizada en codificadores de
voz convencionales fue hacer que el descodificador simplemente
repitiera la trama previa en el caso de que fuera recibido un
borrado de trama. Una mejora se ha encontrado en el empleo de un
código de cifrado y descifrado adaptador, el cual ajusta
dinámicamente la trama que sigue inmediatamente a un borrado de
trama. Un refinamiento adicional, el codificador de velocidad
variable potenciado (EVRC), se estandariza en el EIA/TIA
IS-127 del Estándar Provisional de la Asociación de
la Industria de las Telecomunicaciones. El codificador EVRC se basa
en una trama codificada de baja predictividad, correctamente
recibida para alterar en la memoria del codificador la trama que no
fue recibida, y de esta forma mejorar la calidad de la trama
correctamente recibida.
Un problema del codificador EVRC, sin embargo,
es que pueden surgir discontinuidades entre el borrado de la trama
y una buena trama ajustada subsiguiente. Por ejemplo, los impulsos
de separación pueden estar situados demasiados próximos o demasiado
separados, en comparación con sus emplazamientos relativos en el
caso de que no se hubiera producido ningún borrado de trama. Dichas
discontinuidades pueden provocar un clic audible.
En general, los codificadores de voz que
conllevan una predictividad baja (como los descritos en el párrafo
anterior) actúan mejor bajo condiciones de borrado de tramas. Sin
embargo, de acuerdo con lo expuesto, dichos codificadores de voz
requieren velocidades de bits relativamente altas. A la inversa, un
codificador de voz altamente predictivo puede conseguir una buena
calidad de salida de voz sintetizada (particularmente para voz de
alta periodicidad, como por ejemplo la voz vocalizada), pero actúa
peor bajo condiciones de borrado de tramas. Sería deseable combinar
las calidades de ambos tipos de codificador de voz. Sería así mismo
ventajoso contar con un procedimiento de suavizado de las
discontinuidades entre los borrados de tramas y las buenas tramas
subsecuentes alteradas. Así, se necesita un procedimiento de
compensación del borrado de tramas que mejore el rendimiento de los
codificadores predictivos en el caso de borrados de tramas y que
suavice las discontinuidades entre los borrados de trama y las
buenas tramas subsiguientes.
\newpage
La presente invención está destinada a un
procedimiento de compensación de borrado de tramas que mejore el
rendimiento de los codificadores predictivos en el caso de borrado
de tramas y que suavice las discontinuidades entre los borrados de
tramas y las buenas tramas subsiguientes. De acuerdo con ello, en un
aspecto de la invención, se proporciona un procedimiento de
compensación de un borrado de tramas de un codificador de voz. El
procedimiento incluye ventajosamente descodificar un valor de
retardo de paso y un primer valor delta para una trama actual
procesada después de que se ha declarado una trama borrada, siendo
el primer valor delta igual a la diferencia entre el valor de
retardo de paso para la trama actual y un valor de retardo de paso
para una trama inmediatamente anterior a la trama actual; recibir
un segundo valor delta cuantificado para al menos una trama anterior
a la trama actual y después del borrado de trama sin recibir un
valor de retardo de paso cuantificado para la al menos una trama;
descuantificar el segundo valor delta para al menos una trama
anterior a la trama actual y después del borrado de trama, en el
que el segundo valor delta es igual a la diferencia entre un valor
de retardo de paso para la al menos una trama y un valor de retardo
de paso para una trama inmediatamente anterior a la al menos una
trama; restar el primer valor de trama del valor de retardo de paso
para la trama actual para generar un valor de retardo de paso para
la al menos una trama anterior a la trama actual; y restar el
segundo valor delta del valor de retardo de paso generado para la al
menos una trama anterior a la trama actual para generar un valor de
retraso de separación para la trama borrada.
En otro aspecto de la invención, se proporciona
un codificador de voz configurado para compensar un borrado de
trama. El codificador de voz ventajosamente incluye un primer medio
para descuantificar un valor de retardo de paso y un primer valor
delta para una trama actual procesada después de que se ha declarado
una primera trama borrada, siendo el primer valor delta igual a la
diferencia entre el valor de retardo de paso para la trama actual
y un valor de retardo de paso para una trama inmediatamente anterior
a la trama actual; unos medios para recibir un segundo valor delta
cuantificado para al menos una trama anterior a la trama actual y
después del borrado de la trama sin recibir un valor de retardo de
paso cuantificado para la al menos una trama; unos medios para
descuantificar el segundo valor delta para la al menos una trama
anterior a la trama actual y después del borrado de trama, en el
que el valor delta es igual a la diferencia entre un valor de
retardo de paso para la al menos una trama y un valor de retardo de
paso para una trama inmediatamente anterior a la al menos una
trama; unos medios para restar el primer valor delta del valor de
retardo de paso para la trama actual para generar un valor de
retardo de paso para la al menos una trama anterior a la trama
actual; y unos medios para restar el segundo valor delta del valor
de retardo de paso generado para la al menos una trama anterior a
la trama actual para generar un valor de retardo de paso para la
trama borrada.
En una forma de realización preferente de la
invención, se proporciona una unidad de abonado que incorpora las
características del codificador de voz anteriormente descritas. En
esta forma de realización, el primer medio para descuantificar el
valor de retardo de paso y el primer valor delta para la trama
actual procesada después de que se ha declarado una trama borrada
es un primer codificador de voz; el segundo medio para
descuantificar el segundo valor delta para la al menos una trama
anterior a la trama actual y después del borrado de la trama es un
segundo codificador de voz; y el medio para restar es un procesador
de control acoplado a los primero y segundo codificadores de
voz.
En otro aspecto de la invención, se proporciona
un elemento de infraestructura configurado para compensar un
borrado de trama. El elemento de infraestructura incluye
ventajosamente un procesador; y un medio de almacenamiento acoplado
al procesador y que contiene una serie de instrucciones ejecutables
por el procesador para llevar a cabo el procedimiento anteriormente
expuesto.
La Fig. 1 es un diagrama de bloques de un
sistema telefónico inalámbrico.
La Fig. 2 es un diagrama de bloques de un canal
de comunicación terminado en cada extremo por codificadores de
voz.
La Fig. 3 es un diagrama de bloques de un
codificador de voz.
La Fig. 4 es un diagrama de bloques de un
descodificador de voz.
La Fig. 5 es un diagrama de bloques de un
codificador de voz que incluye porciones de un codificador /
transmisor y de un descodificador / receptor.
La Fig. 6 es un gráfico de amplitud de la señal
con respecto al tiempo para un segmento de voz vocalizada.
La Fig. 7 ilustra un primer esquema de
procesamiento de borrado de trama que puede utilizarse en la porción
de descodificador / receptor del codificador de voz de la Fig.
5.
La Fig. 8 ilustra un segundo esquema de
procesamiento de borrado de trama adaptado a un codificador de voz
de velocidad variable, el cual puede utilizarse en la porción de
descodificador / receptor del codificador de voz de la Fig. 5.
\newpage
La Fig. 9 traza la amplitud de la señal con
respecto al tiempo para las diversas formas de onda residuales de
predicción lineal (LP) para ilustrar un esquema de procesamiento de
borrado de tramas que puede utilizarse para suavizar una transición
entre una trama corrompida y una buena trama.
La Fig. 10 traza una amplitud de señal con
respecto al tiempo para diversas formas de ondas residuales de LP
para ilustrar los beneficios del esquema de procesamiento del
borrado de tramas representado en la Fig. 9.
La Fig. 11 traza una amplitud de señal con
respecto al tiempo para diversas formas de onda para ilustrar una
técnica de codificación de prototipo de periodo de paso o de
interpolación de forma de onda.
La Fig. 12 es un diagrama de bloques de un
procesador acoplado en un medio de almacenamiento.
Las formas de realización ejemplares descritas
a continuación en la presente memoria consisten en un sistema de
comunicación telefónica inalámbrica configurado para emplear una
interfaz a través del aire de un sistema CDMA. No obstante, los
expertos en la materia deberían entender que un procedimiento y un
aparato para la codificación predictiva de voz vocalizada que
incorpore las características de la presente invención pueden
consistir en cualquiera de los diversos sistemas de comunicación que
empleen una amplia gama de técnicas conocidas por los expertos en
la materia.
Como se ilustra en la Fig. 1, un sistema
telefónico inalámbrico CDMA genéricamente incluye una pluralidad de
unidades 10 de abonado al servicio móvil, una pluralidad de
estaciones base 12, unos controladores de las estaciones base
(BSCs) 14, y un centro de conmutación móvil (MSC) 16. El MSC 16 está
configurado para interfacear con una red telefónica conmutada
(PSTN) 18 convencional. El MSC 16 está también configurado para
interfacear con los BSCs 14. Los BSCs 14 están acoplados a las
estaciones base 12 por medio de unas lineas de retorno. Las líneas
de retorno pueden estar configuradas para soportar cualquier
interfaz conocida incluyendo, por ejemplo, E1/T1, ATM, IP, PPP,
Frame Relay, HDSL, ADSL, o xDSL. Se entiende que puede haber más de
dos BSCs 14 en el sistema. Cada estación base 12 incluye
ventajosamente al menos un sector (no mostrado), comprendiendo cada
sector una antena omnidireccional o una antena dirigida en una
dirección particular radialmente a distancia de la estación base
12. Alternativamente, cada sector puede comprender dos antenas para
recepción de diversidad. Cada estación base 12 puede ventajosamente
ser diseñada para soportar una pluralidad de asignaciones de
frecuencia. La intersección de un sector y de una asignación de
frecuencia puede designarse como canal CDMA. Las estaciones base
12 pueden también ser conocidas como subsistemas transceptores de
estación base (BTSs) 12. Alternativamente, "la estación base"
puede utilizarse en la industria para referirse colectivamente a un
BSC 14 y a uno o más BTSs 12. Los BTSs 12 pueden también ser
designados como "emplazamientos de celdas" 12.
Alternativamente, los sectores individuales de un determinado BTS
12 pueden ser designados como emplazamientos de celdas. Las
unidades de abonado 10 al servicio móvil son típicamente teléfonos
celulares o PCS 10. El sistema está ventajosamente configurado para
su uso de acuerdo con el estándar IS-95.
Durante una operación típica del sistema
telefónico celular, las estaciones base 12 reciben una serie de
señales de enlace inverso de una serie de unidades móviles 10. Las
unidades móviles 10 están dirigiendo llamadas telefónicas u otras
comunicaciones. Cada señal de enlace inverso recibida por una
estación base determinada 12 es procesada dentro de esa estación
base 12. Los datos resultantes son transmitidos a los BSCs 14. Los
BSCs 14 proporcionan una asignación de recursos de llamadas y una
funcionalidad de gestión de la movilidad que incluyen la
orquestación de cesiones de llamadas progresivas entre las
estaciones base 12. Los BSCs 14 también encamina los datos recibidos
hacia el MSC 16, el cual proporciona servicios de encaminamiento
adicionales para interfacear con la PSTN 18. De modo similar, la
PSTN 18 interfacea con el MSC 16, y el MSC 16 interface con el BSCs
14, el cual, a su vez, controla las estaciones base 12 para
transmitir conjuntos de señales de enlace hacia delante hasta los
conjuntos de unidades móviles 10. Los expertos en la materia
comprenderán que las unidades de abonado 10 pueden ser unidades
fijas en formas de realización alternativas.
En la Fig. 2 un primer codificador 100 recibe
unas muestras de voz digitalizadas s(n) y codifica las
muestras s(n) para su transmisión sobre un medio de
transmisión 102, o un canal de comunicación 102 hasta un primer
descodificador 104. El descodificador 104 descodifica unas muestras
de voz codificadas y sintetiza una señal de voz de salida
s_{SYNTH}(n). Para la transmisión en la dirección opuesta,
un segundo codificador 106 codifica unas muestras de voz
digitalizadas s(n), las cuales son trasmitidas sobre un canal
de comunicación 108. Un segundo descodificador 110 recibe y
descodifica las muestras de voz codificadas, generando una señal de
voz de salida sintetizada s_{SYNTH}(n).
Las muestras de voz s(n) representan
señales de voz que han sido digitalizadas y cuantificadas de
acuerdo con cualquiera de los diversos procedimientos conocidos en
la técnica, incluyendo, por ejemplo, modulación por impulsos
codificados (PCM), ley \mu comprimida expandida, o ley A. Como es
conocido en la técnica, las muestras de voz s(n) están
organizadas en tramas de datos de entrada en las que cada trama
comprende un número predeterminado de muestras de voz digitalizadas
s(n). En una forma de realización ejemplar, se emplea una
velocidad de muestreo de 8 kHz, con cada trama de 20 ms
comprendiendo 160 muestras. En las formas de realización descritas
a continuación, la velocidad de transmisión de datos puede ser
ventajosamente modificada sobre una base de trama a trama de una
velocidad plena hasta (la mitad de la velocidad, un cuarto de la
velocidad o un octavo de la velocidad). La variación de la
velocidad de transmisión de los datos es ventajosa porque
velocidades de bits más bajas pueden ser selectivamente empleadas
para tramas que contengan una información de voz relativamente
menor. Como comprenderán los expertos en la materia, pueden
utilizarse otras velocidades de muestreo y / o de tamaños de trama.
Así mismo, en las formas de realización descritas más adelante, el
modo de codificación de la trama de voz puede variar sobre una base
de trama a trama en respuesta a la información de voz o a la
energía de la trama.
El primer codificador 100 y el segundo
descodificador 110 comprenden conjuntamente un primer codificador de
voz (codificador / descodificador), o códec de voz. El codificador
de voz podría utilizarse en cualquier dispositivo de comunicación
para transmitir señales de voz, incluyendo, por ejemplo, las
unidades de abonado, los BTSs, o BSCs anteriormente descritos con
referencia a la Fig. 1. De modo similar, el segundo codificador 106
y el primer descodificador 104 componen conjuntamente un segundo
codificador de voz. Los expertos en la materia comprenderán que los
codificadores de voz pueden implementarse con un procesador de señal
digital (DSP), un circuito integrado de aplicación específica
(ASIC), una lógica de circuito de puerta discreto, un soporte
lógico inalterable, o cualquier módulo de software programable
convencional y un microprocesador. El módulo de software podría
alojarse en una memoria RAM, memoria flash, registros, o cualquier
otra forma de medio de almacenamiento conocido en la técnica.
Alternativamente, cualquier procesador convencional, controlador, o
máquina de estados podría sustituir al microprocesador. Unos ASICs
ejemplares diseñados específicamente para la codificación de voz se
describen en la Patente estadounidense No. 5,727,123 y en la Patente
estadounidense No. 5,784,532 titulada VOCODER ASIC, solicitada el
16 de Febrero de 1994.
En la Fig. 3 un codificador 200 puede utilizarse
en un codificador de voz que incluya un módulo 202 de decisión de
modo , un módulo 204 de estimación de separación, un módulo 206 de
análisis de la LP, un filtro 208 de análisis de la LP, un módulo
210 de cuantificación de la LP, y un módulo 212 de cuantificación de
residuos. Unas tramas s(n) de voz de entrada se proporcionan
al módulo 202 de decisión de modo, al módulo 204 de estimación de
separación, al módulo 206 de análisis de la LP, y al filtro 208 de
análisis de la LP. El módulo 202 de decisión de modo produce un
índice de modo I_{M} y un modo M en base a la periodicidad,
energía, relación de señal a ruido (SNR), o una velocidad al paso
porcero, entre otras características, de cada trama de voz de
entrada s(n). Diversos procedimientos para clasificar tramas
de voz de acuerdo con la periodicidad se describen en la Patente
estadounidense No. 5,911,128, la cual está cedida al cesionario de
la presente invención y completamente incorporada en la presente
memoria por referencia. Dichos procedimientos se incorporan también
en los TIA / EIA IS-1127 y TIA / EIA
IS-733 de los Estándares Provisionales de la
Asociación de la Industria de las Telecomunicaciones. Un esquema de
decisión de modo ejemplar también se describe en la Patente
estadounidense anteriormente mencionada No. 6,691,084.
El módulo 204 de estimación de separación
produce un índice I_{P} de paso y un valor P_{O} de retardo en
base a cada trama s(n) de voz de entrada. El módulo 206 de
análisis de la LP ejecuta un análisis predictivo lineal sobre cada
trama s(n) de voz de entrada para generar un parámetro
a de la LP. El parámetro a de la LP es suministrado
al módulo 210 de cuantificación de la LP. El módulo 210 de
cuantificación de la LP recibe también el modo M, ejecutando de
esta forma el proceso de cuantificación de manera dependiente del
modo. El módulo 210 de cuantificación de la LP produce un índice
I_{LP} de la LP y un parámetro \hat{a} de la LP
cuantificado. El filtro 208 de análisis de LP recibe el parámetro
\hat{a} de parámetro de la LP además de la trama
s(n) de voz de entrada. El filtro 208 de análisis de la LP
genera una señal R[n]
de residuo de la LP, que representa el error entre las tramas s(n) de voz de entrada y la voz reconstruida en base a los parámetros \hat{a} previstos lineales cuantificados. El residuo R[n] de la LP, el modo M, y el parámetro \hat{a} de la LP cuantificado son suministrados al módulo 212 de cuantificación de residuo. En base a estos valores, el módulo 212 de cuantificación de residuo produce un índice I_{R} de residuo y una señal \check{R}[n] de señal de residuo cuantificada.
de residuo de la LP, que representa el error entre las tramas s(n) de voz de entrada y la voz reconstruida en base a los parámetros \hat{a} previstos lineales cuantificados. El residuo R[n] de la LP, el modo M, y el parámetro \hat{a} de la LP cuantificado son suministrados al módulo 212 de cuantificación de residuo. En base a estos valores, el módulo 212 de cuantificación de residuo produce un índice I_{R} de residuo y una señal \check{R}[n] de señal de residuo cuantificada.
En la Fig. 4 un descodificador 300 que puede ser
utilizado en un codificador de voz incluye un módulo 302 de
descodificación de parámetro de la LP, un módulo 304 de
descodificación de residuo, un módulo 306 de descodificación de
modo y un filtro 308 de síntesis de la LP. El módulo 306 de
descodificación de modo recibe y descodifica un índice I_{M} de
índice de modo, generando a partir de éste un modo M. El módulo 302
de descodificación de parámetro de la LP recibe el modo M y un
índice I_{LP} de la LP. El módulo 302 de descodificación de
parámetro de la LP descodifica los valores recibidos para producir
un parámetro \hat{a} de la LP cuantificado. El módulo 304
de descodificación de residuo recibe un índice I_{R} de residuo,
un índice I_{P} de separación, y un índice I_{M} de modo. El
módulo 304 de descodificación de residuo descodifica los valores
recibidos para generar una señal \check{R}[n] de
residuo cuantificado. La señal \check{R}[n] de señal
de residuo cuantificado y el parámetro \hat{a} de la LP
cuantificada se suministran al filtro 308 de síntesis de la LP, el
cual sintetiza una señal \hat{s}[n] de voz de salida
descodificada a partir de aquél.
El funcionamiento y la implementación de
diversos módulos del codificador 200 de la Fig. 3 y del
descodificador 300 de la Fig. 4 son conocidos en la técnica y
descritos en la Patente estadounidense anteriormente mencionada No.
5,414,796 y en la obra de L.B. Rabiner & R.W. Schafer,
Procesamiento Digital de Señales de Voz ["Digital Processing
of Speech Signals"] 396-453 (1978).
En una forma de realización un codificador de
voz multimodo 400 comunica con un descodificador de voz multimodo
402 a través de un canal de comunicación, o de un medio de
transmisión, 404. El canal de comunicación 404 es ventajosamente
una interfaz de RF configurada de acuerdo con el estándar
IS-95. Debería entenderse por parte de los expertos
en la materia que el codificador 400 tiene un descodificador
asociado (no mostrado). El codificador 400 y su descodificador
asociado forman conjuntamente un primer codificador de voz. Debería
entenderse también por parte de los expertos en la materia que el
descodificador 402 tiene un codificador asociado (no mostrado). El
descodificador 402 y su codificador asociado forman conjuntamente un
segundo codificador de voz. Los primero y segundo codificadores de
voz pueden ventajosamente ser implementados como parte de unos
primero y segundo DSPs, y pueden estar instalados en, por ejemplo,
una unidad de abonado y una estación base de un PCS o de un sistema
telefónico celular, o en una unidad de abonado y una pasarela de un
sistema por satélite.
El codificador 400 incluye un calculador 406 de
parámetros, un módulo 408 de clasificación de modos, una pluralidad
de modos de codificación 410, y un módulo 412 de formateo de
paquetes. El número de modos de codificación 410 se muestra como
n, que la persona experta en la materia comprendería podría
significar cualquier número razonable de modos de codificación 410.
Por razones de simplicidad, únicamente se muestran tres modos de
codificación 410, con una línea de puntos que indica la existencia
de otros modos de codificación 410. El descodificador 402 incluye
un desmontador de paquetes y un módulo 414 detector de una pérdida
de paquetes, una pluralidad de modos de descodificación 416, un
descodificador de borrado 418, y un postfiltro, o sintetizador de
voz, 420. El número de modos de descodificación 416 se muestra como
n, que la persona experta en la materia entendería podría
significar cualquier número razonable de modos de descodificación
416. Por razones de simplicidad, únicamente se muestran tres modos
de descodificación 416, con una línea de puntos que indica la
existencia de otros modos de descodificación 416.
Una señal de voz, s(n), se
suministra al calculador 406 de parámetros. La señal de voz se
divide en bloques de muestras llamadas tramas. El valor n
designa el número de tramas. En una forma de realización
alternativa, una señal de error residual de predición lineal (LP)
se utiliza en lugar de la señal de voz. El residuo de la LP se
utiliza por codificadores de voz tales como, por ejemplo, el
codificador CELP. La computación del residuo de la LP se ejecuta
ventajosamente suministrando la señal de voz a un filtro de la LP
inverso (no mostrado). La función de transferencia del filtro de la
LP inverso, A(z) se computa de acuerdo con la
siguiente ecuación:
A(z) = 1
- a_{1}z^{-1} - a_{2}z^{-2} - ... -
a_{P}z^{-P}
en la cual los coeficientes
a_{1} son derivaciones de filtro que tienen unos valores
predefinidos escogidos de acuerdo con procedimientos conocidos,
como se describe en las Patentes estadounidenses Nos. 5,414,796 y
6,456,964, anteriormente mencionadas. El número p indica el
número de muestras previas que el filtro de la LP inverso utiliza
con fines de predicción. En una forma de realización particular,
p se establece en
diez.
El calculador 406 de parámetros deriva diversos
parámetros en base a la trama actual. En una forma de realización
estos parámetros incluyen al menos uno de los siguientes:
coeficientes de filtro de codificación predictiva lineal (LPC),
coeficientes del par espectral de líneas (LSP), funciones de
autocorrelación normalizada (NACFs), retardo de bucle abierto,
índices de paso porcero, energías de banda, y señal residual
formante. La computación de los coeficientes LPC, de los
coeficientes LSP, del retardo de bucle abierto, las energías de
banda, y la señal residual formante se describen con detalle en la
Patente estadounidense anteriormente mencionada No. 5,414,796. La
computación de las NACFs y los índices de paso porcero se describen
con detalle en la Patente anteriormente mencionada No.
5,911.128.
El calculador 406 de parámetros está acoplado al
módulo 408 de clasificación de modos. El calculador 406 de
parámetros suministra los parámetros al módulo 408 de clasificación
de modos. El módulo 408 de clasificación de modos está acoplado
para la conmutación dinámica entre los módulos de codificación 410
sobre una base de trama a trama con el fin de seleccionar el modo
de codificación 410 más apropiado para la actual trama. El módulo
408 de clasificación de modos selecciona un modo de codificación
concreto 410 para la trama actual mediante la comparación de los
parámetros con un umbral predefinido y / o unos valores de tope. En
base al contenido de energía de la trama, el módulo 408 de
clasificación de modos clasifica la trama como de sin voz, o de voz
inactiva (por ejemplo, el silencio, ruido de fondo, o pausas entre
palabras) o de voz. En base a la periodicidad de la trama, el
módulo 408 de clasificación de modos, clasifica a continuación las
tramas de voz como un tipo particular de voz, por ejemplo,
vocalizada, no vocalizada, o transitoria.
La voz vocalizada es una voz que muestra un
grado relativamente alto de periodicidad. Un segmento de voz
vocalizada se muestra en el gráfico de la Fig. 6. Según se ilustra,
el periodo de paso es un componente de una trama de voz que puede
utilizarse con ventaja para analizar y reconstruir el contenido de
la trama. La voz no vocalizada típicamente comprende sonidos
consonánticos. Las tramas de voz transitorias son típicamente
transiciones entre la voz vocalizada y la no vocalizada. Las tramas
que son clasificadas como ni voz vocalizada ni voz no vocalizada
son clasificadas como voz transitoria. Debería entenderse por parte
de los expertos en la materia que podría emplearse cualquier
esquema clasificatorio razonable.
La clasificación de las tramas de voz es
ventajosa porque pueden utilizarse diversos modos de cuantificación
410 para codificar diferentes tipos de voz, dando como resultado un
uso más eficiente del ancho de banda en un canal compartido como
por ejemplo el canal de comunicación 404. Por ejemplo, como la voz
vocalizada es periódica y, por tanto, altamente predictiva, puede
emplearse un modo de codificación 410 altamente predictivo, de
velocidad de bits baja para codificar la voz vocalizada. Los módulos
de clasificación, como por ejemplo el módulo de codificación 408,
se describen con detalle en la Patente estadounidense No. 6,691,084
anteriormente mencionada y en la Patente estadounidense No.
6,640,209 titulada "Codificador de voz de bucle cerrado de
predicción lineal de dominio mixto o multimodo (MDLP)"
["CLOSED-LOOP MULTIMODE
MIXED-DOMAIN LINEAR PREDICTION (MDLP) SPEECH
CODER"] solicitada el 26 de Febrero de 1999.
El módulo 408 de clasificación de modos
selecciona un modo de clasificación 410 para la trama actual en base
a la clasificación de la trama. Los diversos modos de clasificación
410 están acoplados en paralelo. Uno o más de los modos de
codificación 410 puede ser operativo en cualquier momento
determinado. No obstante, únicamente un modo de codificación 410
opera ventajosamente en cualquier momento determinado, y es
seleccionado de acuerdo con la clasificación de la trama
actual.
Los diferentes modos de codificación 410
ventajosamente operan de acuerdo con velocidades de bits de
codificación diferentes, diferentes esquemas de codificación, o
diferentes combinaciones de velocidad de bits de codificación y
esquema de codificación. Las distintas velocidades de codificación
utilizadas pueden ser de plena velocidad, de la mitad de la
velocidad, de un cuarto de la velocidad, y / o de un octavo de la
velocidad. Los distintos esquemas de codificación utilizados pueden
ser la codificación CELP, la codificación de periodo de paso
prototipo (PPP) (o codificación de interpolación de forma de onda
(WI)), y / o codificación de predición lineal excitada de ruido
(NELP). Así, por ejemplo, un modo de codificación particular 410
podría ser una codificación CELP de plena velocidad , otro modo de
codificación 410 podría ser una codificación CELP de media
velocidad, otro modo de codificación 410 podría ser una
codificación PPP de un cuarto de velocidad, y otro modo de
codificación 410 podría ser una codificación NELP.
De acuerdo con un modo de codificación 410 CELP,
un modelo de tracto vocálico predictivo lineal es excitado con una
versión cuantificada de la señal residual de la LP. Los parámetros
cuantificados para la entera trama anterior, se utilizan para
reconstruir la trama actual. El modo de codificación 410 CELP
proporciona así una reproducción de voz relativamente precisa pero
a expensas de una velocidad de bits de codificación relativamente
alta. El modo de codificación 410 CELP puede ventajosamente ser
utilizado para codificar tramas clasificadas como voz transitoria.
Un codificador de voz CELP de velocidad variable ejemplar se
describe con detalle en la Patente estadounidense anteriormente
mencionada No. 5,414,796.
De acuerdo con un modo de codificación 410 NELP,
una señal de ruido pseudoaleatorio, filtrado, se utiliza para
modelar la trama de voz. El modo de codificación 410 NELP es una
técnica relativamente simple que consigue una velocidad de bits
baja. El modo de codificación 412 NELP puede ser utilizado con
ventaja para codificar tramas clasificadas como voz no vocalizada.
Un modo de codificación NELP ejemplar se describe con detalle en la
Patente estadounidense anteriormente mencionada No. 6,456,964.
De acuerdo con un modo de codificación 410 PPP,
únicamente un subconjunto de periodos de paso dentro de cada trama
son codificados. Los periodos restantes de la señal de voz son
reconstruidos interpolando estos periodos prototipo. En una
implementación de dominio de tiempo de una codificación PPP se
calcula un primer conjunto de parámetros que describe cómo
modificar un periodo prototipo previo para aproximarse al periodo
prototipo actual. Uno o más vectores de código son seleccionados,
los cuales, cuando son sumados, se aproximan a la diferencia entre
el periodo prototipo actual y el periodo prototipo previo
modificado. Un segundo conjunto de parámetros describe estos
vectores de código seleccionados. En una implementación de dominio
frecuencial de la codificación PPP, se calcula un conjunto de
parámetros para describir la amplitud y los espectros de fase del
prototipo. Esto puede llevarse a cabo en un sentido absoluto o de
forma predictiva. Un procedimiento para cuantificar de forma
predictiva la amplitud y los espectros de fase de un prototipo (o de
una trama entera) se describe en la solicitud relacionada
anteriormente indicada solicitada con la presente y titulada
"Procedimiento y aparato para cuantificar voz vocalizada de forma
predictiva" [METHOD AND APPARATUS FOR PREDICTIVELY QUANTIZING
VOICED SPEECH]. De acuerdo con una u otra implementación de la
codificación PPP, el descodificador sintetiza una señal de voz de
salida mediante la reconstrucción de un prototipo actual en base al
primer y segundo conjuntos de parámetros. La señal de voz es a
continuación interpolada entre la región entre el periodo prototipo
reconstruido actual y el periodo prototipo reconstruido anterior.
El prototipo es así una porción de la trama actual que será
interpolada linealmente con prototipos procedentes de tramas previas
que fueron situadas de modo similar dentro de la trama con el fin
de reconstruir la señal de voz o la señal residual de la LP en el
descodificador (esto es, un periodo prototipo pasado se utiliza como
predictor del periodo prototipo actual). Un codificador de voz PPP
ejemplar se describe con detalle en la Patente estadounidense
anteriormente mencionada No. 6,456,964.
La codificación del periodo prototipo mejor que
la de la entera trama de voz reduce la velocidad de bits de
codificación requerida. Las tramas clasificadas como voz vocalizada
pueden ventajosamente ser codificadas con un modo de codificación
410 PPP. Como se ilustra en la Fig. 6, la voz vocalizada contiene
componentes periódicos de variación lenta en el tiempo que son
explotados con ventaja por el modo de codificación 410 PPP.
Explotando la periodicidad de la voz vocalizada, el modo de
codificación 410 PPP es capaz de conseguir una velocidad de bits
más baja que el modo de codificación 410 CELP.
El modo de codificación seleccionado 410 está
acoplado al módulo 412 de formateo de paquetes. El modo de
codificación seleccionado 410 codifica o cuantifica, la trama
actual y proporciona los parámetros de trama cuantificados al
módulo 412 de formateo de paquetes. El módulo 412 de formateo de
paquetes ventajosamente agrupa la información cuantificada en
paquetes para su transmisión a través del canal de comunicación 404.
En una forma de realización, el modulo 412 de formateo de paquetes
está configurado para proporcionar una codificación de corrección de
errores y formatear el paquete de acuerdo con el estándar
IS-95. El paquete suministrado a un transmisor (no
mostrado) convertido en formato analógico, modulado, y transmitido a
través del canal de comunicación 404 hasta un receptor (tampoco
mostrado), el cual recibe, desmodula, y digitaliza el paquete y
suministra el paquete al descodificador 402.
En el descodificador 402, el desemsamblador de
paquetes y el módulo 414 detector de pérdida de paquetes recibe el
paquete del receptor. El desemsamblador de paquetes y el módulo 414
detector de pérdida de paquetes está acoplado para la conmutación
de forma dinámica entre los modos de descodificación 410 sobre una
base de paquete por paquete. El número de modos de descodificación
416 es el mismo que el número de modos de codificación 410, y como
podrá advertir la persona experta en la materia, cada modo de
codificación numerado 410 está asociado con un modo respectivo de
descodificación 416 numerado de forma similar y configurado para
emplear la misma velocidad de bits de codificación y el mismo
esquema de codificación.
Si el desmontador de paquetes y el módulo 414
detector de pérdida de paquetes detecta el paquete, es paquete es
desmontado y suministrado al pertinente modo de descodificación 416.
Si el desmontador de paquetes y el módulo 414 detector de pérdida
de paquetes no detecta un paquete, se declara una pérdida de paquete
y el descodificador de borrado 418 ventajosamente ejecuta el
procesamiento de borrado de tramas de acuerdo con lo descrito con
detalle más adelante.
La matriz paralela de modos de descodificación
416 y el descodificador de borrado 418 está acoplada al postfiltro
420. El modo de descodificación pertinente 416 descodifica, o
descuantifica, el paquete y suministra la información al postfiltro
420. El postfiltro 420 reconstruye, o sintetiza, la trama de voz,
dando salida a las tramas de voz sintetizadas,
\hat{s}(n). Los modos de descodificación ejemplares
y los postfiltros son descritos con detalle en las Patentes
estadounidenses Nos. 5,414,796 y 6,456,964.
En una forma de realización los mismos
parámetros cuantificados no son transmitidos. En su lugar, son
transmitidos unos índices de código de cifrado y descifrado que
especifican las direcciones en las diversas tablas de búsqueda
(LUTs) (no mostradas) del descodificador 402. El descodificador 402
recibe los índices del código de cifrado y descifrado y busca las
diversas LUTs del código de cifrado y descifrado para apropiarse los
valores de los parámetros. De acuerdo con ello, los índices del
código de cifrado y descifrado para parámetros tales como, por
ejemplo, el retardo de paso, la ganancia del código de cifrado y
descifrado adaptativo, y el LSP pueden ser transmitidos, y tres
LUTs asociados del código de cifrado y descifrado son buscados por
el descodificador 402.
De acuerdo con el modo de decodificación 410
CELP, son transmitidos el retardo de paso, la amplitud, la fase, y
el LSP. Los índices del código de cifrado y descifrado del LSP son
transmitidos porque la señal residual de la LP va a ser sintetizada
en el descodificador 402. Adicionalmente, es transmitida la
diferencia entre el valor de retardo de paso para la trama actual y
el valor de retardo de paso para la trama anterior.
De acuerdo con un modo de codificación PPP
convencional en el cual la señal de voz va a ser sintetizada en el
descodificador, únicamente se transmiten los parámetros de retardo
de paso, amplitud y fase. La velocidad de bits más baja empleada
por las técnicas de codificación de voz PPP convencionales no
permite la transmisión de la información de retardo de paso
absoluta y los valores de diferencia de retardo de paso
relativos.
De acuerdo con una forma de realización, las
tramas altamente periódicas, como por ejemplo las tramas de voz
vocalizadas son transmitidas con un modo de codificación 410 PPP de
velocidad de bits baja que cuantifica la diferencia entre el valor
de retardo de paso para la trama actual y el valor de retardo de
paso para la trama anterior para su transmisión, y no cuantifica el
valor de retardo de paso para la trama actual para su transmisión.
Debido a que las tramas vocalizadas tienen una naturaleza altamente
periódica, la transmisión del valor de diferencia como valor
opuesto al valor de retardo de paso absoluto posibilita que se
consiga una velocidad de bits de codificación inferior. En una
forma de realización esta cuantificación se generaliza de forma que
es computada una suma ponderada de los valores de los parámetros
para las tramas anteriores, en el que la suma de las ponderaciones
es uno, y la suma pondera es restada del valor de los parámetros
para la trama actual. La diferencia es entonces cuantificada. Esta
técnica se describe con detalle en el documento anteriormente
mencionado EP 1279167 B1 y titulado "Procedimiento y aparato para
cuantificar de forma predictiva la voz vocalizada" ["METHOD
AND APPARATUS FOR PREDICTIVELY QUANTIZING VOICED SPEECH"].
De acuerdo con una forma de realización, un
sistema de codificación de velocidad variable codifica los
diferentes tipos de voz según se determina por un procesador de
control con diferentes codificadores, o modos de codificación,
controlados por el procesador, o clasificador de modos. Los
codificadores modifican la señal residual de la trama actual (o
alternativamente, de la señal de voz) de acuerdo con un contorno de
separación tal como el que se especifica por el valor de retardo de
paso para la trama anterior, L _{-1} , y el valor de
retardo de paso para la trama actual, L. Un procesador de
control destinado a los codificadores sigue el mismo contorno de
separación para reconstruir una contribución adaptativo del código
de cifrado y descifrado, {P(n)}, a partir de una
memoria de separación para el residual cuantificado o voz para la
trama actual.
Si el valor de retardo de paso previo, L
_{-1}, se pierde, los descodificadores no pueden reconstruir
el contorno de separación correcto. Esto provoca que la contribución
adaptativa del código de cifrado y descifrado {P(n)},
quede distorsionada. A su vez, la voz sintetizada experimentará una
severa degradación aún cuando no se pierda un paquete para la trama
actual. Como remedio a ello, algunos codificadores convencionales
emplean una estrategia para codificar tanto L como la
diferencia entre L y L _{-1}. Esta diferencia, o
valor de paso delta puede ser designada por \Delta, donde \Delta
= L - L _{-1} sirve para recuperar L _{-1} si
L _{-1} se pierde en la trama anterior.
La forma de realización actualmente descrita
puede utilizarse para obtener una máxima ventaja en un sistema de
codificación de velocidad variable. Específicamente, un primer
codificador (o modo de codificación), designado como C, codifica el
valor L de retardo de paso de la trama actual, y el valor
\Delta de retardo de paso delta, de acuerdo con lo anteriormente
descrito. Un segundo codificador (o modo de codificación), designado
como Q codifica el valor de retardo de paso delta, \Delta,
pero no codifica necesariamente el valor de retardo de paso,
L. Esto posibilita que el segundo codificador, Q
utilice los bits adicionales para codificar otros parámetros o
ahorrar totalmente los bits (esto es, para funcionar como un
codificador de velocidad de bits baja). El primer codificador,
C, puede ventajosamente ser un codificador utilizado para
codificar una voz relativamente no periódica como, por ejemplo, un
codificador CELP de plena velocidad. El segundo codificador,
Q, puede ventajosamente ser un codificador utilizado para
codificar una voz altamente periódica (por ejemplo, una voz
vocalizada) como por ejemplo, un codificador PPP de un cuarto de
velocidad.
Como se ilustra en el ejemplo de la Fig. 7, si
el paquete de la trama anterior, trama n - 1, se pierde, la
contribución de la memoria de paso, {P_{-2} (n)}, después
de descodificar la trama recibida antes de la trama anterior, la
trama n - 2, es almacenada en la memoria del codificador (no
mostrada). El valor de retardo de paso para la trama n - 2,
L _{-2}, es también almacenado en la memoria del
codificador. Si la trama actual, trama n, es codificada por
el codificador C, la trama n puede ser llamada una
trama C. El codificador C puede restaurar el valor
anterior de retardo de paso, L _{-1}, a partir del
valor de paso \Delta, utilizando la ecuación L _{-1} =
L - \Delta. Por tanto, puede ser reconstruido un contorno de
paso correcto con los valores L _{-1} y L
_{-2}. La contribución del código de cifrado y descifrado
adaptativo para la trama n - 1
puede repararse dado el contorno de paso correcto, y ser posteriormente utilizado para generar la contribución del código de cifrado y descifrado adaptativo para la trama n. Los expertos en la materia comprenden que dicho esquema se utiliza en algunos codificadores convencionales como el codificador EVRC.
puede repararse dado el contorno de paso correcto, y ser posteriormente utilizado para generar la contribución del código de cifrado y descifrado adaptativo para la trama n. Los expertos en la materia comprenden que dicho esquema se utiliza en algunos codificadores convencionales como el codificador EVRC.
De acuerdo con una forma de realización, el
comportamiento de borrado de trama en un sistema de codificación de
voz de velocidad variable que utiliza los dos tipos de codificadores
anteriormente descritos (codificador C y codificador
Q) se potencia de acuerdo con lo descrito más adelante. Según
se ilustra en el ejemplo de la Fig. 8, un sistema de codificación
de velocidad variable puede ser diseñado para utilizar ambos tipos
de codificador C y Q. La trama actual, trama n,
es una trama C y su paquete no se ha perdido. La trama
anterior, trama n - 1, es una trama Q. El paquete
para la trama precedente a la trama Q (esto es, el paquete
para la trama n - 2) se perdió.
En el procesamiento de borrado de tramas para la
trama n - 2, la contribución de memoria de paso,
{P_{-3} (n)}, después de descodificar la trama n -
3, es almacenada en la memoria del codificador (no mostrada).
El valor de retardo de paso para la trama n - 1, L
_{-1}, puede ser recuperado utilizando el valor de retardo de
paso delta, \Delta, (que es igual a L - L _{-1}),
en el paquete del paquete de tramas de C de acuerdo con la
ecuación L _{-1} = L - \Delta. La trama n - 1 es
una trama de Q con un valor de retardo de paso delta
codificado asociado, propio suyo \Delta_{-1}, igual a
L _{-1} - L _{-2}. Por tanto, el valor de retardo
de paso para la trama de borrado, trama n - 2, L
_{-2}, puede ser recuperado con la ecuación L
_{-2} = L _{-1} - \Delta_{-1}. Con los valores de
retardo de paso correctos de la trama n - 2 y la trama n -
1, los contornos de separación para estas tramas pueden ser
ventajosamente reconstruidos y reparada consecuentemente la
contribución de código de cifrado y descifrado adaptativo. Por
tanto, la trama de C contará con la memoria de paso mejorada
requerida para computar la contribución del código de cifrado y
descifrado adaptativo para su señal residual de la LP cuantificada
(o señal de voz). Este procedimiento puede ser fácilmente extendido
para posibilitar la existencia de múltiples tramas de Q
entre la trama de borrado y la trama de C como puede ser
apreciado por los expertos en la materia.
Como se muestra gráficamente en la Fig. 9,
cuando una trama es borrada, el descodificador de borrado (por
ejemplo, el elemento 418 de la Fig. 5) reconstruye la señal residual
de la LP cuantificada (o señal de voz) sin la exacta información de
la trama. Si el contorno de paso y la memoria de paso de la trama
borrada fueron restauradas de acuerdo con el procedimiento
anteriormente descrito para reconstruir la señal residual de la LP
cuantificada (o señal de voz) de la trama actual, la señal residual
de la LP cuantificada resultante (o señal de voz) sería diferente
de la que hubiera utilizado la memoria de separación corrompida.
Dicho cambio en la memoria de paso del codificador dará como
resultado una discontinuidad en las tramas transversales residuales
cuantificadas (o señales de voz). Por tanto, un sonido de
transición, o clic, se oye a menudo en codificadores de voz
convencionales, como por ejemplo el codificador EVRC.
De acuerdo con una forma de realización
preferente, los prototipos de periodos de separación son extraídos
de la memoria de separación corrompida antes de su reparación. La
señal residual de la LP (o señal de voz) para la trama actual es
también extraída de acuerdo con un proceso de descuantificación
normal. La señal residual de la LP cuantificada (o señal de voz)
para la trama actual es entonces reconstruida de acuerdo con un
procedimiento de interpolación de forma de onda (WI). En una forma
de realización particular, el procedimiento WI opera de acuerdo con
el modo de codificación PPP anteriormente descrito. Este
procedimiento ventajosamente sirve para suavizar la discontinuidad
descrita anteriormente y para potenciar en mayor medida el
comportamiento del borrado de tramas del codificador de voz. Dicho
esquema WI puede utilizarse siempre que se necesite reparar la
memoria de paso debido al proceso de borrado con independencia de
las técnicas utilizadas para llevar a cabo la reparación
(incluyendo, sin que ello suponga limitación, por ejemplo, las
técnicas descritas anteriormente en la presente memoria).
Los gráficos de la Fig. 10 ilustran la
diferencia en apariencia entre una señal residual de la LP que ha
sido ajustada de acuerdo con técnicas convencionales, produciendo un
clic audible, y una señal residual de la LP que ha sido
seguidamente suavizada de acuerdo con el esquema de suavización WI
anteriormente descrito. Los gráficos de la Fig. 11 ilustran los
principios de una técnica de codificación PPP o WI.
Así, se ha descrito un procedimiento de
compensación de borrado de tramas novedoso y mejorado de un
codificador de voz de velocidad variable. Los expertos en la
materia entenderían que los datos, instrucciones, comandos,
información, señales, bits, símbolos, y chips que pueden ser objeto
de referencia a lo largo de la anterior descripción son
ventajosamente representados mediante voltajes, corrientes, ondas
electromagnéticas, campos o partículas electromagnéticas, campos o
partículas ópticas, o cualquier combinación de los mismos. Los
expertos en la materia apreciarían que los diversos ilustrativos
bloques lógicos, módulos, circuitos, y etapas de algoritmos
descritos en conexión con las formas de realización descritas en la
presente memoria pueden ser implementadas como hardware, software
informático, o combinaciones de ambos. Los diversos componentes
ilustrativos, bloques, módulos, circuitos y etapas han sido
descritos en términos generales en razón de su funcionalidad. El que
se implemente la funcionalidad como hardware o software depende de
las exigencias de aplicación y diseño concretas impuestas por el
sistema global. Los expertos en la materia advertirán el carácter
intercambiable del hardware y software bajo estas circunstancias, y
cómo implementar mejor la funcionalidad descrita para cada
aplicación particular. Como ejemplos, los diversos bloques,
módulos, circuitos ilustrativos y etapas de algoritmos descritos en
la presente memoria en conexión con las formas de realización
preferentes pueden ser implementados o ejecutados con un procesador
de señal digital (DSP), un circuito integrado de aplicación
específica (ASIC), una matriz de puertas programable sobre el
terreno (FPGA) u otro dispositivo lógico programable, circuito de
puerta discreto o circuito lógico de transistor, componentes
discretos de hardware, como por ejemplo, registros y FIFO, un
procesador que ejecute una serie de instrucciones de soporte lógico
inalterable, cualquier módulo de software convencional programable
y un procesador, o cualquier combinación de los mismos diseñada para
ejecutar las funciones descritas en la presente memoria. El
procesador puede ventajosamente ser un microprocesador, pero
alternativamente, el procesador puede ser cualquier procesador,
controlador, microcontrolador o máquina de estados convencional.
El módulo de software podría alojarse en una memoria RAM, memoria
flash, la memoria ROM, la memoria EPROM, la memoria EEPROM,
registros, un disco duro, un disco extraíble, un
CD-ROM, o cualquier otra forma de medio de
almacenamiento conocido en la técnica. Como se ilustra en la Fig.
12, un procesador ejemplar 500 está ventajosamente acoplado a un
medio de almacenamiento 502 para leer la información procedente de,
y escribir información para, el medio de almacenamiento 502.
Alternativamente, el medio de almacenamiento 502 puede formar parte
integrante del procesador 500. El procesador 500 y el medio de
almacenamiento 502 pueden alojarse en un ASIC (no mostrado). El
ASIC puede alojarse en un teléfono (no mostrado). Alternativamente,
el procesador 500 y el medio de almacenamiento 502 pueden alojarse
en un teléfono. El procesador 500 puede ser implementado con una
combinación del DSP y un microprocesador, o como dos
microprocesadores en combinación con un núcleo del DSP, etc.
Se han mostrado y descrito formas de realización
preferentes de la presente invención. Debería resultar evidente
para la persona experta en la materia, sin embargo, que pueden
llevarse a cabo numerosas alteraciones en las formas de realización
divulgadas en la presente memoria sin apartarse del ámbito de la
invención. Por consiguiente, la presente invención no está limitada
sino de acuerdo con las reivindicaciones que siguen.
Claims (16)
1. Un procedimiento para compensar un borrado
de trama en un codificador de voz, que comprende:
descuantificar un valor de retardo de paso y un
primer valor delta para una trama actual procesada después de que
se ha declarado una trama borrada, siendo el primer valor delta
igual a la diferencia entre el valor de retardo de paso para la
trama actual y un valor de retardo de paso para la trama
inmediatamente precedente a la trama actual;
recibir un segundo valor delta cuantificado para
al menos una trama anterior a la trama actual y después del borrado
de trama sin recibir un valor de retardo de paso cuantificado para
la al menos una trama;
descuantificar el segundo valor delta para la al
menos una trama antes de la trama actual y después del borrado de
la trama, en el que el segundo valor de trama es igual a la
diferencia entre un valor de retardo de paso para la al menos una
trama y un valor de retardo de paso para una trama inmediatamente
precedente a la al menos una trama;
substraer el primer valor delta del valor de
retardo de paso para la tarma actual para generar un valor de
retardo de paso para la al menos una trama anterior a la trama
actual; y
substraer el segundo valor delta del valor de
retardo de paso generado para la al menos una trama anterior a la
trama actual para generar un valor de retardo de paso para la trama
borrada.
2. El procedimiento de la reivindicación 1, que
comprende así mismo construir la trama borrada para generar una
trama reconstruida.
3. El procedimiento de la reivindicación 2, que
comprende así mismo ejecutar una interpolación de forma de onda
para suavizar cualquier discontinuidad existente entre la trama
actual y la trama reconstruida.
4. El procedimiento de la reivindicación 1, en
el que la descuantificación es ejecutada de acuerdo con un modo de
codificación relativamente no predictivo.
5. El procedimiento de la reivindicación 1, en
el que la descuantificación se ejecuta de acuerdo con un modo de
codificación relativamente predictivo.
6. Un aparato adaptado para compensar un borrado
de trama, que comprende:
un primer medio (418) para descuantificar un
valor de retardo de paso y un primer valor delta para una trama
actual procesada después de que se ha declarado una trama borrada,
siendo el primer valor delta igual a la diferencia entre el valor
de retardo de paso para la trama actual y un valor de retardo de
paso para una trama inmediatamente precedente a la trama
actual;
un medio (402) para recibir un segundo valor
delta cuantificado para al menos una trama anterior a la trama
actual y después del borrado de la trama sin recibir un valor de
retardo de paso cuantificado para la al menos una trama;
un segundo medio (418) para descuantificar el
segundo valor delta para la al menos una trama antes de la trama
actual y después del borrado de la trama, en el que el valor delta
es igual a la diferencia entre un valor de retardo de paso para la
al menos una trama y un valor de retardo de paso para una trama
inmediatamente precedente a la al menos una trama;
un medio (418) para sustraer el primer valor
delta del valor de retardo de paso para la trama actual para
generar un valor de retardo de paso para la al menos una trama antes
de la trama actual; y
un medio (418) para sustraer el segundo valor
delta del segundo valor de retardo de paso generado para la al
menos una trama antes de la trama actual para generar un valor de
retardo de paso para trama borrada.
7. El aparato de la reivindicación 6, que
comprende así mismo un medio (420) para reconstruir la trama
borrada para generar una trama reconstruida.
8. El aparato de la reivindicación 7, que
comprende así mismo un medio para ejecutar una interpolación de
forma de onda para suavizar cualquier discontinuidad existente entre
la trama actual y la trama reconstruida.
9. El aparato de la reivindicación 6, en el que
el primer medio (418) de descuantificación comprende un medio para
descuantificar de acuerdo un modo de codificación relativamente no
predictivo.
10. El codificador de voz de la reivindicación
6, en el que el segundo medio (418) de descuantificación comprende
un medio de descuantificación de acuerdo con un modo de codificación
relativamente predictivo.
11. Una unidad de abonado de acuerdo con el
aparato de la reivindicación 6, en la que:
el primer medio (418) para descuantificar el
valor de retardo de paso y el primer valor delta para la trama
actual procesada después de que se ha declarado una trama borrada es
un primer codificador de voz;
el segundo medio (418) para descuantificar el
segundo valor delta para la al menos una trama anterior a la trama
actual y después del borrado de la trama es un segundo codificador
de voz; y
el medio (418) para sustraer es un procesador de
control acoplado a los primero y segundo codificadores de voz.
12. La unidad de abonado de la reivindicación
11, en la que el procesador de control está así mismo configurado
para reconstruir una trama borrada para regenerar una trama
reconstruida.
13. La unidad de abonado de la reivindicación
12, en la que el procesador de control está así mismo configurado
para ejecutar una interpolación en forma de onda para suavizar
cualquier discontinuidad existente entre la trama actual y la trama
reconstruida.
14. La unidad de abonado de la reivindicación
11, en la que el primer codificador de voz está configurado para
descuantificar de acuerdo con un modo de codificación relativamente
no predictivo.
15. La unidad de abonado de la reivindicación
11, en la que el segundo codificador de voz está configurado para
descuantificar de acuerdo con un modo de codificación relativamente
predictivo.
16. Un medio de almacenamiento que contiene un
conjunto de instrucciones que, cuando son ejecutadas por un
procesador, llevan a cabo cada una de las etapas del procedimiento
de una cualquiera de la reivindicaciones 1 a 5.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US557283 | 2000-04-24 | ||
| US09/557,283 US6584438B1 (en) | 2000-04-24 | 2000-04-24 | Frame erasure compensation method in a variable rate speech coder |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2288950T3 true ES2288950T3 (es) | 2008-02-01 |
Family
ID=24224779
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES09163673T Expired - Lifetime ES2360176T3 (es) | 2000-04-24 | 2001-04-18 | Alisamiento de discontinuidades entre tramas de habla. |
| ES01930579T Expired - Lifetime ES2288950T3 (es) | 2000-04-24 | 2001-04-18 | Procedimiento de compensacion de borrado de tramas en un codificador de voz de velocidad de transmision variable. |
Family Applications Before (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES09163673T Expired - Lifetime ES2360176T3 (es) | 2000-04-24 | 2001-04-18 | Alisamiento de discontinuidades entre tramas de habla. |
Country Status (12)
| Country | Link |
|---|---|
| US (1) | US6584438B1 (es) |
| EP (3) | EP1850326A3 (es) |
| JP (1) | JP4870313B2 (es) |
| KR (1) | KR100805983B1 (es) |
| CN (1) | CN1223989C (es) |
| AT (2) | ATE368278T1 (es) |
| AU (1) | AU2001257102A1 (es) |
| BR (1) | BR0110252A (es) |
| DE (2) | DE60129544T2 (es) |
| ES (2) | ES2360176T3 (es) |
| TW (1) | TW519615B (es) |
| WO (1) | WO2001082289A2 (es) |
Families Citing this family (78)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TW376611B (en) * | 1998-05-26 | 1999-12-11 | Koninkl Philips Electronics Nv | Transmission system with improved speech encoder |
| CN100362568C (zh) * | 2000-04-24 | 2008-01-16 | 高通股份有限公司 | 用于预测量化有声语音的方法和设备 |
| US7080009B2 (en) * | 2000-05-01 | 2006-07-18 | Motorola, Inc. | Method and apparatus for reducing rate determination errors and their artifacts |
| US6937979B2 (en) * | 2000-09-15 | 2005-08-30 | Mindspeed Technologies, Inc. | Coding based on spectral content of a speech signal |
| US7013267B1 (en) * | 2001-07-30 | 2006-03-14 | Cisco Technology, Inc. | Method and apparatus for reconstructing voice information |
| US7512535B2 (en) * | 2001-10-03 | 2009-03-31 | Broadcom Corporation | Adaptive postfiltering methods and systems for decoding speech |
| US7096180B2 (en) * | 2002-05-15 | 2006-08-22 | Intel Corporation | Method and apparatuses for improving quality of digitally encoded speech in the presence of interference |
| US6789058B2 (en) * | 2002-10-15 | 2004-09-07 | Mindspeed Technologies, Inc. | Complexity resource manager for multi-channel speech processing |
| KR100451622B1 (ko) * | 2002-11-11 | 2004-10-08 | 한국전자통신연구원 | 통신용 보코더 및 이를 이용한 통신 방법 |
| JP4303687B2 (ja) * | 2003-01-30 | 2009-07-29 | 富士通株式会社 | 音声パケット消失隠蔽装置,音声パケット消失隠蔽方法,受信端末および音声通信システム |
| GB2416467B (en) * | 2003-05-14 | 2006-08-30 | Oki Electric Ind Co Ltd | Apparatus and method for concealing erased periodic signal data |
| US20050049853A1 (en) * | 2003-09-01 | 2005-03-03 | Mi-Suk Lee | Frame loss concealment method and device for VoIP system |
| US7433815B2 (en) * | 2003-09-10 | 2008-10-07 | Dilithium Networks Pty Ltd. | Method and apparatus for voice transcoding between variable rate coders |
| US7505764B2 (en) * | 2003-10-28 | 2009-03-17 | Motorola, Inc. | Method for retransmitting a speech packet |
| US7729267B2 (en) * | 2003-11-26 | 2010-06-01 | Cisco Technology, Inc. | Method and apparatus for analyzing a media path in a packet switched network |
| PL1735774T3 (pl) * | 2004-04-05 | 2008-11-28 | Koninl Philips Electronics Nv | Koder wielokanałowy |
| JP4445328B2 (ja) * | 2004-05-24 | 2010-04-07 | パナソニック株式会社 | 音声・楽音復号化装置および音声・楽音復号化方法 |
| JP4698593B2 (ja) * | 2004-07-20 | 2011-06-08 | パナソニック株式会社 | 音声復号化装置および音声復号化方法 |
| US7681105B1 (en) * | 2004-08-09 | 2010-03-16 | Bakbone Software, Inc. | Method for lock-free clustered erasure coding and recovery of data across a plurality of data stores in a network |
| US7681104B1 (en) | 2004-08-09 | 2010-03-16 | Bakbone Software, Inc. | Method for erasure coding data across a plurality of data stores in a network |
| EP2204796B1 (en) | 2004-08-30 | 2017-07-12 | QUALCOMM Incorporated | Adaptive De-Jitter buffer for voice over IP |
| US7519535B2 (en) * | 2005-01-31 | 2009-04-14 | Qualcomm Incorporated | Frame erasure concealment in voice communications |
| WO2006079348A1 (en) | 2005-01-31 | 2006-08-03 | Sonorit Aps | Method for generating concealment frames in communication system |
| US8355907B2 (en) | 2005-03-11 | 2013-01-15 | Qualcomm Incorporated | Method and apparatus for phase matching frames in vocoders |
| US8155965B2 (en) * | 2005-03-11 | 2012-04-10 | Qualcomm Incorporated | Time warping frames inside the vocoder by modifying the residual |
| UA90506C2 (ru) * | 2005-03-11 | 2010-05-11 | Квелкомм Инкорпорейтед | Изменение масштаба времени кадров в вокодере с помощью изменения остатка |
| US9058812B2 (en) * | 2005-07-27 | 2015-06-16 | Google Technology Holdings LLC | Method and system for coding an information signal using pitch delay contour adjustment |
| US8259840B2 (en) * | 2005-10-24 | 2012-09-04 | General Motors Llc | Data communication via a voice channel of a wireless communication network using discontinuities |
| KR100647336B1 (ko) * | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
| US8032369B2 (en) * | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
| US8090573B2 (en) * | 2006-01-20 | 2012-01-03 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision |
| US8346544B2 (en) * | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
| US7457746B2 (en) * | 2006-03-20 | 2008-11-25 | Mindspeed Technologies, Inc. | Pitch prediction for packet loss concealment |
| JP5052514B2 (ja) * | 2006-07-12 | 2012-10-17 | パナソニック株式会社 | 音声復号装置 |
| US8135047B2 (en) * | 2006-07-31 | 2012-03-13 | Qualcomm Incorporated | Systems and methods for including an identifier with a packet associated with a speech signal |
| FR2907586A1 (fr) * | 2006-10-20 | 2008-04-25 | France Telecom | Synthese de blocs perdus d'un signal audionumerique,avec correction de periode de pitch. |
| US7738383B2 (en) * | 2006-12-21 | 2010-06-15 | Cisco Technology, Inc. | Traceroute using address request messages |
| US8279889B2 (en) | 2007-01-04 | 2012-10-02 | Qualcomm Incorporated | Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate |
| CN101226744B (zh) * | 2007-01-19 | 2011-04-13 | 华为技术有限公司 | 语音解码器中实现语音解码的方法及装置 |
| US7706278B2 (en) * | 2007-01-24 | 2010-04-27 | Cisco Technology, Inc. | Triggering flow analysis at intermediary devices |
| US7873064B1 (en) * | 2007-02-12 | 2011-01-18 | Marvell International Ltd. | Adaptive jitter buffer-packet loss concealment |
| CN101321033B (zh) * | 2007-06-10 | 2011-08-10 | 华为技术有限公司 | 帧补偿方法及系统 |
| CN101325631B (zh) * | 2007-06-14 | 2010-10-20 | 华为技术有限公司 | 一种估计基音周期的方法和装置 |
| US8719012B2 (en) * | 2007-06-15 | 2014-05-06 | Orange | Methods and apparatus for coding digital audio signals using a filtered quantizing noise |
| ATE456130T1 (de) * | 2007-10-29 | 2010-02-15 | Harman Becker Automotive Sys | Partielle sprachrekonstruktion |
| CN101437009B (zh) * | 2007-11-15 | 2011-02-02 | 华为技术有限公司 | 丢包隐藏的方法及其系统 |
| KR20090122143A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
| US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
| US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
| US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
| EP2239732A1 (en) | 2009-04-09 | 2010-10-13 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for generating a synthesis audio signal and for encoding an audio signal |
| RU2452044C1 (ru) | 2009-04-02 | 2012-05-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот |
| JP5111430B2 (ja) * | 2009-04-24 | 2013-01-09 | パナソニック株式会社 | 音声符号化装置、音声復号化装置、及びこれらの方法 |
| US8670990B2 (en) * | 2009-08-03 | 2014-03-11 | Broadcom Corporation | Dynamic time scale modification for reduced bit rate audio coding |
| US9020812B2 (en) * | 2009-11-24 | 2015-04-28 | Lg Electronics Inc. | Audio signal processing method and device |
| GB0920729D0 (en) * | 2009-11-26 | 2010-01-13 | Icera Inc | Signal fading |
| US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
| US8774010B2 (en) | 2010-11-02 | 2014-07-08 | Cisco Technology, Inc. | System and method for providing proactive fault monitoring in a network environment |
| US8559341B2 (en) | 2010-11-08 | 2013-10-15 | Cisco Technology, Inc. | System and method for providing a loop free topology in a network environment |
| US8982733B2 (en) | 2011-03-04 | 2015-03-17 | Cisco Technology, Inc. | System and method for managing topology changes in a network environment |
| US8670326B1 (en) | 2011-03-31 | 2014-03-11 | Cisco Technology, Inc. | System and method for probing multiple paths in a network environment |
| US8990074B2 (en) | 2011-05-24 | 2015-03-24 | Qualcomm Incorporated | Noise-robust speech coding mode classification |
| US8724517B1 (en) | 2011-06-02 | 2014-05-13 | Cisco Technology, Inc. | System and method for managing network traffic disruption |
| US8830875B1 (en) | 2011-06-15 | 2014-09-09 | Cisco Technology, Inc. | System and method for providing a loop free topology in a network environment |
| JP5328883B2 (ja) * | 2011-12-02 | 2013-10-30 | パナソニック株式会社 | Celp型音声復号化装置およびcelp型音声復号化方法 |
| US9450846B1 (en) | 2012-10-17 | 2016-09-20 | Cisco Technology, Inc. | System and method for tracking packets in a network environment |
| EP4525312A3 (en) * | 2012-11-15 | 2025-05-14 | Ntt Docomo, Inc. | Audio coding device |
| US9842598B2 (en) * | 2013-02-21 | 2017-12-12 | Qualcomm Incorporated | Systems and methods for mitigating potential frame instability |
| WO2014202784A1 (en) * | 2013-06-21 | 2014-12-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for improved signal fade out for switched audio coding systems during error concealment |
| KR101828186B1 (ko) | 2013-06-21 | 2018-02-09 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 개선된 펄스 재동기화를 사용하여 acelp-형 은폐 내에서 적응적 코드북의 개선된 은폐를 위한 장치 및 방법 |
| PL3540731T3 (pl) | 2013-06-21 | 2024-11-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Szacowanie opóźnienia wysokości tonu |
| US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
| US9418671B2 (en) | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
| CN105830154B (zh) | 2013-12-19 | 2019-06-28 | 瑞典爱立信有限公司 | 估计音频信号中的背景噪声 |
| EP2980796A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for processing an audio signal, audio decoder, and audio encoder |
| WO2016040885A1 (en) | 2014-09-12 | 2016-03-17 | Audience, Inc. | Systems and methods for restoration of speech components |
| US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
| US10447430B2 (en) | 2016-08-01 | 2019-10-15 | Sony Interactive Entertainment LLC | Forward error correction for streaming data |
Family Cites Families (23)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS59153346A (ja) | 1983-02-21 | 1984-09-01 | Nec Corp | 音声符号化・復号化装置 |
| US4901307A (en) | 1986-10-17 | 1990-02-13 | Qualcomm, Inc. | Spread spectrum multiple access communication system using satellite or terrestrial repeaters |
| JP2707564B2 (ja) * | 1987-12-14 | 1998-01-28 | 株式会社日立製作所 | 音声符号化方式 |
| US5103459B1 (en) | 1990-06-25 | 1999-07-06 | Qualcomm Inc | System and method for generating signal waveforms in a cdma cellular telephone system |
| DE69232202T2 (de) | 1991-06-11 | 2002-07-25 | Qualcomm, Inc. | Vocoder mit veraendlicher bitrate |
| US5884253A (en) * | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
| US5784532A (en) | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
| TW271524B (es) | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
| US5550543A (en) * | 1994-10-14 | 1996-08-27 | Lucent Technologies Inc. | Frame erasure or packet loss compensation method |
| US5699478A (en) * | 1995-03-10 | 1997-12-16 | Lucent Technologies Inc. | Frame erasure compensation technique |
| JPH08254993A (ja) * | 1995-03-16 | 1996-10-01 | Toshiba Corp | 音声合成装置 |
| US5699485A (en) * | 1995-06-07 | 1997-12-16 | Lucent Technologies Inc. | Pitch delay modification during frame erasures |
| JP3068002B2 (ja) * | 1995-09-18 | 2000-07-24 | 沖電気工業株式会社 | 画像符号化装置、画像復号化装置及び画像伝送システム |
| US5724401A (en) | 1996-01-24 | 1998-03-03 | The Penn State Research Foundation | Large angle solid state position sensitive x-ray detector system |
| JP3157116B2 (ja) * | 1996-03-29 | 2001-04-16 | 三菱電機株式会社 | 音声符号化伝送システム |
| JP3134817B2 (ja) * | 1997-07-11 | 2001-02-13 | 日本電気株式会社 | 音声符号化復号装置 |
| FR2774827B1 (fr) * | 1998-02-06 | 2000-04-14 | France Telecom | Procede de decodage d'un flux binaire representatif d'un signal audio |
| US6456964B2 (en) | 1998-12-21 | 2002-09-24 | Qualcomm, Incorporated | Encoding of periodic speech using prototype waveforms |
| US6691084B2 (en) | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
| US6640209B1 (en) | 1999-02-26 | 2003-10-28 | Qualcomm Incorporated | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder |
| KR100615344B1 (ko) * | 1999-04-19 | 2006-08-25 | 에이티 앤드 티 코포레이션 | 패킷 손실 또는 프레임 삭제 은폐를 실행하는 방법 및 장치 |
| JP2001249691A (ja) * | 2000-03-06 | 2001-09-14 | Oki Electric Ind Co Ltd | 音声符号化装置及び音声復号装置 |
| CN100362568C (zh) | 2000-04-24 | 2008-01-16 | 高通股份有限公司 | 用于预测量化有声语音的方法和设备 |
-
2000
- 2000-04-24 US US09/557,283 patent/US6584438B1/en not_active Expired - Lifetime
-
2001
- 2001-04-18 KR KR1020027014221A patent/KR100805983B1/ko not_active Expired - Lifetime
- 2001-04-18 ES ES09163673T patent/ES2360176T3/es not_active Expired - Lifetime
- 2001-04-18 AT AT01930579T patent/ATE368278T1/de not_active IP Right Cessation
- 2001-04-18 EP EP07013769A patent/EP1850326A3/en not_active Ceased
- 2001-04-18 WO PCT/US2001/012665 patent/WO2001082289A2/en not_active Ceased
- 2001-04-18 DE DE60129544T patent/DE60129544T2/de not_active Expired - Lifetime
- 2001-04-18 AU AU2001257102A patent/AU2001257102A1/en not_active Abandoned
- 2001-04-18 AT AT09163673T patent/ATE502379T1/de not_active IP Right Cessation
- 2001-04-18 JP JP2001579292A patent/JP4870313B2/ja not_active Expired - Lifetime
- 2001-04-18 CN CNB018103383A patent/CN1223989C/zh not_active Expired - Lifetime
- 2001-04-18 EP EP09163673A patent/EP2099028B1/en not_active Expired - Lifetime
- 2001-04-18 EP EP01930579A patent/EP1276832B1/en not_active Expired - Lifetime
- 2001-04-18 BR BR0110252-4A patent/BR0110252A/pt not_active Application Discontinuation
- 2001-04-18 DE DE60144259T patent/DE60144259D1/de not_active Expired - Lifetime
- 2001-04-18 ES ES01930579T patent/ES2288950T3/es not_active Expired - Lifetime
- 2001-07-19 TW TW090109792A patent/TW519615B/zh not_active IP Right Cessation
Also Published As
| Publication number | Publication date |
|---|---|
| DE60144259D1 (de) | 2011-04-28 |
| KR100805983B1 (ko) | 2008-02-25 |
| WO2001082289A2 (en) | 2001-11-01 |
| EP2099028B1 (en) | 2011-03-16 |
| AU2001257102A1 (en) | 2001-11-07 |
| EP1276832A2 (en) | 2003-01-22 |
| EP1850326A2 (en) | 2007-10-31 |
| HK1055174A1 (en) | 2003-12-24 |
| DE60129544T2 (de) | 2008-04-17 |
| BR0110252A (pt) | 2004-06-29 |
| JP4870313B2 (ja) | 2012-02-08 |
| EP1850326A3 (en) | 2007-12-05 |
| EP1276832B1 (en) | 2007-07-25 |
| ATE502379T1 (de) | 2011-04-15 |
| DE60129544D1 (de) | 2007-09-06 |
| JP2004501391A (ja) | 2004-01-15 |
| ATE368278T1 (de) | 2007-08-15 |
| ES2360176T3 (es) | 2011-06-01 |
| US6584438B1 (en) | 2003-06-24 |
| TW519615B (en) | 2003-02-01 |
| WO2001082289A3 (en) | 2002-01-10 |
| CN1223989C (zh) | 2005-10-19 |
| CN1432175A (zh) | 2003-07-23 |
| EP2099028A1 (en) | 2009-09-09 |
| KR20020093940A (ko) | 2002-12-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2288950T3 (es) | Procedimiento de compensacion de borrado de tramas en un codificador de voz de velocidad de transmision variable. | |
| KR100711280B1 (ko) | 소스 제어되는 가변 비트율 광대역 음성 부호화 방법 및장치 | |
| US8532984B2 (en) | Systems, methods, and apparatus for wideband encoding and decoding of active frames | |
| KR100908219B1 (ko) | 로버스트한 음성 분류를 위한 방법 및 장치 | |
| CN101681627B (zh) | 使用音调规则化及非音调规则化译码的信号编码方法及设备 | |
| EP1279167B1 (en) | Method and apparatus for predictively quantizing voiced speech | |
| JP4166673B2 (ja) | 相互使用可能なボコーダ | |
| KR101617508B1 (ko) | 노이즈에 강인한 스피치 코딩 모드 분류 | |
| EP1214705B1 (en) | Method and apparatus for maintaining a target bit rate in a speech coder | |
| ES2269112T3 (es) | Codificador de voz multimodal en bucle cerrado de dominio mixto. | |
| ES2257307T3 (es) | Metodo y sistema para codificacion de voz en condiciones de borrado de trama. | |
| JPH09503874A (ja) | 減少レート、可変レートの音声分析合成を実行する方法及び装置 | |
| ES2264420T3 (es) | Metodo y aparato para entrelazar metodos de discretizacion de informacion espectral en un codificador de voz. | |
| ES2253226T3 (es) | Codigo interpolativo multipulso de tramas de voz. | |
| ES2297578T3 (es) | Procedimiento y aparato para submuestrear informacion del espectro de fase. | |
| ES2276690T3 (es) | Particion de espectro de frecuencia de una forma de onda prototipo. | |
| HK1114684A (en) | Frame erasure compensation method in a variable rate speech coder | |
| HK1055174B (en) | Frame erasure compensation method in a variable rate speech coder and apparautus using the same |