ES2288950T3 - Procedimiento de compensacion de borrado de tramas en un codificador de voz de velocidad de transmision variable. - Google Patents

Procedimiento de compensacion de borrado de tramas en un codificador de voz de velocidad de transmision variable. Download PDF

Info

Publication number
ES2288950T3
ES2288950T3 ES01930579T ES01930579T ES2288950T3 ES 2288950 T3 ES2288950 T3 ES 2288950T3 ES 01930579 T ES01930579 T ES 01930579T ES 01930579 T ES01930579 T ES 01930579T ES 2288950 T3 ES2288950 T3 ES 2288950T3
Authority
ES
Spain
Prior art keywords
frame
value
voice
current
plot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES01930579T
Other languages
English (en)
Inventor
Sharath Manjunath
Penjung Huang
Eddie-Lun Tik Choy
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of ES2288950T3 publication Critical patent/ES2288950T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/097Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Analogue/Digital Conversion (AREA)
  • Stereophonic System (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

Un procedimiento para compensar un borrado de trama en un codifcador de voz, que comprende: descuantificar un valor de retardo de paso y un primer valor delta para una trama actual procesada después de que se ha declarado una trama borrada, siendo el primer valor delta igual a la diferencia entre el valor de retardo de paso para la trama actual y un valor de retardo de paso para la trama inmediatamente precedente a la trama actual; recibir un segundo valor delta cuantificado para al menos una trama anterior a la trama actual y después del borrado de trama sin recibir un valor de retardo de paso cuantificado para la al menos una trama; descuantificar el segundo valor delta para la al menos una trama antes de la trama actual y después del borrado de la trama, en el que el segundo valor de trama es igual a la diferencia entre un valor de retardo de paso para la al menos una trama y un valor de retardo de paso para una trama inmediatamente precedente a la al menos una trama; substraer el primervalor delta del valor de retardo de paso para la tarma actual para generar un valor de retardo de paso para la al menos una trama anterior a la trama actual; y substraer el segundo valor delta del valor de retardo de paso generado para la al menos una trama anterior a la trama actual para generar un valor de retardo de paso para la trama borrada.

Description

Procedimiento de compensación de borrado de tramas en un codificador de voz de velocidad de transmisión variable.
Antecedentes de la invención I. Campo de la invención
La presente invención pertenece, en términos generales, al campo del procesamiento de voz, y más concretamente al campo de los procedimientos y aparatos para compensar los borrados de tramas de codificadores de voz de velocidad variable.
II. Antecedentes
Se ha extendido la transmisión de voz mediante técnicas digitales, particularmente en aplicaciones radiotelefónicas de larga distancia y digitales. Esto, a su vez, ha suscitado un interés en determinar la menor cantidad de información que puede ser enviada a través de un canal manteniendo sin embargo la calidad percibida de la voz reconstruída. Si la voz es transmitida mediante el simple muestreo y digitalización, se requiere una velocidad de datos del orden de sesenta y cuatro kilobits por segundo (kbps) para conseguir una velocidad de voz de un teléfono analógico convencional. Sin embargo, mediante el empleo del análisis de voz, seguido por la codificación, transmisión y resíntesis apropiadas en el receptor, puede conseguirse una reducción significativa de la velocidad de datos.
Dispositivos para comprimir la voz encuentran empleo en muchos campos de las telecomunicaciones. Un campo ejemplar es el de las comunicaciones inalámbricas. El campo de las comunicaciones inalámbricas tiene muchas aplicaciones, incluyendo, por ejemplo, teléfonos inalámbricos, paginación, bucles locales inalámbricos, telefonía inalámbrica, como por ejemplo sistemas telefónicos celulares y PCS, telefonía móvil de Protocolo Internet (IP), y sistemas de comunicaciones vía satélite. Una aplicación particularmente importante es la telefonía inalámbrica para abonados al servicio móvil.
Se ha desarrollado distintas interfaces a través de las ondas destinadas a sistemas de comunicaciones inalámbricas incluyendo, por ejemplo, el acceso múltiple por división de frecuencias (FDMA), el acceso múltiple por división de tiempo (TDMA), y el acceso múltiple por división de código (CDMA). En conexión con estos sistemas, se han establecido diversos estándares nacionales e internacionales, incluyendo por ejemplo, el Servicio Avanzado de Telefonía Móvil (AMPS), el Sistema Global de Comunicaciones Móviles (GSM), y el Estándar Provisional 95 (IS-95). Un sistema ejemplar de comunicaciones telefónicas inalámbricas es un sistema de acceso múltiple por división de código (CDMA). El estándar IS-95 y sus derivados, IS-95A, ANSI J-STD-008, IS-95B, propusieron los estándares de tercera generación IS-95C e IS-2000, etc. (designados colectivamente en la presente memoria como IS-95), son promulgados por la Asociación del Sector de las Telecomunicaciones (TIA) y otros organismos para el desarrollo de estándares bien conocidos para especificar el uso de una interfaz a través de las ondas de un sistema CDMA para sistemas de comunicación de teléfonos celulares o PCS, Sistemas de comunicación inalámbrica ejemplares, configurados de acuerdo con el uso del estándar IS-95 se describen en las patentes estadounidenses Nos. 5,103,459 y
4,901,307.
Los dispositivos que emplean técnicas para comprimir la voz extrayendo parámetros que se refieren a un modelo de generación de voz humana se denominan codificadores de voz. Un codificador de voz divide la señal de voz entrante en bloques de tiempo, o tramas de análisis. Los codificadores de voz típicamente incluyen un codificador y un descodificador. El codificador analiza la trama de voz entrante para extraer determinados parámetros relevantes, y a continuación cuantifica los parámetros en una representación binaria, esto es, en un conjunto de bits o un paquete de datos binarios. Los paquetes de datos son transmitidos a través del canal de comunicación hasta un receptor y un descodificador. El descodificador procesa los paquetes de datos, y los descuantifica para producir los parámetros y resintetiza las tramas de voz utilizando los parámetros descuantificados.
La función del codificador de voz es comprimir la señal de voz digitalizada en una señal de velocidad baja de tráfico binario eliminando todas las redundancias naturales inherentes al habla. La compresión digital se consigue representando la trama de voz de entrada con un conjunto de parámetros y empleando la cuantificación para representar los parámetros con un conjunto de bits. Si la trama de voz de entrada tiene un número de bits N_{i} y el paquete de datos producido por el codificador de voz tiene un número de bits N_{o}, el factor de compresión conseguido mediante el codificador de voz es C_{r} = N_{i} / N_{o}. La dificultad consiste en mantener una elevada calidad de voz de la voz descodificada consiguiendo al tiempo el factor de compresión perseguido. La eficacia de un codificador de voz depende de 1) hasta qué punto es bueno el comportamiento del modelo de voz, o la combinación del proceso de análisis y síntesis anteriormente descrito, y 2) hasta qué punto es bueno el comportamiento del proceso de cuantificación de los parámetros en la velocidad de bits perseguida de N_{o} bits por trama. El objetivo del modelo de voz es así capturar la esencia de una señal de voz, o la calidad de voz perseguida, con un conjunto pequeño de parámetros para cada trama.
Quizás lo más importante en el diseño de un descodificador de voz es la búsqueda de un buen conjunto de parámetros (incluyendo vectores) para describir la señal de voz. Un buen conjunto de parámetros requiere un ancho de banda de sistema bajo para la reconstrucción de una señal de voz de percepción nítida. El paso, la potencia de la señal, el envolvente espectral (o formantes), los espectros de amplitud, y los espectros de fase son ejemplos de parámetros de codificación de voz.
Los codificadores de voz pueden implementarse como codificadores del dominio del tiempo, los cuales intentan capturar la forma de onda de voz de dominio del tiempo empleando un procesamiento de resolución de tiempo alto para codificar pequeños segmentos de voz (típicamente cinco subtramas por milisegundo (ms)) de una vez. Para cada subtrama se encuentra un representante de alta precisión obtenido de un espacio de código de cifrado y descifrado por medio de distintos algoritmos de búsqueda conocidos en la técnica. Alternativamente, los codificadores de voz pueden ser implementados como codificadores de dominio de la frecuencia, los cuales intentan capturar el espectro de voz a corto plazo de la trama de voz de entrada con un conjunto de parámetros (análisis) y emplean un proceso de síntesis correspondiente para recrear la onda de forma de voz a partir de los parámetros espectrales. El cuantificador de parámetros guarda los parámetros representándolos con representaciones almacenadas de vectores de código de acuerdo con técnicas de cuantificación conocidas descritas en la obra de A. Gersho & R.M.Gray, Cuantificación de Vectores y Compresión de Señales Vector ["Vector Quantization and Signal Compression"] (1992).
Un codificador de voz de dominio del tiempo bien conocido es el codificador Code Excited Linear Predictive (CELP) descrito en la obra de L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396-453 (1978). En un codificador CELP, las correlaciones a corto plazo, o redundancias en la señal de voz son eliminadas mediante un análisis de predicción lineal (LP), que encuentra los coeficientes de un filtro formante a corto plazo. La aplicación del filtro de predicción a corto plazo a la trama de voz entrante genera una señal residual de LP, que es ulteriormente modelada y cuantificada con unos parámetros de filtro de predicción a largo plazo y un posterior código de cifrado y descifrado estocástico. Así, la codificación CELP divide la tarea de codificación de la onda de forma de voz de dominio de tiempo en las tareas separadas de codificación de los coeficientes de filtro a corto plazo de la LP y de codificación del residuo de la LP. La codificación de dominio del tiempo puede llevarse a cabo a una velocidad fija (esto es, utilizando el mismo número de bits, N_{o}, para cada trama) o a una velocidad variable (en la cual se utilizan velocidades de bits diferentes para diferentes tipos de contenidos de tramas). Los codificadores de velocidad variable intentan utilizar únicamente la cantidad de bits necesarios para codificar los parámetros del códec hasta un nivel adecuado para obtener la calidad perseguida. Un codificador ejemplar CELP de velocidad variable se describe en la Patente estadounidense No. 5,414,796.
Los codificadores de dominio del tiempo tales como el codificador CELP típicamente se basan en un número alto de bits, N_{o}, por trama para mantener la precisión de la onda de forma de voz del dominio del tiempo. Dichos codificadores típicamente proporcionan una calidad de voz excelente al contar con un número de bits, N_{o}, por trama relativamente grande (por ejemplo, 8 kbps o más). Sin embargo, a velocidades de bits bajas (4 kbps e inferiores), los codificadores de dominio del tiempo no consiguen mantener un rendimiento sólido y de alta calidad debido al número limitado de bits disponibles. A velocidades de bits bajas, el espacio de código de cifrado y descifrado limitado recorta la capacidad de encaje de la forma de onda de los codificadores de dominio del tiempo convencionales, los cuales se despliegan de modo satisfactorio en aplicaciones comerciales de velocidades más altas. Por tanto, a pesar de las mejoras obtenidas en relación con el tiempo, muchos sistemas de codificación CELP que operan a velocidades de bits bajas se resienten de una distorsión de la percepción significativa típicamente caracterizada como ruido.
En la actualidad existe un repentino aumento de interés investigador y una fuerte demanda comercial para elaborar un codificador de voz de alta calidad que opere a velocidades de bits medias y bajas (esto es, del orden de 2,4 a 4 kbps e inferiores). Las áreas de aplicación incluyen la telefonía inalámbrica, las comunicaciones vía satélite, la telefonía de Internet, diversas aplicaciones multimedia y de transmisión de flujos de voz, correo de voz, y otros sistemas de almacenamiento de voz. Las fuerzas impulsoras son la necesidad de una alta capacidad y la demanda de un rendimiento sólido bajo situaciones de pérdida de paquetes. Los distintos esfuerzos recientes de estandarización de la codificación de voz es otra fuerza impulsora directa que propulsa la investigación y desarrollo de algoritmos de codificación de voz de baja velocidad. El codificador de voz de baja velocidad crea más canales, o usuarios, por anchura de banda de aplicación permisible, y un codificador de voz de baja velocidad acoplado con una capa adicional de codificación de canales apropiada puede encajar con el presupuesto global de bits de las especificaciones del codificador y para proporcionar un rendimiento sólido bajo condiciones de error de canal.
Una técnica eficaz para codificar la voz eficientemente a velocidades de bits bajas es la codificación multimodo. Una técnica de codificación multimodo ejemplar se describe en la Patente estadounidense No. 6,691,084 titulada "Codificacion de voz de velocidad variable" [VARIABLE RATE SPEECH CODING], solicitada el 21 de Diciembre de 1988. Los codificadores multimodo convencionales aplican modos diferentes, o algoritmos de codificación - descodificación, a tipos diferentes de tramas de voz de entrada. Cada modo, o proceso de codificación - descodificación, es personalizado para representar de forma óptima un cierto tipo de segmento de voz, como por ejemplo, voz vocalizada, voz no vocalizada, voz de transición (esto es, entre vocalizada y no vocalizada), ruido de fondo (silencio o sin voz) de la manera más eficiente. Un mecanismo de decisión de modo de bucle abierto determina la trama de voz de entrada y adopta una decisión con respecto a qué modo se aplica a la trama. La decisión de modo de bucle abierto se lleva a cabo típicamente extrayendo diversos parámetros de la trama de entrada, evaluando los parámetros para verificar las características temporales y espectrales, y basar una decisión de modo sobre la evaluación.
Los sistemas de codificación que operan a velocidades del orden de 2,4 kbps son en general de naturaleza paramétrica. Esto es, dichos sistemas de codificación operan mediante la transmisión de parámetros que describen el periodo de paso y la envoltura espectral (o formantes) de la señal de voz a intervalos regulares. Ilustrativo de estos llamados codificadores paramétricos es el sistema vocoder de LP.
Los vocódificadores de LP modelan una señal de voz vocalizada con un único impulso por periodo de paso. Esta técnica básica puede aumentarse para incluir información de transmisión acerca de la envoltura espectral, entre otras cosas. Aunque los vocódificadores de LP proporcionan un rendimiento razonable en términos generales, pueden introducir una distorsión auditiva considerable auditivamente, típicamente caracterizada como zumbido.
En los últimos años, han surgido unos codificadores que son unos híbridos de los codificadores en forma de onda y de los codificadores paramétricos. Ilustrativo de estos llamados codificadores híbridos es el sistema de codificación de voz de interpolación de onda de forma prototipo (PWI). El sistema de codificación PWI puede también conocerse como codificador de voz de periodo de paso prototipo (PPP). Un sistema de codificación PWI suministra un procedimiento eficaz para codificar voz vocalizada. El concepto básico de la PWI es extraer un ciclo de paso representativo (la forma de onda prototipo) a intervalos fijos, para transmitir su descripción y para reconstruir la señal de voz mediante la interpolación entre formas de ondas prototipo. El procedimiento PWI puede operar ya sea sobre la señal residual de LP o sobre la señal de voz. Un codificador de voz ejemplar PWI, o PPP, se describe en la Patente estadounidense No. 6,456,964, titulada "Codificación de voz periódica" ["PERIODIC SPEECH CODING"], solicitada el 21 de Diciembre de 1998. Otros codificadores de voz distintos del PWI, o del PPP, se describen en la Patente estadounidense No. 5,884,253 y en la obra de W. Bastiaan Kleijn & Wolfgang Granzow Procedimientos para la Interpretación de Formas de Onda en la Codificación de Voz en 1 Procedimiento de Señal Digital ["Methods for Waveform Interpolation in Speech Coding, in 1 Digital Signal Processing"] 215-230 (1991).
En la mayoría de los codificadores de voz convencionales, los parámetros de un prototipo de paso determinado, o de una trama determinada, son individualmente cuantificados y transmitidos por el codificador. Así mismo, un valor de diferencia es transmitido para cada parámetro. El valor de diferencia especifica la diferencia entre el valor del parámetro para la trama o prototipo actual, y el valor del parámetro para la trama o prototipo anteriores. El documento EP 0,731,448 (AT & AT Corp.) divulga un sistema de codificación de voz en el cual diversos valores de parámetros de voz son transmitidos así como un delta de parámetros de voz en el que el delta de parámetros de voz representa un cambio en el retardo de paso de una trama presente respecto de una trama inmediatamente precedente. Sin embargo, la cuantificación de los valores de los parámetros y de los valores de diferencia requiere el uso de bits (y por tanto del ancho de banda). En un codificador de voz de velocidad de bits baja, es ventajoso transmitir el menor número de bits posible para mantener una calidad de voz satisfactoria. Por esta razón, en codificadores de voz de velocidad de bit baja convencionales, únicamente los errores de parámetro absolutos son cuantificados y transmitidos. Sería deseable reducir el número de bits transmitidos sin reducir el valor de información. De acuerdo con ello, una estrategia de cuantificación que cuantifica la diferencia entre una suma ponderada de los valores de parámetro para las tramas previas y el valor de parámetro para la trama actual se describe en el documento EP 1279167 B1, titulado "Procedimiento y aparato para cuantificar de manera predictiva la voz vocalizada" ["METHOD AND APPARATUS FOR PREDICTIVELY QUANTIZING VOICED SPEECH"], cedido al cesionario de la presente invención.
Los codificadores de voz experimentan un borrado de tramas, o una pérdida de paquetes, debido a las deficientes condiciones del canal. Una solución utilizada en codificadores de voz convencionales fue hacer que el descodificador simplemente repitiera la trama previa en el caso de que fuera recibido un borrado de trama. Una mejora se ha encontrado en el empleo de un código de cifrado y descifrado adaptador, el cual ajusta dinámicamente la trama que sigue inmediatamente a un borrado de trama. Un refinamiento adicional, el codificador de velocidad variable potenciado (EVRC), se estandariza en el EIA/TIA IS-127 del Estándar Provisional de la Asociación de la Industria de las Telecomunicaciones. El codificador EVRC se basa en una trama codificada de baja predictividad, correctamente recibida para alterar en la memoria del codificador la trama que no fue recibida, y de esta forma mejorar la calidad de la trama correctamente recibida.
Un problema del codificador EVRC, sin embargo, es que pueden surgir discontinuidades entre el borrado de la trama y una buena trama ajustada subsiguiente. Por ejemplo, los impulsos de separación pueden estar situados demasiados próximos o demasiado separados, en comparación con sus emplazamientos relativos en el caso de que no se hubiera producido ningún borrado de trama. Dichas discontinuidades pueden provocar un clic audible.
En general, los codificadores de voz que conllevan una predictividad baja (como los descritos en el párrafo anterior) actúan mejor bajo condiciones de borrado de tramas. Sin embargo, de acuerdo con lo expuesto, dichos codificadores de voz requieren velocidades de bits relativamente altas. A la inversa, un codificador de voz altamente predictivo puede conseguir una buena calidad de salida de voz sintetizada (particularmente para voz de alta periodicidad, como por ejemplo la voz vocalizada), pero actúa peor bajo condiciones de borrado de tramas. Sería deseable combinar las calidades de ambos tipos de codificador de voz. Sería así mismo ventajoso contar con un procedimiento de suavizado de las discontinuidades entre los borrados de tramas y las buenas tramas subsecuentes alteradas. Así, se necesita un procedimiento de compensación del borrado de tramas que mejore el rendimiento de los codificadores predictivos en el caso de borrados de tramas y que suavice las discontinuidades entre los borrados de trama y las buenas tramas subsiguientes.
\newpage
Sumario de la invención
La presente invención está destinada a un procedimiento de compensación de borrado de tramas que mejore el rendimiento de los codificadores predictivos en el caso de borrado de tramas y que suavice las discontinuidades entre los borrados de tramas y las buenas tramas subsiguientes. De acuerdo con ello, en un aspecto de la invención, se proporciona un procedimiento de compensación de un borrado de tramas de un codificador de voz. El procedimiento incluye ventajosamente descodificar un valor de retardo de paso y un primer valor delta para una trama actual procesada después de que se ha declarado una trama borrada, siendo el primer valor delta igual a la diferencia entre el valor de retardo de paso para la trama actual y un valor de retardo de paso para una trama inmediatamente anterior a la trama actual; recibir un segundo valor delta cuantificado para al menos una trama anterior a la trama actual y después del borrado de trama sin recibir un valor de retardo de paso cuantificado para la al menos una trama; descuantificar el segundo valor delta para al menos una trama anterior a la trama actual y después del borrado de trama, en el que el segundo valor delta es igual a la diferencia entre un valor de retardo de paso para la al menos una trama y un valor de retardo de paso para una trama inmediatamente anterior a la al menos una trama; restar el primer valor de trama del valor de retardo de paso para la trama actual para generar un valor de retardo de paso para la al menos una trama anterior a la trama actual; y restar el segundo valor delta del valor de retardo de paso generado para la al menos una trama anterior a la trama actual para generar un valor de retraso de separación para la trama borrada.
En otro aspecto de la invención, se proporciona un codificador de voz configurado para compensar un borrado de trama. El codificador de voz ventajosamente incluye un primer medio para descuantificar un valor de retardo de paso y un primer valor delta para una trama actual procesada después de que se ha declarado una primera trama borrada, siendo el primer valor delta igual a la diferencia entre el valor de retardo de paso para la trama actual y un valor de retardo de paso para una trama inmediatamente anterior a la trama actual; unos medios para recibir un segundo valor delta cuantificado para al menos una trama anterior a la trama actual y después del borrado de la trama sin recibir un valor de retardo de paso cuantificado para la al menos una trama; unos medios para descuantificar el segundo valor delta para la al menos una trama anterior a la trama actual y después del borrado de trama, en el que el valor delta es igual a la diferencia entre un valor de retardo de paso para la al menos una trama y un valor de retardo de paso para una trama inmediatamente anterior a la al menos una trama; unos medios para restar el primer valor delta del valor de retardo de paso para la trama actual para generar un valor de retardo de paso para la al menos una trama anterior a la trama actual; y unos medios para restar el segundo valor delta del valor de retardo de paso generado para la al menos una trama anterior a la trama actual para generar un valor de retardo de paso para la trama borrada.
En una forma de realización preferente de la invención, se proporciona una unidad de abonado que incorpora las características del codificador de voz anteriormente descritas. En esta forma de realización, el primer medio para descuantificar el valor de retardo de paso y el primer valor delta para la trama actual procesada después de que se ha declarado una trama borrada es un primer codificador de voz; el segundo medio para descuantificar el segundo valor delta para la al menos una trama anterior a la trama actual y después del borrado de la trama es un segundo codificador de voz; y el medio para restar es un procesador de control acoplado a los primero y segundo codificadores de voz.
En otro aspecto de la invención, se proporciona un elemento de infraestructura configurado para compensar un borrado de trama. El elemento de infraestructura incluye ventajosamente un procesador; y un medio de almacenamiento acoplado al procesador y que contiene una serie de instrucciones ejecutables por el procesador para llevar a cabo el procedimiento anteriormente expuesto.
Breve descripción de los dibujos
La Fig. 1 es un diagrama de bloques de un sistema telefónico inalámbrico.
La Fig. 2 es un diagrama de bloques de un canal de comunicación terminado en cada extremo por codificadores de voz.
La Fig. 3 es un diagrama de bloques de un codificador de voz.
La Fig. 4 es un diagrama de bloques de un descodificador de voz.
La Fig. 5 es un diagrama de bloques de un codificador de voz que incluye porciones de un codificador / transmisor y de un descodificador / receptor.
La Fig. 6 es un gráfico de amplitud de la señal con respecto al tiempo para un segmento de voz vocalizada.
La Fig. 7 ilustra un primer esquema de procesamiento de borrado de trama que puede utilizarse en la porción de descodificador / receptor del codificador de voz de la Fig. 5.
La Fig. 8 ilustra un segundo esquema de procesamiento de borrado de trama adaptado a un codificador de voz de velocidad variable, el cual puede utilizarse en la porción de descodificador / receptor del codificador de voz de la Fig. 5.
\newpage
La Fig. 9 traza la amplitud de la señal con respecto al tiempo para las diversas formas de onda residuales de predicción lineal (LP) para ilustrar un esquema de procesamiento de borrado de tramas que puede utilizarse para suavizar una transición entre una trama corrompida y una buena trama.
La Fig. 10 traza una amplitud de señal con respecto al tiempo para diversas formas de ondas residuales de LP para ilustrar los beneficios del esquema de procesamiento del borrado de tramas representado en la Fig. 9.
La Fig. 11 traza una amplitud de señal con respecto al tiempo para diversas formas de onda para ilustrar una técnica de codificación de prototipo de periodo de paso o de interpolación de forma de onda.
La Fig. 12 es un diagrama de bloques de un procesador acoplado en un medio de almacenamiento.
Descripción detallada de las formas de realización preferentes
Las formas de realización ejemplares descritas a continuación en la presente memoria consisten en un sistema de comunicación telefónica inalámbrica configurado para emplear una interfaz a través del aire de un sistema CDMA. No obstante, los expertos en la materia deberían entender que un procedimiento y un aparato para la codificación predictiva de voz vocalizada que incorpore las características de la presente invención pueden consistir en cualquiera de los diversos sistemas de comunicación que empleen una amplia gama de técnicas conocidas por los expertos en la materia.
Como se ilustra en la Fig. 1, un sistema telefónico inalámbrico CDMA genéricamente incluye una pluralidad de unidades 10 de abonado al servicio móvil, una pluralidad de estaciones base 12, unos controladores de las estaciones base (BSCs) 14, y un centro de conmutación móvil (MSC) 16. El MSC 16 está configurado para interfacear con una red telefónica conmutada (PSTN) 18 convencional. El MSC 16 está también configurado para interfacear con los BSCs 14. Los BSCs 14 están acoplados a las estaciones base 12 por medio de unas lineas de retorno. Las líneas de retorno pueden estar configuradas para soportar cualquier interfaz conocida incluyendo, por ejemplo, E1/T1, ATM, IP, PPP, Frame Relay, HDSL, ADSL, o xDSL. Se entiende que puede haber más de dos BSCs 14 en el sistema. Cada estación base 12 incluye ventajosamente al menos un sector (no mostrado), comprendiendo cada sector una antena omnidireccional o una antena dirigida en una dirección particular radialmente a distancia de la estación base 12. Alternativamente, cada sector puede comprender dos antenas para recepción de diversidad. Cada estación base 12 puede ventajosamente ser diseñada para soportar una pluralidad de asignaciones de frecuencia. La intersección de un sector y de una asignación de frecuencia puede designarse como canal CDMA. Las estaciones base 12 pueden también ser conocidas como subsistemas transceptores de estación base (BTSs) 12. Alternativamente, "la estación base" puede utilizarse en la industria para referirse colectivamente a un BSC 14 y a uno o más BTSs 12. Los BTSs 12 pueden también ser designados como "emplazamientos de celdas" 12. Alternativamente, los sectores individuales de un determinado BTS 12 pueden ser designados como emplazamientos de celdas. Las unidades de abonado 10 al servicio móvil son típicamente teléfonos celulares o PCS 10. El sistema está ventajosamente configurado para su uso de acuerdo con el estándar IS-95.
Durante una operación típica del sistema telefónico celular, las estaciones base 12 reciben una serie de señales de enlace inverso de una serie de unidades móviles 10. Las unidades móviles 10 están dirigiendo llamadas telefónicas u otras comunicaciones. Cada señal de enlace inverso recibida por una estación base determinada 12 es procesada dentro de esa estación base 12. Los datos resultantes son transmitidos a los BSCs 14. Los BSCs 14 proporcionan una asignación de recursos de llamadas y una funcionalidad de gestión de la movilidad que incluyen la orquestación de cesiones de llamadas progresivas entre las estaciones base 12. Los BSCs 14 también encamina los datos recibidos hacia el MSC 16, el cual proporciona servicios de encaminamiento adicionales para interfacear con la PSTN 18. De modo similar, la PSTN 18 interfacea con el MSC 16, y el MSC 16 interface con el BSCs 14, el cual, a su vez, controla las estaciones base 12 para transmitir conjuntos de señales de enlace hacia delante hasta los conjuntos de unidades móviles 10. Los expertos en la materia comprenderán que las unidades de abonado 10 pueden ser unidades fijas en formas de realización alternativas.
En la Fig. 2 un primer codificador 100 recibe unas muestras de voz digitalizadas s(n) y codifica las muestras s(n) para su transmisión sobre un medio de transmisión 102, o un canal de comunicación 102 hasta un primer descodificador 104. El descodificador 104 descodifica unas muestras de voz codificadas y sintetiza una señal de voz de salida s_{SYNTH}(n). Para la transmisión en la dirección opuesta, un segundo codificador 106 codifica unas muestras de voz digitalizadas s(n), las cuales son trasmitidas sobre un canal de comunicación 108. Un segundo descodificador 110 recibe y descodifica las muestras de voz codificadas, generando una señal de voz de salida sintetizada s_{SYNTH}(n).
Las muestras de voz s(n) representan señales de voz que han sido digitalizadas y cuantificadas de acuerdo con cualquiera de los diversos procedimientos conocidos en la técnica, incluyendo, por ejemplo, modulación por impulsos codificados (PCM), ley \mu comprimida expandida, o ley A. Como es conocido en la técnica, las muestras de voz s(n) están organizadas en tramas de datos de entrada en las que cada trama comprende un número predeterminado de muestras de voz digitalizadas s(n). En una forma de realización ejemplar, se emplea una velocidad de muestreo de 8 kHz, con cada trama de 20 ms comprendiendo 160 muestras. En las formas de realización descritas a continuación, la velocidad de transmisión de datos puede ser ventajosamente modificada sobre una base de trama a trama de una velocidad plena hasta (la mitad de la velocidad, un cuarto de la velocidad o un octavo de la velocidad). La variación de la velocidad de transmisión de los datos es ventajosa porque velocidades de bits más bajas pueden ser selectivamente empleadas para tramas que contengan una información de voz relativamente menor. Como comprenderán los expertos en la materia, pueden utilizarse otras velocidades de muestreo y / o de tamaños de trama. Así mismo, en las formas de realización descritas más adelante, el modo de codificación de la trama de voz puede variar sobre una base de trama a trama en respuesta a la información de voz o a la energía de la trama.
El primer codificador 100 y el segundo descodificador 110 comprenden conjuntamente un primer codificador de voz (codificador / descodificador), o códec de voz. El codificador de voz podría utilizarse en cualquier dispositivo de comunicación para transmitir señales de voz, incluyendo, por ejemplo, las unidades de abonado, los BTSs, o BSCs anteriormente descritos con referencia a la Fig. 1. De modo similar, el segundo codificador 106 y el primer descodificador 104 componen conjuntamente un segundo codificador de voz. Los expertos en la materia comprenderán que los codificadores de voz pueden implementarse con un procesador de señal digital (DSP), un circuito integrado de aplicación específica (ASIC), una lógica de circuito de puerta discreto, un soporte lógico inalterable, o cualquier módulo de software programable convencional y un microprocesador. El módulo de software podría alojarse en una memoria RAM, memoria flash, registros, o cualquier otra forma de medio de almacenamiento conocido en la técnica. Alternativamente, cualquier procesador convencional, controlador, o máquina de estados podría sustituir al microprocesador. Unos ASICs ejemplares diseñados específicamente para la codificación de voz se describen en la Patente estadounidense No. 5,727,123 y en la Patente estadounidense No. 5,784,532 titulada VOCODER ASIC, solicitada el 16 de Febrero de 1994.
En la Fig. 3 un codificador 200 puede utilizarse en un codificador de voz que incluya un módulo 202 de decisión de modo , un módulo 204 de estimación de separación, un módulo 206 de análisis de la LP, un filtro 208 de análisis de la LP, un módulo 210 de cuantificación de la LP, y un módulo 212 de cuantificación de residuos. Unas tramas s(n) de voz de entrada se proporcionan al módulo 202 de decisión de modo, al módulo 204 de estimación de separación, al módulo 206 de análisis de la LP, y al filtro 208 de análisis de la LP. El módulo 202 de decisión de modo produce un índice de modo I_{M} y un modo M en base a la periodicidad, energía, relación de señal a ruido (SNR), o una velocidad al paso porcero, entre otras características, de cada trama de voz de entrada s(n). Diversos procedimientos para clasificar tramas de voz de acuerdo con la periodicidad se describen en la Patente estadounidense No. 5,911,128, la cual está cedida al cesionario de la presente invención y completamente incorporada en la presente memoria por referencia. Dichos procedimientos se incorporan también en los TIA / EIA IS-1127 y TIA / EIA IS-733 de los Estándares Provisionales de la Asociación de la Industria de las Telecomunicaciones. Un esquema de decisión de modo ejemplar también se describe en la Patente estadounidense anteriormente mencionada No. 6,691,084.
El módulo 204 de estimación de separación produce un índice I_{P} de paso y un valor P_{O} de retardo en base a cada trama s(n) de voz de entrada. El módulo 206 de análisis de la LP ejecuta un análisis predictivo lineal sobre cada trama s(n) de voz de entrada para generar un parámetro a de la LP. El parámetro a de la LP es suministrado al módulo 210 de cuantificación de la LP. El módulo 210 de cuantificación de la LP recibe también el modo M, ejecutando de esta forma el proceso de cuantificación de manera dependiente del modo. El módulo 210 de cuantificación de la LP produce un índice I_{LP} de la LP y un parámetro \hat{a} de la LP cuantificado. El filtro 208 de análisis de LP recibe el parámetro \hat{a} de parámetro de la LP además de la trama s(n) de voz de entrada. El filtro 208 de análisis de la LP genera una señal R[n]
de residuo de la LP, que representa el error entre las tramas s(n) de voz de entrada y la voz reconstruida en base a los parámetros \hat{a} previstos lineales cuantificados. El residuo R[n] de la LP, el modo M, y el parámetro \hat{a} de la LP cuantificado son suministrados al módulo 212 de cuantificación de residuo. En base a estos valores, el módulo 212 de cuantificación de residuo produce un índice I_{R} de residuo y una señal \check{R}[n] de señal de residuo cuantificada.
En la Fig. 4 un descodificador 300 que puede ser utilizado en un codificador de voz incluye un módulo 302 de descodificación de parámetro de la LP, un módulo 304 de descodificación de residuo, un módulo 306 de descodificación de modo y un filtro 308 de síntesis de la LP. El módulo 306 de descodificación de modo recibe y descodifica un índice I_{M} de índice de modo, generando a partir de éste un modo M. El módulo 302 de descodificación de parámetro de la LP recibe el modo M y un índice I_{LP} de la LP. El módulo 302 de descodificación de parámetro de la LP descodifica los valores recibidos para producir un parámetro \hat{a} de la LP cuantificado. El módulo 304 de descodificación de residuo recibe un índice I_{R} de residuo, un índice I_{P} de separación, y un índice I_{M} de modo. El módulo 304 de descodificación de residuo descodifica los valores recibidos para generar una señal \check{R}[n] de residuo cuantificado. La señal \check{R}[n] de señal de residuo cuantificado y el parámetro \hat{a} de la LP cuantificada se suministran al filtro 308 de síntesis de la LP, el cual sintetiza una señal \hat{s}[n] de voz de salida descodificada a partir de aquél.
El funcionamiento y la implementación de diversos módulos del codificador 200 de la Fig. 3 y del descodificador 300 de la Fig. 4 son conocidos en la técnica y descritos en la Patente estadounidense anteriormente mencionada No. 5,414,796 y en la obra de L.B. Rabiner & R.W. Schafer, Procesamiento Digital de Señales de Voz ["Digital Processing of Speech Signals"] 396-453 (1978).
En una forma de realización un codificador de voz multimodo 400 comunica con un descodificador de voz multimodo 402 a través de un canal de comunicación, o de un medio de transmisión, 404. El canal de comunicación 404 es ventajosamente una interfaz de RF configurada de acuerdo con el estándar IS-95. Debería entenderse por parte de los expertos en la materia que el codificador 400 tiene un descodificador asociado (no mostrado). El codificador 400 y su descodificador asociado forman conjuntamente un primer codificador de voz. Debería entenderse también por parte de los expertos en la materia que el descodificador 402 tiene un codificador asociado (no mostrado). El descodificador 402 y su codificador asociado forman conjuntamente un segundo codificador de voz. Los primero y segundo codificadores de voz pueden ventajosamente ser implementados como parte de unos primero y segundo DSPs, y pueden estar instalados en, por ejemplo, una unidad de abonado y una estación base de un PCS o de un sistema telefónico celular, o en una unidad de abonado y una pasarela de un sistema por satélite.
El codificador 400 incluye un calculador 406 de parámetros, un módulo 408 de clasificación de modos, una pluralidad de modos de codificación 410, y un módulo 412 de formateo de paquetes. El número de modos de codificación 410 se muestra como n, que la persona experta en la materia comprendería podría significar cualquier número razonable de modos de codificación 410. Por razones de simplicidad, únicamente se muestran tres modos de codificación 410, con una línea de puntos que indica la existencia de otros modos de codificación 410. El descodificador 402 incluye un desmontador de paquetes y un módulo 414 detector de una pérdida de paquetes, una pluralidad de modos de descodificación 416, un descodificador de borrado 418, y un postfiltro, o sintetizador de voz, 420. El número de modos de descodificación 416 se muestra como n, que la persona experta en la materia entendería podría significar cualquier número razonable de modos de descodificación 416. Por razones de simplicidad, únicamente se muestran tres modos de descodificación 416, con una línea de puntos que indica la existencia de otros modos de descodificación 416.
Una señal de voz, s(n), se suministra al calculador 406 de parámetros. La señal de voz se divide en bloques de muestras llamadas tramas. El valor n designa el número de tramas. En una forma de realización alternativa, una señal de error residual de predición lineal (LP) se utiliza en lugar de la señal de voz. El residuo de la LP se utiliza por codificadores de voz tales como, por ejemplo, el codificador CELP. La computación del residuo de la LP se ejecuta ventajosamente suministrando la señal de voz a un filtro de la LP inverso (no mostrado). La función de transferencia del filtro de la LP inverso, A(z) se computa de acuerdo con la siguiente ecuación:
A(z) = 1 - a_{1}z^{-1} - a_{2}z^{-2} - ... - a_{P}z^{-P}
en la cual los coeficientes a_{1} son derivaciones de filtro que tienen unos valores predefinidos escogidos de acuerdo con procedimientos conocidos, como se describe en las Patentes estadounidenses Nos. 5,414,796 y 6,456,964, anteriormente mencionadas. El número p indica el número de muestras previas que el filtro de la LP inverso utiliza con fines de predicción. En una forma de realización particular, p se establece en diez.
El calculador 406 de parámetros deriva diversos parámetros en base a la trama actual. En una forma de realización estos parámetros incluyen al menos uno de los siguientes: coeficientes de filtro de codificación predictiva lineal (LPC), coeficientes del par espectral de líneas (LSP), funciones de autocorrelación normalizada (NACFs), retardo de bucle abierto, índices de paso porcero, energías de banda, y señal residual formante. La computación de los coeficientes LPC, de los coeficientes LSP, del retardo de bucle abierto, las energías de banda, y la señal residual formante se describen con detalle en la Patente estadounidense anteriormente mencionada No. 5,414,796. La computación de las NACFs y los índices de paso porcero se describen con detalle en la Patente anteriormente mencionada No. 5,911.128.
El calculador 406 de parámetros está acoplado al módulo 408 de clasificación de modos. El calculador 406 de parámetros suministra los parámetros al módulo 408 de clasificación de modos. El módulo 408 de clasificación de modos está acoplado para la conmutación dinámica entre los módulos de codificación 410 sobre una base de trama a trama con el fin de seleccionar el modo de codificación 410 más apropiado para la actual trama. El módulo 408 de clasificación de modos selecciona un modo de codificación concreto 410 para la trama actual mediante la comparación de los parámetros con un umbral predefinido y / o unos valores de tope. En base al contenido de energía de la trama, el módulo 408 de clasificación de modos clasifica la trama como de sin voz, o de voz inactiva (por ejemplo, el silencio, ruido de fondo, o pausas entre palabras) o de voz. En base a la periodicidad de la trama, el módulo 408 de clasificación de modos, clasifica a continuación las tramas de voz como un tipo particular de voz, por ejemplo, vocalizada, no vocalizada, o transitoria.
La voz vocalizada es una voz que muestra un grado relativamente alto de periodicidad. Un segmento de voz vocalizada se muestra en el gráfico de la Fig. 6. Según se ilustra, el periodo de paso es un componente de una trama de voz que puede utilizarse con ventaja para analizar y reconstruir el contenido de la trama. La voz no vocalizada típicamente comprende sonidos consonánticos. Las tramas de voz transitorias son típicamente transiciones entre la voz vocalizada y la no vocalizada. Las tramas que son clasificadas como ni voz vocalizada ni voz no vocalizada son clasificadas como voz transitoria. Debería entenderse por parte de los expertos en la materia que podría emplearse cualquier esquema clasificatorio razonable.
La clasificación de las tramas de voz es ventajosa porque pueden utilizarse diversos modos de cuantificación 410 para codificar diferentes tipos de voz, dando como resultado un uso más eficiente del ancho de banda en un canal compartido como por ejemplo el canal de comunicación 404. Por ejemplo, como la voz vocalizada es periódica y, por tanto, altamente predictiva, puede emplearse un modo de codificación 410 altamente predictivo, de velocidad de bits baja para codificar la voz vocalizada. Los módulos de clasificación, como por ejemplo el módulo de codificación 408, se describen con detalle en la Patente estadounidense No. 6,691,084 anteriormente mencionada y en la Patente estadounidense No. 6,640,209 titulada "Codificador de voz de bucle cerrado de predicción lineal de dominio mixto o multimodo (MDLP)" ["CLOSED-LOOP MULTIMODE MIXED-DOMAIN LINEAR PREDICTION (MDLP) SPEECH CODER"] solicitada el 26 de Febrero de 1999.
El módulo 408 de clasificación de modos selecciona un modo de clasificación 410 para la trama actual en base a la clasificación de la trama. Los diversos modos de clasificación 410 están acoplados en paralelo. Uno o más de los modos de codificación 410 puede ser operativo en cualquier momento determinado. No obstante, únicamente un modo de codificación 410 opera ventajosamente en cualquier momento determinado, y es seleccionado de acuerdo con la clasificación de la trama actual.
Los diferentes modos de codificación 410 ventajosamente operan de acuerdo con velocidades de bits de codificación diferentes, diferentes esquemas de codificación, o diferentes combinaciones de velocidad de bits de codificación y esquema de codificación. Las distintas velocidades de codificación utilizadas pueden ser de plena velocidad, de la mitad de la velocidad, de un cuarto de la velocidad, y / o de un octavo de la velocidad. Los distintos esquemas de codificación utilizados pueden ser la codificación CELP, la codificación de periodo de paso prototipo (PPP) (o codificación de interpolación de forma de onda (WI)), y / o codificación de predición lineal excitada de ruido (NELP). Así, por ejemplo, un modo de codificación particular 410 podría ser una codificación CELP de plena velocidad , otro modo de codificación 410 podría ser una codificación CELP de media velocidad, otro modo de codificación 410 podría ser una codificación PPP de un cuarto de velocidad, y otro modo de codificación 410 podría ser una codificación NELP.
De acuerdo con un modo de codificación 410 CELP, un modelo de tracto vocálico predictivo lineal es excitado con una versión cuantificada de la señal residual de la LP. Los parámetros cuantificados para la entera trama anterior, se utilizan para reconstruir la trama actual. El modo de codificación 410 CELP proporciona así una reproducción de voz relativamente precisa pero a expensas de una velocidad de bits de codificación relativamente alta. El modo de codificación 410 CELP puede ventajosamente ser utilizado para codificar tramas clasificadas como voz transitoria. Un codificador de voz CELP de velocidad variable ejemplar se describe con detalle en la Patente estadounidense anteriormente mencionada No. 5,414,796.
De acuerdo con un modo de codificación 410 NELP, una señal de ruido pseudoaleatorio, filtrado, se utiliza para modelar la trama de voz. El modo de codificación 410 NELP es una técnica relativamente simple que consigue una velocidad de bits baja. El modo de codificación 412 NELP puede ser utilizado con ventaja para codificar tramas clasificadas como voz no vocalizada. Un modo de codificación NELP ejemplar se describe con detalle en la Patente estadounidense anteriormente mencionada No. 6,456,964.
De acuerdo con un modo de codificación 410 PPP, únicamente un subconjunto de periodos de paso dentro de cada trama son codificados. Los periodos restantes de la señal de voz son reconstruidos interpolando estos periodos prototipo. En una implementación de dominio de tiempo de una codificación PPP se calcula un primer conjunto de parámetros que describe cómo modificar un periodo prototipo previo para aproximarse al periodo prototipo actual. Uno o más vectores de código son seleccionados, los cuales, cuando son sumados, se aproximan a la diferencia entre el periodo prototipo actual y el periodo prototipo previo modificado. Un segundo conjunto de parámetros describe estos vectores de código seleccionados. En una implementación de dominio frecuencial de la codificación PPP, se calcula un conjunto de parámetros para describir la amplitud y los espectros de fase del prototipo. Esto puede llevarse a cabo en un sentido absoluto o de forma predictiva. Un procedimiento para cuantificar de forma predictiva la amplitud y los espectros de fase de un prototipo (o de una trama entera) se describe en la solicitud relacionada anteriormente indicada solicitada con la presente y titulada "Procedimiento y aparato para cuantificar voz vocalizada de forma predictiva" [METHOD AND APPARATUS FOR PREDICTIVELY QUANTIZING VOICED SPEECH]. De acuerdo con una u otra implementación de la codificación PPP, el descodificador sintetiza una señal de voz de salida mediante la reconstrucción de un prototipo actual en base al primer y segundo conjuntos de parámetros. La señal de voz es a continuación interpolada entre la región entre el periodo prototipo reconstruido actual y el periodo prototipo reconstruido anterior. El prototipo es así una porción de la trama actual que será interpolada linealmente con prototipos procedentes de tramas previas que fueron situadas de modo similar dentro de la trama con el fin de reconstruir la señal de voz o la señal residual de la LP en el descodificador (esto es, un periodo prototipo pasado se utiliza como predictor del periodo prototipo actual). Un codificador de voz PPP ejemplar se describe con detalle en la Patente estadounidense anteriormente mencionada No. 6,456,964.
La codificación del periodo prototipo mejor que la de la entera trama de voz reduce la velocidad de bits de codificación requerida. Las tramas clasificadas como voz vocalizada pueden ventajosamente ser codificadas con un modo de codificación 410 PPP. Como se ilustra en la Fig. 6, la voz vocalizada contiene componentes periódicos de variación lenta en el tiempo que son explotados con ventaja por el modo de codificación 410 PPP. Explotando la periodicidad de la voz vocalizada, el modo de codificación 410 PPP es capaz de conseguir una velocidad de bits más baja que el modo de codificación 410 CELP.
El modo de codificación seleccionado 410 está acoplado al módulo 412 de formateo de paquetes. El modo de codificación seleccionado 410 codifica o cuantifica, la trama actual y proporciona los parámetros de trama cuantificados al módulo 412 de formateo de paquetes. El módulo 412 de formateo de paquetes ventajosamente agrupa la información cuantificada en paquetes para su transmisión a través del canal de comunicación 404. En una forma de realización, el modulo 412 de formateo de paquetes está configurado para proporcionar una codificación de corrección de errores y formatear el paquete de acuerdo con el estándar IS-95. El paquete suministrado a un transmisor (no mostrado) convertido en formato analógico, modulado, y transmitido a través del canal de comunicación 404 hasta un receptor (tampoco mostrado), el cual recibe, desmodula, y digitaliza el paquete y suministra el paquete al descodificador 402.
En el descodificador 402, el desemsamblador de paquetes y el módulo 414 detector de pérdida de paquetes recibe el paquete del receptor. El desemsamblador de paquetes y el módulo 414 detector de pérdida de paquetes está acoplado para la conmutación de forma dinámica entre los modos de descodificación 410 sobre una base de paquete por paquete. El número de modos de descodificación 416 es el mismo que el número de modos de codificación 410, y como podrá advertir la persona experta en la materia, cada modo de codificación numerado 410 está asociado con un modo respectivo de descodificación 416 numerado de forma similar y configurado para emplear la misma velocidad de bits de codificación y el mismo esquema de codificación.
Si el desmontador de paquetes y el módulo 414 detector de pérdida de paquetes detecta el paquete, es paquete es desmontado y suministrado al pertinente modo de descodificación 416. Si el desmontador de paquetes y el módulo 414 detector de pérdida de paquetes no detecta un paquete, se declara una pérdida de paquete y el descodificador de borrado 418 ventajosamente ejecuta el procesamiento de borrado de tramas de acuerdo con lo descrito con detalle más adelante.
La matriz paralela de modos de descodificación 416 y el descodificador de borrado 418 está acoplada al postfiltro 420. El modo de descodificación pertinente 416 descodifica, o descuantifica, el paquete y suministra la información al postfiltro 420. El postfiltro 420 reconstruye, o sintetiza, la trama de voz, dando salida a las tramas de voz sintetizadas, \hat{s}(n). Los modos de descodificación ejemplares y los postfiltros son descritos con detalle en las Patentes estadounidenses Nos. 5,414,796 y 6,456,964.
En una forma de realización los mismos parámetros cuantificados no son transmitidos. En su lugar, son transmitidos unos índices de código de cifrado y descifrado que especifican las direcciones en las diversas tablas de búsqueda (LUTs) (no mostradas) del descodificador 402. El descodificador 402 recibe los índices del código de cifrado y descifrado y busca las diversas LUTs del código de cifrado y descifrado para apropiarse los valores de los parámetros. De acuerdo con ello, los índices del código de cifrado y descifrado para parámetros tales como, por ejemplo, el retardo de paso, la ganancia del código de cifrado y descifrado adaptativo, y el LSP pueden ser transmitidos, y tres LUTs asociados del código de cifrado y descifrado son buscados por el descodificador 402.
De acuerdo con el modo de decodificación 410 CELP, son transmitidos el retardo de paso, la amplitud, la fase, y el LSP. Los índices del código de cifrado y descifrado del LSP son transmitidos porque la señal residual de la LP va a ser sintetizada en el descodificador 402. Adicionalmente, es transmitida la diferencia entre el valor de retardo de paso para la trama actual y el valor de retardo de paso para la trama anterior.
De acuerdo con un modo de codificación PPP convencional en el cual la señal de voz va a ser sintetizada en el descodificador, únicamente se transmiten los parámetros de retardo de paso, amplitud y fase. La velocidad de bits más baja empleada por las técnicas de codificación de voz PPP convencionales no permite la transmisión de la información de retardo de paso absoluta y los valores de diferencia de retardo de paso relativos.
De acuerdo con una forma de realización, las tramas altamente periódicas, como por ejemplo las tramas de voz vocalizadas son transmitidas con un modo de codificación 410 PPP de velocidad de bits baja que cuantifica la diferencia entre el valor de retardo de paso para la trama actual y el valor de retardo de paso para la trama anterior para su transmisión, y no cuantifica el valor de retardo de paso para la trama actual para su transmisión. Debido a que las tramas vocalizadas tienen una naturaleza altamente periódica, la transmisión del valor de diferencia como valor opuesto al valor de retardo de paso absoluto posibilita que se consiga una velocidad de bits de codificación inferior. En una forma de realización esta cuantificación se generaliza de forma que es computada una suma ponderada de los valores de los parámetros para las tramas anteriores, en el que la suma de las ponderaciones es uno, y la suma pondera es restada del valor de los parámetros para la trama actual. La diferencia es entonces cuantificada. Esta técnica se describe con detalle en el documento anteriormente mencionado EP 1279167 B1 y titulado "Procedimiento y aparato para cuantificar de forma predictiva la voz vocalizada" ["METHOD AND APPARATUS FOR PREDICTIVELY QUANTIZING VOICED SPEECH"].
De acuerdo con una forma de realización, un sistema de codificación de velocidad variable codifica los diferentes tipos de voz según se determina por un procesador de control con diferentes codificadores, o modos de codificación, controlados por el procesador, o clasificador de modos. Los codificadores modifican la señal residual de la trama actual (o alternativamente, de la señal de voz) de acuerdo con un contorno de separación tal como el que se especifica por el valor de retardo de paso para la trama anterior, L _{-1} , y el valor de retardo de paso para la trama actual, L. Un procesador de control destinado a los codificadores sigue el mismo contorno de separación para reconstruir una contribución adaptativo del código de cifrado y descifrado, {P(n)}, a partir de una memoria de separación para el residual cuantificado o voz para la trama actual.
Si el valor de retardo de paso previo, L _{-1}, se pierde, los descodificadores no pueden reconstruir el contorno de separación correcto. Esto provoca que la contribución adaptativa del código de cifrado y descifrado {P(n)}, quede distorsionada. A su vez, la voz sintetizada experimentará una severa degradación aún cuando no se pierda un paquete para la trama actual. Como remedio a ello, algunos codificadores convencionales emplean una estrategia para codificar tanto L como la diferencia entre L y L _{-1}. Esta diferencia, o valor de paso delta puede ser designada por \Delta, donde \Delta = L - L _{-1} sirve para recuperar L _{-1} si L _{-1} se pierde en la trama anterior.
La forma de realización actualmente descrita puede utilizarse para obtener una máxima ventaja en un sistema de codificación de velocidad variable. Específicamente, un primer codificador (o modo de codificación), designado como C, codifica el valor L de retardo de paso de la trama actual, y el valor \Delta de retardo de paso delta, de acuerdo con lo anteriormente descrito. Un segundo codificador (o modo de codificación), designado como Q codifica el valor de retardo de paso delta, \Delta, pero no codifica necesariamente el valor de retardo de paso, L. Esto posibilita que el segundo codificador, Q utilice los bits adicionales para codificar otros parámetros o ahorrar totalmente los bits (esto es, para funcionar como un codificador de velocidad de bits baja). El primer codificador, C, puede ventajosamente ser un codificador utilizado para codificar una voz relativamente no periódica como, por ejemplo, un codificador CELP de plena velocidad. El segundo codificador, Q, puede ventajosamente ser un codificador utilizado para codificar una voz altamente periódica (por ejemplo, una voz vocalizada) como por ejemplo, un codificador PPP de un cuarto de velocidad.
Como se ilustra en el ejemplo de la Fig. 7, si el paquete de la trama anterior, trama n - 1, se pierde, la contribución de la memoria de paso, {P_{-2} (n)}, después de descodificar la trama recibida antes de la trama anterior, la trama n - 2, es almacenada en la memoria del codificador (no mostrada). El valor de retardo de paso para la trama n - 2, L _{-2}, es también almacenado en la memoria del codificador. Si la trama actual, trama n, es codificada por el codificador C, la trama n puede ser llamada una trama C. El codificador C puede restaurar el valor anterior de retardo de paso, L _{-1}, a partir del valor de paso \Delta, utilizando la ecuación L _{-1} = L - \Delta. Por tanto, puede ser reconstruido un contorno de paso correcto con los valores L _{-1} y L _{-2}. La contribución del código de cifrado y descifrado adaptativo para la trama n - 1
puede repararse dado el contorno de paso correcto, y ser posteriormente utilizado para generar la contribución del código de cifrado y descifrado adaptativo para la trama n. Los expertos en la materia comprenden que dicho esquema se utiliza en algunos codificadores convencionales como el codificador EVRC.
De acuerdo con una forma de realización, el comportamiento de borrado de trama en un sistema de codificación de voz de velocidad variable que utiliza los dos tipos de codificadores anteriormente descritos (codificador C y codificador Q) se potencia de acuerdo con lo descrito más adelante. Según se ilustra en el ejemplo de la Fig. 8, un sistema de codificación de velocidad variable puede ser diseñado para utilizar ambos tipos de codificador C y Q. La trama actual, trama n, es una trama C y su paquete no se ha perdido. La trama anterior, trama n - 1, es una trama Q. El paquete para la trama precedente a la trama Q (esto es, el paquete para la trama n - 2) se perdió.
En el procesamiento de borrado de tramas para la trama n - 2, la contribución de memoria de paso, {P_{-3} (n)}, después de descodificar la trama n - 3, es almacenada en la memoria del codificador (no mostrada). El valor de retardo de paso para la trama n - 1, L _{-1}, puede ser recuperado utilizando el valor de retardo de paso delta, \Delta, (que es igual a L - L _{-1}), en el paquete del paquete de tramas de C de acuerdo con la ecuación L _{-1} = L - \Delta. La trama n - 1 es una trama de Q con un valor de retardo de paso delta codificado asociado, propio suyo \Delta_{-1}, igual a L _{-1} - L _{-2}. Por tanto, el valor de retardo de paso para la trama de borrado, trama n - 2, L _{-2}, puede ser recuperado con la ecuación L _{-2} = L _{-1} - \Delta_{-1}. Con los valores de retardo de paso correctos de la trama n - 2 y la trama n - 1, los contornos de separación para estas tramas pueden ser ventajosamente reconstruidos y reparada consecuentemente la contribución de código de cifrado y descifrado adaptativo. Por tanto, la trama de C contará con la memoria de paso mejorada requerida para computar la contribución del código de cifrado y descifrado adaptativo para su señal residual de la LP cuantificada (o señal de voz). Este procedimiento puede ser fácilmente extendido para posibilitar la existencia de múltiples tramas de Q entre la trama de borrado y la trama de C como puede ser apreciado por los expertos en la materia.
Como se muestra gráficamente en la Fig. 9, cuando una trama es borrada, el descodificador de borrado (por ejemplo, el elemento 418 de la Fig. 5) reconstruye la señal residual de la LP cuantificada (o señal de voz) sin la exacta información de la trama. Si el contorno de paso y la memoria de paso de la trama borrada fueron restauradas de acuerdo con el procedimiento anteriormente descrito para reconstruir la señal residual de la LP cuantificada (o señal de voz) de la trama actual, la señal residual de la LP cuantificada resultante (o señal de voz) sería diferente de la que hubiera utilizado la memoria de separación corrompida. Dicho cambio en la memoria de paso del codificador dará como resultado una discontinuidad en las tramas transversales residuales cuantificadas (o señales de voz). Por tanto, un sonido de transición, o clic, se oye a menudo en codificadores de voz convencionales, como por ejemplo el codificador EVRC.
De acuerdo con una forma de realización preferente, los prototipos de periodos de separación son extraídos de la memoria de separación corrompida antes de su reparación. La señal residual de la LP (o señal de voz) para la trama actual es también extraída de acuerdo con un proceso de descuantificación normal. La señal residual de la LP cuantificada (o señal de voz) para la trama actual es entonces reconstruida de acuerdo con un procedimiento de interpolación de forma de onda (WI). En una forma de realización particular, el procedimiento WI opera de acuerdo con el modo de codificación PPP anteriormente descrito. Este procedimiento ventajosamente sirve para suavizar la discontinuidad descrita anteriormente y para potenciar en mayor medida el comportamiento del borrado de tramas del codificador de voz. Dicho esquema WI puede utilizarse siempre que se necesite reparar la memoria de paso debido al proceso de borrado con independencia de las técnicas utilizadas para llevar a cabo la reparación (incluyendo, sin que ello suponga limitación, por ejemplo, las técnicas descritas anteriormente en la presente memoria).
Los gráficos de la Fig. 10 ilustran la diferencia en apariencia entre una señal residual de la LP que ha sido ajustada de acuerdo con técnicas convencionales, produciendo un clic audible, y una señal residual de la LP que ha sido seguidamente suavizada de acuerdo con el esquema de suavización WI anteriormente descrito. Los gráficos de la Fig. 11 ilustran los principios de una técnica de codificación PPP o WI.
Así, se ha descrito un procedimiento de compensación de borrado de tramas novedoso y mejorado de un codificador de voz de velocidad variable. Los expertos en la materia entenderían que los datos, instrucciones, comandos, información, señales, bits, símbolos, y chips que pueden ser objeto de referencia a lo largo de la anterior descripción son ventajosamente representados mediante voltajes, corrientes, ondas electromagnéticas, campos o partículas electromagnéticas, campos o partículas ópticas, o cualquier combinación de los mismos. Los expertos en la materia apreciarían que los diversos ilustrativos bloques lógicos, módulos, circuitos, y etapas de algoritmos descritos en conexión con las formas de realización descritas en la presente memoria pueden ser implementadas como hardware, software informático, o combinaciones de ambos. Los diversos componentes ilustrativos, bloques, módulos, circuitos y etapas han sido descritos en términos generales en razón de su funcionalidad. El que se implemente la funcionalidad como hardware o software depende de las exigencias de aplicación y diseño concretas impuestas por el sistema global. Los expertos en la materia advertirán el carácter intercambiable del hardware y software bajo estas circunstancias, y cómo implementar mejor la funcionalidad descrita para cada aplicación particular. Como ejemplos, los diversos bloques, módulos, circuitos ilustrativos y etapas de algoritmos descritos en la presente memoria en conexión con las formas de realización preferentes pueden ser implementados o ejecutados con un procesador de señal digital (DSP), un circuito integrado de aplicación específica (ASIC), una matriz de puertas programable sobre el terreno (FPGA) u otro dispositivo lógico programable, circuito de puerta discreto o circuito lógico de transistor, componentes discretos de hardware, como por ejemplo, registros y FIFO, un procesador que ejecute una serie de instrucciones de soporte lógico inalterable, cualquier módulo de software convencional programable y un procesador, o cualquier combinación de los mismos diseñada para ejecutar las funciones descritas en la presente memoria. El procesador puede ventajosamente ser un microprocesador, pero alternativamente, el procesador puede ser cualquier procesador, controlador, microcontrolador o máquina de estados convencional. El módulo de software podría alojarse en una memoria RAM, memoria flash, la memoria ROM, la memoria EPROM, la memoria EEPROM, registros, un disco duro, un disco extraíble, un CD-ROM, o cualquier otra forma de medio de almacenamiento conocido en la técnica. Como se ilustra en la Fig. 12, un procesador ejemplar 500 está ventajosamente acoplado a un medio de almacenamiento 502 para leer la información procedente de, y escribir información para, el medio de almacenamiento 502. Alternativamente, el medio de almacenamiento 502 puede formar parte integrante del procesador 500. El procesador 500 y el medio de almacenamiento 502 pueden alojarse en un ASIC (no mostrado). El ASIC puede alojarse en un teléfono (no mostrado). Alternativamente, el procesador 500 y el medio de almacenamiento 502 pueden alojarse en un teléfono. El procesador 500 puede ser implementado con una combinación del DSP y un microprocesador, o como dos microprocesadores en combinación con un núcleo del DSP, etc.
Se han mostrado y descrito formas de realización preferentes de la presente invención. Debería resultar evidente para la persona experta en la materia, sin embargo, que pueden llevarse a cabo numerosas alteraciones en las formas de realización divulgadas en la presente memoria sin apartarse del ámbito de la invención. Por consiguiente, la presente invención no está limitada sino de acuerdo con las reivindicaciones que siguen.

Claims (16)

1. Un procedimiento para compensar un borrado de trama en un codificador de voz, que comprende:
descuantificar un valor de retardo de paso y un primer valor delta para una trama actual procesada después de que se ha declarado una trama borrada, siendo el primer valor delta igual a la diferencia entre el valor de retardo de paso para la trama actual y un valor de retardo de paso para la trama inmediatamente precedente a la trama actual;
recibir un segundo valor delta cuantificado para al menos una trama anterior a la trama actual y después del borrado de trama sin recibir un valor de retardo de paso cuantificado para la al menos una trama;
descuantificar el segundo valor delta para la al menos una trama antes de la trama actual y después del borrado de la trama, en el que el segundo valor de trama es igual a la diferencia entre un valor de retardo de paso para la al menos una trama y un valor de retardo de paso para una trama inmediatamente precedente a la al menos una trama;
substraer el primer valor delta del valor de retardo de paso para la tarma actual para generar un valor de retardo de paso para la al menos una trama anterior a la trama actual; y
substraer el segundo valor delta del valor de retardo de paso generado para la al menos una trama anterior a la trama actual para generar un valor de retardo de paso para la trama borrada.
2. El procedimiento de la reivindicación 1, que comprende así mismo construir la trama borrada para generar una trama reconstruida.
3. El procedimiento de la reivindicación 2, que comprende así mismo ejecutar una interpolación de forma de onda para suavizar cualquier discontinuidad existente entre la trama actual y la trama reconstruida.
4. El procedimiento de la reivindicación 1, en el que la descuantificación es ejecutada de acuerdo con un modo de codificación relativamente no predictivo.
5. El procedimiento de la reivindicación 1, en el que la descuantificación se ejecuta de acuerdo con un modo de codificación relativamente predictivo.
6. Un aparato adaptado para compensar un borrado de trama, que comprende:
un primer medio (418) para descuantificar un valor de retardo de paso y un primer valor delta para una trama actual procesada después de que se ha declarado una trama borrada, siendo el primer valor delta igual a la diferencia entre el valor de retardo de paso para la trama actual y un valor de retardo de paso para una trama inmediatamente precedente a la trama actual;
un medio (402) para recibir un segundo valor delta cuantificado para al menos una trama anterior a la trama actual y después del borrado de la trama sin recibir un valor de retardo de paso cuantificado para la al menos una trama;
un segundo medio (418) para descuantificar el segundo valor delta para la al menos una trama antes de la trama actual y después del borrado de la trama, en el que el valor delta es igual a la diferencia entre un valor de retardo de paso para la al menos una trama y un valor de retardo de paso para una trama inmediatamente precedente a la al menos una trama;
un medio (418) para sustraer el primer valor delta del valor de retardo de paso para la trama actual para generar un valor de retardo de paso para la al menos una trama antes de la trama actual; y
un medio (418) para sustraer el segundo valor delta del segundo valor de retardo de paso generado para la al menos una trama antes de la trama actual para generar un valor de retardo de paso para trama borrada.
7. El aparato de la reivindicación 6, que comprende así mismo un medio (420) para reconstruir la trama borrada para generar una trama reconstruida.
8. El aparato de la reivindicación 7, que comprende así mismo un medio para ejecutar una interpolación de forma de onda para suavizar cualquier discontinuidad existente entre la trama actual y la trama reconstruida.
9. El aparato de la reivindicación 6, en el que el primer medio (418) de descuantificación comprende un medio para descuantificar de acuerdo un modo de codificación relativamente no predictivo.
10. El codificador de voz de la reivindicación 6, en el que el segundo medio (418) de descuantificación comprende un medio de descuantificación de acuerdo con un modo de codificación relativamente predictivo.
11. Una unidad de abonado de acuerdo con el aparato de la reivindicación 6, en la que:
el primer medio (418) para descuantificar el valor de retardo de paso y el primer valor delta para la trama actual procesada después de que se ha declarado una trama borrada es un primer codificador de voz;
el segundo medio (418) para descuantificar el segundo valor delta para la al menos una trama anterior a la trama actual y después del borrado de la trama es un segundo codificador de voz; y
el medio (418) para sustraer es un procesador de control acoplado a los primero y segundo codificadores de voz.
12. La unidad de abonado de la reivindicación 11, en la que el procesador de control está así mismo configurado para reconstruir una trama borrada para regenerar una trama reconstruida.
13. La unidad de abonado de la reivindicación 12, en la que el procesador de control está así mismo configurado para ejecutar una interpolación en forma de onda para suavizar cualquier discontinuidad existente entre la trama actual y la trama reconstruida.
14. La unidad de abonado de la reivindicación 11, en la que el primer codificador de voz está configurado para descuantificar de acuerdo con un modo de codificación relativamente no predictivo.
15. La unidad de abonado de la reivindicación 11, en la que el segundo codificador de voz está configurado para descuantificar de acuerdo con un modo de codificación relativamente predictivo.
16. Un medio de almacenamiento que contiene un conjunto de instrucciones que, cuando son ejecutadas por un procesador, llevan a cabo cada una de las etapas del procedimiento de una cualquiera de la reivindicaciones 1 a 5.
ES01930579T 2000-04-24 2001-04-18 Procedimiento de compensacion de borrado de tramas en un codificador de voz de velocidad de transmision variable. Expired - Lifetime ES2288950T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US557283 2000-04-24
US09/557,283 US6584438B1 (en) 2000-04-24 2000-04-24 Frame erasure compensation method in a variable rate speech coder

Publications (1)

Publication Number Publication Date
ES2288950T3 true ES2288950T3 (es) 2008-02-01

Family

ID=24224779

Family Applications (2)

Application Number Title Priority Date Filing Date
ES09163673T Expired - Lifetime ES2360176T3 (es) 2000-04-24 2001-04-18 Alisamiento de discontinuidades entre tramas de habla.
ES01930579T Expired - Lifetime ES2288950T3 (es) 2000-04-24 2001-04-18 Procedimiento de compensacion de borrado de tramas en un codificador de voz de velocidad de transmision variable.

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES09163673T Expired - Lifetime ES2360176T3 (es) 2000-04-24 2001-04-18 Alisamiento de discontinuidades entre tramas de habla.

Country Status (12)

Country Link
US (1) US6584438B1 (es)
EP (3) EP1850326A3 (es)
JP (1) JP4870313B2 (es)
KR (1) KR100805983B1 (es)
CN (1) CN1223989C (es)
AT (2) ATE368278T1 (es)
AU (1) AU2001257102A1 (es)
BR (1) BR0110252A (es)
DE (2) DE60129544T2 (es)
ES (2) ES2360176T3 (es)
TW (1) TW519615B (es)
WO (1) WO2001082289A2 (es)

Families Citing this family (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW376611B (en) * 1998-05-26 1999-12-11 Koninkl Philips Electronics Nv Transmission system with improved speech encoder
CN100362568C (zh) * 2000-04-24 2008-01-16 高通股份有限公司 用于预测量化有声语音的方法和设备
US7080009B2 (en) * 2000-05-01 2006-07-18 Motorola, Inc. Method and apparatus for reducing rate determination errors and their artifacts
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
US7013267B1 (en) * 2001-07-30 2006-03-14 Cisco Technology, Inc. Method and apparatus for reconstructing voice information
US7512535B2 (en) * 2001-10-03 2009-03-31 Broadcom Corporation Adaptive postfiltering methods and systems for decoding speech
US7096180B2 (en) * 2002-05-15 2006-08-22 Intel Corporation Method and apparatuses for improving quality of digitally encoded speech in the presence of interference
US6789058B2 (en) * 2002-10-15 2004-09-07 Mindspeed Technologies, Inc. Complexity resource manager for multi-channel speech processing
KR100451622B1 (ko) * 2002-11-11 2004-10-08 한국전자통신연구원 통신용 보코더 및 이를 이용한 통신 방법
JP4303687B2 (ja) * 2003-01-30 2009-07-29 富士通株式会社 音声パケット消失隠蔽装置,音声パケット消失隠蔽方法,受信端末および音声通信システム
GB2416467B (en) * 2003-05-14 2006-08-30 Oki Electric Ind Co Ltd Apparatus and method for concealing erased periodic signal data
US20050049853A1 (en) * 2003-09-01 2005-03-03 Mi-Suk Lee Frame loss concealment method and device for VoIP system
US7433815B2 (en) * 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
US7505764B2 (en) * 2003-10-28 2009-03-17 Motorola, Inc. Method for retransmitting a speech packet
US7729267B2 (en) * 2003-11-26 2010-06-01 Cisco Technology, Inc. Method and apparatus for analyzing a media path in a packet switched network
PL1735774T3 (pl) * 2004-04-05 2008-11-28 Koninl Philips Electronics Nv Koder wielokanałowy
JP4445328B2 (ja) * 2004-05-24 2010-04-07 パナソニック株式会社 音声・楽音復号化装置および音声・楽音復号化方法
JP4698593B2 (ja) * 2004-07-20 2011-06-08 パナソニック株式会社 音声復号化装置および音声復号化方法
US7681105B1 (en) * 2004-08-09 2010-03-16 Bakbone Software, Inc. Method for lock-free clustered erasure coding and recovery of data across a plurality of data stores in a network
US7681104B1 (en) 2004-08-09 2010-03-16 Bakbone Software, Inc. Method for erasure coding data across a plurality of data stores in a network
EP2204796B1 (en) 2004-08-30 2017-07-12 QUALCOMM Incorporated Adaptive De-Jitter buffer for voice over IP
US7519535B2 (en) * 2005-01-31 2009-04-14 Qualcomm Incorporated Frame erasure concealment in voice communications
WO2006079348A1 (en) 2005-01-31 2006-08-03 Sonorit Aps Method for generating concealment frames in communication system
US8355907B2 (en) 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US8155965B2 (en) * 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
UA90506C2 (ru) * 2005-03-11 2010-05-11 Квелкомм Инкорпорейтед Изменение масштаба времени кадров в вокодере с помощью изменения остатка
US9058812B2 (en) * 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
US8259840B2 (en) * 2005-10-24 2012-09-04 General Motors Llc Data communication via a voice channel of a wireless communication network using discontinuities
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
US7457746B2 (en) * 2006-03-20 2008-11-25 Mindspeed Technologies, Inc. Pitch prediction for packet loss concealment
JP5052514B2 (ja) * 2006-07-12 2012-10-17 パナソニック株式会社 音声復号装置
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
FR2907586A1 (fr) * 2006-10-20 2008-04-25 France Telecom Synthese de blocs perdus d'un signal audionumerique,avec correction de periode de pitch.
US7738383B2 (en) * 2006-12-21 2010-06-15 Cisco Technology, Inc. Traceroute using address request messages
US8279889B2 (en) 2007-01-04 2012-10-02 Qualcomm Incorporated Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate
CN101226744B (zh) * 2007-01-19 2011-04-13 华为技术有限公司 语音解码器中实现语音解码的方法及装置
US7706278B2 (en) * 2007-01-24 2010-04-27 Cisco Technology, Inc. Triggering flow analysis at intermediary devices
US7873064B1 (en) * 2007-02-12 2011-01-18 Marvell International Ltd. Adaptive jitter buffer-packet loss concealment
CN101321033B (zh) * 2007-06-10 2011-08-10 华为技术有限公司 帧补偿方法及系统
CN101325631B (zh) * 2007-06-14 2010-10-20 华为技术有限公司 一种估计基音周期的方法和装置
US8719012B2 (en) * 2007-06-15 2014-05-06 Orange Methods and apparatus for coding digital audio signals using a filtered quantizing noise
ATE456130T1 (de) * 2007-10-29 2010-02-15 Harman Becker Automotive Sys Partielle sprachrekonstruktion
CN101437009B (zh) * 2007-11-15 2011-02-02 华为技术有限公司 丢包隐藏的方法及其系统
KR20090122143A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
EP2239732A1 (en) 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
RU2452044C1 (ru) 2009-04-02 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот
JP5111430B2 (ja) * 2009-04-24 2013-01-09 パナソニック株式会社 音声符号化装置、音声復号化装置、及びこれらの方法
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
US9020812B2 (en) * 2009-11-24 2015-04-28 Lg Electronics Inc. Audio signal processing method and device
GB0920729D0 (en) * 2009-11-26 2010-01-13 Icera Inc Signal fading
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8774010B2 (en) 2010-11-02 2014-07-08 Cisco Technology, Inc. System and method for providing proactive fault monitoring in a network environment
US8559341B2 (en) 2010-11-08 2013-10-15 Cisco Technology, Inc. System and method for providing a loop free topology in a network environment
US8982733B2 (en) 2011-03-04 2015-03-17 Cisco Technology, Inc. System and method for managing topology changes in a network environment
US8670326B1 (en) 2011-03-31 2014-03-11 Cisco Technology, Inc. System and method for probing multiple paths in a network environment
US8990074B2 (en) 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
US8724517B1 (en) 2011-06-02 2014-05-13 Cisco Technology, Inc. System and method for managing network traffic disruption
US8830875B1 (en) 2011-06-15 2014-09-09 Cisco Technology, Inc. System and method for providing a loop free topology in a network environment
JP5328883B2 (ja) * 2011-12-02 2013-10-30 パナソニック株式会社 Celp型音声復号化装置およびcelp型音声復号化方法
US9450846B1 (en) 2012-10-17 2016-09-20 Cisco Technology, Inc. System and method for tracking packets in a network environment
EP4525312A3 (en) * 2012-11-15 2025-05-14 Ntt Docomo, Inc. Audio coding device
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
WO2014202784A1 (en) * 2013-06-21 2014-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improved signal fade out for switched audio coding systems during error concealment
KR101828186B1 (ko) 2013-06-21 2018-02-09 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 개선된 펄스 재동기화를 사용하여 acelp-형 은폐 내에서 적응적 코드북의 개선된 은폐를 위한 장치 및 방법
PL3540731T3 (pl) 2013-06-21 2024-11-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Szacowanie opóźnienia wysokości tonu
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US9418671B2 (en) 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
CN105830154B (zh) 2013-12-19 2019-06-28 瑞典爱立信有限公司 估计音频信号中的背景噪声
EP2980796A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
WO2016040885A1 (en) 2014-09-12 2016-03-17 Audience, Inc. Systems and methods for restoration of speech components
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US10447430B2 (en) 2016-08-01 2019-10-15 Sony Interactive Entertainment LLC Forward error correction for streaming data

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59153346A (ja) 1983-02-21 1984-09-01 Nec Corp 音声符号化・復号化装置
US4901307A (en) 1986-10-17 1990-02-13 Qualcomm, Inc. Spread spectrum multiple access communication system using satellite or terrestrial repeaters
JP2707564B2 (ja) * 1987-12-14 1998-01-28 株式会社日立製作所 音声符号化方式
US5103459B1 (en) 1990-06-25 1999-07-06 Qualcomm Inc System and method for generating signal waveforms in a cdma cellular telephone system
DE69232202T2 (de) 1991-06-11 2002-07-25 Qualcomm, Inc. Vocoder mit veraendlicher bitrate
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
TW271524B (es) 1994-08-05 1996-03-01 Qualcomm Inc
US5550543A (en) * 1994-10-14 1996-08-27 Lucent Technologies Inc. Frame erasure or packet loss compensation method
US5699478A (en) * 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
JPH08254993A (ja) * 1995-03-16 1996-10-01 Toshiba Corp 音声合成装置
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
JP3068002B2 (ja) * 1995-09-18 2000-07-24 沖電気工業株式会社 画像符号化装置、画像復号化装置及び画像伝送システム
US5724401A (en) 1996-01-24 1998-03-03 The Penn State Research Foundation Large angle solid state position sensitive x-ray detector system
JP3157116B2 (ja) * 1996-03-29 2001-04-16 三菱電機株式会社 音声符号化伝送システム
JP3134817B2 (ja) * 1997-07-11 2001-02-13 日本電気株式会社 音声符号化復号装置
FR2774827B1 (fr) * 1998-02-06 2000-04-14 France Telecom Procede de decodage d'un flux binaire representatif d'un signal audio
US6456964B2 (en) 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6640209B1 (en) 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
KR100615344B1 (ko) * 1999-04-19 2006-08-25 에이티 앤드 티 코포레이션 패킷 손실 또는 프레임 삭제 은폐를 실행하는 방법 및 장치
JP2001249691A (ja) * 2000-03-06 2001-09-14 Oki Electric Ind Co Ltd 音声符号化装置及び音声復号装置
CN100362568C (zh) 2000-04-24 2008-01-16 高通股份有限公司 用于预测量化有声语音的方法和设备

Also Published As

Publication number Publication date
DE60144259D1 (de) 2011-04-28
KR100805983B1 (ko) 2008-02-25
WO2001082289A2 (en) 2001-11-01
EP2099028B1 (en) 2011-03-16
AU2001257102A1 (en) 2001-11-07
EP1276832A2 (en) 2003-01-22
EP1850326A2 (en) 2007-10-31
HK1055174A1 (en) 2003-12-24
DE60129544T2 (de) 2008-04-17
BR0110252A (pt) 2004-06-29
JP4870313B2 (ja) 2012-02-08
EP1850326A3 (en) 2007-12-05
EP1276832B1 (en) 2007-07-25
ATE502379T1 (de) 2011-04-15
DE60129544D1 (de) 2007-09-06
JP2004501391A (ja) 2004-01-15
ATE368278T1 (de) 2007-08-15
ES2360176T3 (es) 2011-06-01
US6584438B1 (en) 2003-06-24
TW519615B (en) 2003-02-01
WO2001082289A3 (en) 2002-01-10
CN1223989C (zh) 2005-10-19
CN1432175A (zh) 2003-07-23
EP2099028A1 (en) 2009-09-09
KR20020093940A (ko) 2002-12-16

Similar Documents

Publication Publication Date Title
ES2288950T3 (es) Procedimiento de compensacion de borrado de tramas en un codificador de voz de velocidad de transmision variable.
KR100711280B1 (ko) 소스 제어되는 가변 비트율 광대역 음성 부호화 방법 및장치
US8532984B2 (en) Systems, methods, and apparatus for wideband encoding and decoding of active frames
KR100908219B1 (ko) 로버스트한 음성 분류를 위한 방법 및 장치
CN101681627B (zh) 使用音调规则化及非音调规则化译码的信号编码方法及设备
EP1279167B1 (en) Method and apparatus for predictively quantizing voiced speech
JP4166673B2 (ja) 相互使用可能なボコーダ
KR101617508B1 (ko) 노이즈에 강인한 스피치 코딩 모드 분류
EP1214705B1 (en) Method and apparatus for maintaining a target bit rate in a speech coder
ES2269112T3 (es) Codificador de voz multimodal en bucle cerrado de dominio mixto.
ES2257307T3 (es) Metodo y sistema para codificacion de voz en condiciones de borrado de trama.
JPH09503874A (ja) 減少レート、可変レートの音声分析合成を実行する方法及び装置
ES2264420T3 (es) Metodo y aparato para entrelazar metodos de discretizacion de informacion espectral en un codificador de voz.
ES2253226T3 (es) Codigo interpolativo multipulso de tramas de voz.
ES2297578T3 (es) Procedimiento y aparato para submuestrear informacion del espectro de fase.
ES2276690T3 (es) Particion de espectro de frecuencia de una forma de onda prototipo.
HK1114684A (en) Frame erasure compensation method in a variable rate speech coder
HK1055174B (en) Frame erasure compensation method in a variable rate speech coder and apparautus using the same