ES2264420T3 - Metodo y aparato para entrelazar metodos de discretizacion de informacion espectral en un codificador de voz. - Google Patents

Metodo y aparato para entrelazar metodos de discretizacion de informacion espectral en un codificador de voz.

Info

Publication number
ES2264420T3
ES2264420T3 ES00950441T ES00950441T ES2264420T3 ES 2264420 T3 ES2264420 T3 ES 2264420T3 ES 00950441 T ES00950441 T ES 00950441T ES 00950441 T ES00950441 T ES 00950441T ES 2264420 T3 ES2264420 T3 ES 2264420T3
Authority
ES
Spain
Prior art keywords
vector
hat
voice
discretization
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES00950441T
Other languages
English (en)
Inventor
Arasanipalai K. Ananthapadmanabhan
Sharath Manjunath
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of ES2264420T3 publication Critical patent/ES2264420T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)
  • Image Processing (AREA)
  • Processing Of Color Television Signals (AREA)

Abstract

Un codificador de voz (200) que comprende: un filtro predictivo lineal (206) configurado para analizar un marco y generar un vector de codificación de información espectral de línea basado en esto; y un discretizador (210) acoplado al filtro predictivo lineal y configurado para discretizar vectorialmente (504) el vector de información espectral de línea con una primera técnica de discretización vectorial que usa un esquema de discretización vectorial basada en predicciones de media no móvil, en donde el discretizador (210) es además configurado para calcular (510) vectores de codificación de media móvil equivalentes para la primera técnica, actualizar (512) con los vectores de codificación de media móvil equivalentes una memoria de un código cifrado de media móvil de vectores de codificación para un número predefinido de marcos que fueron previamente procesados por el codificador de voz, calcular (502) un vector de discretización objetivo para la segunda técnica basado en la memoria actualizada de código cifrado de media móvil, discretizar vectorialmente (506) el vector de discretización objetivo con una segunda técnica de discretización vectorial para generar un vector de codificación objetivo discretizado, la segunda técnica de discretización vectorial que usa un esquema basado en predicciones de media móvil, actualizar (512) la memoria del código cifrado de media móvil con el vector de codificación objetivo discretizado, y calcular (508) vectores de información espectral de línea discretizados del vector de codificación objetivo discretizado.

Description

Método y aparato para entrelazar métodos de discretización de información espectral en un codificador de voz.
Antecedentes de la invención 1. Campo de la invención
La invención presente pertenece en general al campo del procesamiento de voz, y más específicamente a los métodos y aparatos para la discretización de información espectral de línea en codificadores de voz.
2. Antecedentes
La transmisión de voz mediante técnicas digitales se ha generalizado, particularmente en largas distancias y en aplicaciones radiodifusoras de teléfono digital. Esto, a su vez, ha creado interés en determinar la cantidad mínima de información que puede ser enviada por un canal mientras se mantiene la calidad percibida en la voz reconstruida. Si la voz es transmitida simplemente tomando muestras y digitalizando, entonces una tasa de datos del orden de los sesenta y cuatro kilo bits por segundo (kbps, por sus siglas en inglés) es requerida para lograr la calidad de voz del teléfono analógico convencional. Sin embargo, a través del uso de análisis de voz, seguido por la codificación apropiada, la transmisión, y la resíntesis en el aparato receptor, una reducción significativa en la tasa de datos puede ser
lograda.
Los dispositivos para codificar voz encuentran uso en muchos campos de las telecomunicaciones. Un campo típico son las comunicaciones inalámbricas. El campo de las comunicaciones inalámbricas tiene muchas aplicaciones incluyendo, por ejemplo, los teléfonos inalámbricos, localización, ciclos locales inalámbricos, la telefonía inalámbrica como los sistemas de telefonía móvil y PCS, telefonía móvil mediante protocolo de Internet (IP por sus siglas en inglés), y los sistemas de comunicación de satélite. Una aplicación particularmente importante es la telefonía inalámbrica para suscriptores móviles.
Varias interfaces sobre el aire han sido desarrolladas para sistemas de comunicación inalámbrica incluyendo, por ejemplo, acceso múltiple por división de frecuencia (FDMA por sus siglas en inglés), acceso múltiple por división de tiempo (TDMA por sus siglas en inglés), y el acceso múltiple por división de código (CDMA por sus siglas en inglés). En conexión con eso, diversos estándares domésticos e internacionales han sido establecidas incluyendo, por ejemplo, Servicio Telefónico Móvil Avanzado (AMPS), Sistema Global para Comunicaciones Móviles (GSM por sus siglas en inglés), y Estándar Ínterin 95 (IS-95). Un sistema de comunicación de telefonía inalámbrica típico es un sistema de acceso múltiple por división de código (CDMA por sus siglas en inglés). El estándar IS-95 y sus derivados, IS-95A, ANSI J-STD-008, IS-95B, propusieron los estándares de tercera generación IS-95C e IS-2000, etc. (referenciados colectivamente en lo adelante como IS-95), es promulgado por la Asociación Internacional de Estándares (TIA por sus siglas en inglés) y otras bien conocidas organizaciones de estándares para especificar el uso de una interfaz CDMA sobre el aire para los sistemas de comunicación de telefonía móvil o para los sistemas de comunicación de telefonía PCS. Sistemas de comunicación inalámbricos típicos configurados sustancialmente de acuerdo al uso del estándar IS-95 están descritos en la Patente de USA Nos. 5.103.459 y 4.901.307, los cuales son asignados al apoderado de la presente invención.
Dispositivo que emplean técnicas para codificar voz de la planilla extrayendo parámetros que guardan relación con un modelo de generación de voz humana son llamados codificadores de voz. Un codificador de voz divide la señal de voz entrante en bloques de tiempo, o marcos de análisis. Los codificadores de voz típicamente comprenden un codificador y un decodificador. El codificador analiza el marco entrante de voz para extraer ciertos parámetros relevantes, y luego discretiza los parámetros en una representación binaria, esto es, en un conjunto de bits o un paquete de datos binarios. Los paquetes de datos son transmitidos sobre el canal de comunicación a un receptor y un decodificador. El decodificador procesa los paquetes de datos, los desdiscretiza para producir los parámetros, y resintetiza los marcos de voz usando los parámetros no discretizados.
La función del codificador de voz es comprimir la señal de voz digitalizada en una señal de tasa baja de bits quitando todas las redundancias naturales inherentes a la voz. La compresión digital es lograda representando el marco de voz de entrada con un conjunto de parámetros y utilizando la discretización para representar los parámetros con un conjunto de bits. Si el marco de voz de entrada tiene un número de bits N_{i} y el paquete de datos producido por el codificador de voz tiene un número de bits N_{0}, el factor de compresión que logrado por el codificador de voz es C_{r} = N_{i} | N_{0}. El reto es mantener una alta calidad de voz de la voz decodificada mientras se lograr el factor de compresión deseado. El comportamiento de un codificador de voz depende de (1) cuán bien el modelo de voz, o la combinación del proceso de análisis y el de síntesis descrito arriba, se comporta, y (2) cuán bien es realizado el proceso de discretización de parámetros con la tasa de bits objetivo N_{0} bits por marco. La meta del modelo de voz es entonces captar la esencia de la señal de voz, o la calidad de voz objetivo, con un conjunto pequeño de parámetros para cada marco.
Quizás lo más importante en el diseño de un codificador de voz es la búsqueda de un buen conjunto de parámetros (incluyendo vectores) para describir la señal de voz. Un buen conjunto de parámetros requiere un sistema con ancho de banda bajo para la reconstrucción de una señal de voz perceptiblemente precisa. El tono, el poder de la señal, la cubierta espectral (o formants), la amplitud y los espectros de fase son ejemplos de los parámetros de codificación de voz.
Los codificadores de voz pueden ser implementados como codificadores de dominio de tiempo, los cuales intentan captar la onda de voz de dominio de tiempo empleando procesamiento de alta resolución de tiempo para codificar segmentos pequeños de voz (típicamente submarcos de 5 milisegundos (ms)) a la vez. Para cada submarco, una representación de alta precisión de un espacio de código cifrado es encontrada por medio de varios algoritmos de búsqueda conocidos en la técnica. Alternativamente, los codificadores de voz pueden ser implementados como codificadores de dominio de frecuencia, los que intentan capturar el espectro de voz de corto plazo del marco de voz de entrada con un conjunto de parámetros (análisis) y utilizar un proceso correspondiente de síntesis para recrear la onda de voz a partir de los parámetros espectrales. El discretizador de parámetros conserva los parámetros representándolos con representaciones almacenadas de vectores de codificación de acuerdo a técnicas de discretización conocidas descritas en A. Gersho y R.M. Gray, VectorQuantization and Signal Compression (1992).
Un codificador de voz de dominio de tiempo muy conocido es el codificador Predictivo Linear de Código Excitado (CELP por sus siglas en inglés) descrito en L.B. Rabiner y R.W. Schafer, Digital Processing of Speech Signals 396-453 (1978). En un codificador CELP, las correlaciones de corto plazo, o redundancias, en la señal de voz son eliminadas mediante un análisis de lineal predicción (LP por sus siglas en inglés), el cual encuentra los coeficientes de un filtro del formant de corto plazo. Aplicar el filtro de predicción de corto plazo al marco de voz entrante genera una señal de residuo LP, la cual es luego modelada y discretizada con parámetros de filtro de predicción de largo plazo y un subsiguiente código cifrado estocástico. Así, la codificación CELP divide la tarea de codificar la onda de voz de dominio de tiempo en las tareas separadas de codificar los coeficientes del filtro LP de corto plazo y codificar el residuo LP. La codificación por dominios de tiempo puede ser realizada a una tasa fija (esto es, usando el mismo número de bits, N_{0}, para cada marco) o en una tasa variable (en las cuales las tasas de bits diferentes se utilizan para diferentes tipos de contenidos de marco). Los codificadores de tasa variable intentan usar sólo la cantidad de bits necesaria para codificar los parámetros de codificador a un nivel adecuado para obtener la calidad objetivo. Un codificador típico de tasa variable CELP es descrito en U.S. Patent No. 5.414.796, el cual es asignado al apoderado de la invención presente.
Los codificadores de dominio de tiempo como el codificador CELP típicamente dependen de un número alto de bits, N_{0}, por marco para conservar la exactitud de la onda de voz de dominio de tiempo. Tales codificadores típicamente dan una calidad de voz excelente dado el número de bits, N_{0}, por marco relativamente grande (por ejemplo, 8 kilo bits por segundo o superior). Sin embargo, a tasas de bits bajas (4 kilo bits por segundo e inferior), los codificadores del dominio de tiempo no pueden retener alta calidad y comportamiento robusto debido al número limitado de bits disponibles. A tasas de bits bajas, el espacio limitado de código cifrado recorta la capacidad de pareo de la onda de los codificadores convencionales de dominio de tiempo, los cuales son desarrollados de manera exitosa en aplicaciones comerciales de tasa más alta. Por lo tanto, a pesar de mejoras con el paso del tiempo, muchos sistemas codificadores CELP que operan a tasas de bits bajas padecen perceptiblemente una distorsión significativa típicamente caracterizada como ruido.
Existe actualmente una oleada de interés de investigación y fuerte necesidad comercial para desarrollar un codificador de voz de alta calidad funcionando a tasas en bits medias (esto es, en el rango de 2.4 a 4 kilo bits por segundo y menor). Las áreas de aplicación incluyen telefonía inalámbrica, comunicaciones por satélite, telefonía por Internet, diversas aplicaciones multimedia y de flujo de voz, correo de voz, y otros sistemas de almacenamiento de voz. Las fuerzas motrices son la necesidad de capacidad alta y la demanda de comportamiento robusto bajo situaciones de pérdida de paquete. Varios esfuerzos recientes de estandarización de codificación de voz son otra fuerza motriz directiva que propulsa la investigación y el desarrollo de algoritmos codificadores de voz de tasa baja. Un codificador de voz de tasa baja crea más canales, o usuarios, por ancho de banda de aplicación admisible, y un codificador de voz de tasa baja acoplado con una capa adicional de codificación canales adecuado puede lograr el total de bit presupuesto de las especificaciones del codificador y puede permitir un comportamiento robusto bajo condiciones de error del canal.
Una técnica efectiva para codificar voz eficazmente en tasas en bits bajo es codificación multimodo. Una técnica multimodo típica de codificación es descrita en US-A-2002/0099548, titulada "Codificacion de voz de tasa variable", archivada el 21 de diciembre de 1998, asignada al apoderado de la invención presente. Los codificadores multimodo convencionales aplican modos diferentes, o algoritmos de codificación-decodificación, a tipos diferentes de marcos de voz de entrada. Cada modo, o procesamiento de codificación-decodificación, está hecho a la medida para representar de manera óptima un cierto tipo de segmento de voz, como, por ejemplo, de voz hablada, de voz no hablada, voz de transición (por ejemplo, entre la hablada y la no hablada), y el ruido de fondo (no voz) en la manera más eficiente. Un mecanismo externo de decisión de modo de ciclo abierto examina el marco de voz de entrada y toma una decisión relativa a cuál modo aplicar al marco. La decisión de modo de ciclo abierto es típicamente realizada extrayendo un número de parámetros del marco de entrada, evaluando los parámetros en lo que se refiere a ciertas características temporales y espectrales, y basando una decisión de modo según la evaluación.
El artículo "Classified nonlinear predictive vector quantization of speech spectral parameters" (Loo J H Y et al, ICASSP 1996) revela intercalación periódica de dos métodos de discretización.
En muchos codificadores convencionales de voz, la información de la línea espectral como los pares de línea espectral o los cosenos de la línea espectral son transmitidos sin sacar provecho de la naturaleza del estado estable de la voz no hablada mediante la codificación de los marcos de voz hablada sin reducir la tasa de codificación suficientemente. Por lo tanto, el ancho de banda valioso es desaprovechado. En otros codificadores convencionales de voz, los codificadores multimodo de voz, o los codificadores de voz de baja de tasa de bits, la naturaleza del estado estable de la voz hablada es aprovechada para cada marco. Consecuentemente, los marcos de estado no estable degradan, y la calidad de voz sufre. Sería ventajoso proporcionar un método adaptable de codificación que reaccionara a la naturaleza del contenido de la voz de cada marco. Además, como la señal de voz es generalmente de estado no estable, o no estacionario, la eficiencia de discretización de los parámetros de información espectral de línea (LSI por sus siglas en inglés) usados en la codificación de voz podría ser mejorada utilizando un esquema en el cual los parámetros LSI de cada marco de voz son codificados selectivamente ya sea utilizando discretización vectorial (VQ por sus siglas en inglés) basada en predicciones de la media móvil (MA por sus siglas en inglés) o utilizando otros métodos estándar VQ. Tal esquema sacaría provecho adecuadamente de las ventajas de cualquiera de los dos métodos VQ citados anteriormente. Por lo tanto, sería deseable proporcionar un codificador de voz que interpusiera los dos métodos VQ mediante un mezclado apropiado de los dos esquemas en las fronteras de transición de un método al otro. Es así que, hay una necesidad de un codificador de voz que utilice múltiples métodos de discretización vectorial para adaptarse a los cambios entre marcos periódicos y marcos no periódicos.
Resumen de la invención
La invención presente está dirigida a un codificador de voz que utilice múltiples métodos de discretización vectorial para que se adapte a cambios entre marcos periódicos y marcos no periódicos. Consecuentemente, en un aspecto de la invención, un codificador de voz incluye ventajosamente un filtro lineal predictivo configurado para analizar un marco y generar un vector de codificación de información espectral de línea basado en este; y un discretizador acoplado al filtro predictivo lineal y configurado para discretizar vectorialmente el vector de información espectral de línea con una primera técnica de discretización vectorial que usa un esquema de discretización vectorial basado en predicciones de media no móvil, en donde el discretizador es configurado además para calcular vectores de codificación de media móvil equivalentes para la primera técnica, actualizar con los vectores de codificación de media móvil equivalentes una memoria de un código de cifrado de media móvil de vectores de codificación para un número predefinido de marcos que fueron previamente procesados por el codificador de voz, calcular un vector de discretización objetivo para la segunda técnica basado en la memoria actualizada de código cifrado de media móvil, discretizar vectorialmente el vector de discretización objetivo con una segunda técnica de discretización vectorial para generar un vector de codificación objetivo discretizado, la segunda técnica de discretización vectorial usando un esquema basado en predicciones de media móvil, actualiza la memoria del código cifrado de media móvil con el vector de codificación objetivo discretizado, y calcula los vectores de información espectral de línea discretizada del vector de codificación objetivo discretizado.
En otro aspecto de la invención, un método de discretizar vectorialmente un vector de información espectral de línea de un marco, usando las técnicas de discretización de discretización de vector primera y segunda, la primera técnica usando un esquema de discretización vectorial basado en predicciones de media no móvil, la segunda técnica usando un esquema de discretización vectorial basada en predicciones de media móvil, ventajosamente incluyen los pasos de discretizar vectorialmente el vector de información espectral de línea con la primera técnica de discretización vectorial; calculando los vectores de codificación de media móvil equivalentes para la primera técnica; actualizando con los vectores de codificación de media móvil equivalentes una memoria de un código cifrado de media móvil de vectores de codificación para un número predefinido de marcos que fueron previamente procesados por el codificador de voz; calculando un vector de discretización objetivo para la segunda técnica basado en la memoria actualizada de código cifrado de media móvil; discretizando vectorialmente el vector de discretización objetivo con la segunda técnica de discretización vectorial para generar un vector de codificación objetivo discretizado; actualizando la memoria del código cifrado de media móvil con el vector de codificación objetivo discretizado; y deduciendo vectores de información espectral de línea discretizados del vector de codificación objetivo discretizado.
En otro aspecto de la invención, un codificador de voz ventajosamente incluye medios para el discretizar vectorialmente un vector de información espectral de línea de un marco con una primera técnica de discretización vectorial que usa un esquema de discretización vectorial basada en predicciones de media no móvil; medios para calcular vectores de codificación de media móvil equivalentes para la primera técnica; medios para actualizar con los vectores de codificación de media móvil equivalentes una memoria de un código cifrado de media móvil de vectores de codificación para un número predefinido de marcos que fueron previamente procesados por el codificador de voz; medios para calcular un vector de discretización objetivo para una segunda técnica que usa un esquema de discretización vectorial basada en predicciones de media móvil basada en la memoria actualizada de código cifrado de media móvil; medios para el discretizar vectorialmente el vector de discretización objetivo con la segunda técnica de discretización vectorial para generar un vector de codificación objetivo discretizado; medios para actualizar la memoria del código cifrado de media móvil con el vector de codificación objetivo discretizado; y medios para deducir vectores de información espectral de línea discretizados del vector de codificación objetivo discretizado.
Breve descripción de las figuras
La figura 1 es un diagrama de bloques de un sistema telefónico inalámbrico.
La figura 2 es un diagrama de bloques de un canal de comunicación terminado en cada extremo por codificadores de voz.
La figura 3 es un diagrama de bloques de un codificador.
La figura 4 es un diagrama de bloques de un decodificador.
La figura 5 es un diagrama de flujo que ilustra un proceso de decisión de codificación de voz.
La figura 6A es una gráfica de la amplitud de la señal de voz versus tiempo, y la figura 6B es una gráfica de amplitud de residuo de predicción lineal (LP por sus siglas en inglés) versus tiempo.
La figura 7 es un diagrama de flujo que ilustra los pasos de un método realizados por un codificador de voz para intercalar dos métodos de discretización vectorial (VQ por sus siglas en inglés) de información espectral de línea (LSI por sus siglas en inglés).
Descripción detallada de las realizaciones preferidas
Las realizaciones típicas descritas aquí radican en un sistema de comunicación de telefonía inalámbrica configurado para utilizar una interfaz sobre el aire CDMA. No obstante, sería comprendido por esos expertos en la técnica que las características de un método de submuestreo y de la realización del aparato de la invención actual pueden residir en cualquiera de los sistemas de comunicación que emplean una gran variedad de tecnologías conocidas por esos expertos en la técnica.
Como es ilustrado en la figura 1, un sistema telefónico inalámbrico CDMA generalmente incluye una pluralidad de unidades móviles suscritas 10, una pluralidad de estaciones base 12, controladores de estación base (BSCs por sus siglas en inglés) 14, y un centro conmutativo móvil (MSC por sus siglas en inglés) 16. El MSC 16 es configurado para interconectarse con una red telefónica conmutativa pública convencional (PSTN por sus siglas en inglés) 18. El MSC 16 es también configurado para interconectar con los BSCs 14. Los BSCs 14 están acoplados a las estaciones base 12 a través de líneas de transmisión. Las líneas de transmisión pueden ser configuradas para soportar cualquiera de varias interfaces conocidas incluyendo, por ejemplo, E1/T1, ATM, IP, PPP, Frame Relay, HDSL, ADSL, o xDSL. Es entendido que pueden ser más de dos BSCs 14 en el sistema. Cada estación base 12 ventajosamente incluye al menos un sector (no mostrado), cada sector comprende una antena omnidireccional o una antena apuntada en una dirección específica radialmente fuera de la estación base 12. Alternativamente, cada sector puede comprender dos antenas para una recepción diversa. Cada estación base 12 ventajosamente puede estar diseñada para dar soporte a una pluralidad de asignaciones de frecuencias. La intersección de un sector y una asignación de frecuencias pueden ser referidas como un canal CDMA. Las estaciones base 12 también pueden ser conocidas como subsistemas transmisores-receptores de estaciones base (BTSs) 12. Alternativamente, "estación base" puede ser usada en la industria para referirse colectivamente a un BSC 14 y a uno o más BTSs 12. Los BTSs 12 también pueden ser denotados como "sitios celulares" 12. Alternativamente, los sectores individuales de un BTS 12 dado pueden ser referidos como sitios celulares. Las unidades móviles suscritas 10 son típicamente teléfonos móviles o de PCS 10. El sistema es ventajosamente configurado para el uso en conformidad con el estándar IS-95.
Durante la operación típica del sistema telefónico móvil, las estaciones base 12 reciben conjuntos de señales enlace inversas de conjuntos de unidades móviles 10. Las unidades móviles 10 conducen llamadas telefónicas u otras comunicaciones. Cada señal enlace inversa recibida por una estación base 12 dada es procesada dentro de esa estación base 12. Los datos resultantes son reenviados a los BSCs 14. Los BSCs 14 proveen ubicación de la fuente de llamada y funcionalidad de administración de movilidad incluyendo la orquestación de pases suaves entre estaciones base 12. Los BSCs 14 también enrutan los datos recibidos del MSC 16, que provee servicios adicionales de ruteo para la interfaz del PSTN 18. De modo semejante, el PSTN 18 interconecta con el MSC 16, y el MSC 16 interconecta con los BSCs 14, el cual en cambio controla estaciones base 12 para transmitir conjuntos de señales de enlace reenviadas a conjuntos de unidades móviles 10.
En la figura 2 un primer codificador 100 recibe muestras de voz digitalizadas s(n) y codifican las muestras s(n) para la transmisión en un medio de transmisión 102, o en un canal de comunicación 102, a un primer decodificador 104. El decodificador 104 decodifica las muestras de voz codificadas y sintetiza una señal de voz de salida S_{SYNTH}(n). Para la transmisión en la dirección opuesta, un segundo codificador 106 codifica muestras de voz digitalizada s(n), las cuales son transmitidas en un canal de comunicación 108. Un segundo decodificador 110 recibe y decodifica las muestras de voz codificadas, generando una señal sintetizada de voz de salida S_{SYNTH}(n).
Las muestras de voz s(n) representan señales de voz que han sido digitalizadas y discretizadas de acuerdo a cualquiera de varios métodos conocidos en la técnica incluyendo, por ejemplo, modulación de código por pulso (PCM por sus siglas en inglés), la \mu-ley de compresión-expansión, o A-ley. Como conocidas en la técnica, las muestras de voz s(n) son organizadas en marcos de datos de entrada en donde cada marco comprende un número predeterminado de muestras de voz digitalizada s(n). En una realización típica, una tasa de muestreo de 8 Khz. es empleada, con marcos cada 20 ms para un total de 160 muestras. En las realizaciones descritas abajo, la tasa de transmisión de datos ventajosamente puede ser variada en una base marco a marco de 13.2 kbps (tasa máxima) a 6.2 kbps (tasa media) a 2.6 kbps (un cuarto de tasa) a 1 kbps (un octavo de tasa). Variar la tasa de transmisión de datos es ventajoso porque más bajas tasa de bit pueden ser selectivamente utilizadas para marcos que contienen relativamente menos información de voz. Como entendido por esos expertos en la técnica, otras tasas de muestreo, tamaños del marco, y las tasas de transmisión de datos pueden ser usadas.
El primer codificador 100 y el segundo decodificador 110 conjuntamente comprenden un primer codificador de voz, o un codificador-decodificador de voz. El codificador de voz podría ser usado en cualquier dispositivo de comunicación para transmitir señales de voz, incluyendo, por ejemplo, las unidades suscritas, BTSs, o BSCs descritos arriba con referencia a la figura 1. De modo semejante, el segundo codificador 106 y el primer decodificador 104 conjuntamente comprenden un segundo codificador de voz. Es entendido por esos expertos en la técnica que los codificadores de voz pueden ser implementados con un procesador de señales digitales (PSD por sus siglas en inglés), un circuito integrado para aplicaciones específicas (ASIC por sus siglas en inglés), lógica de compuerta discreta, soporte lógico inalterable, o cualquier módulo programable convencional del software y un microprocesador. El módulo del software podría radicar en memoria RAM, en memoria de destello, registros, o cualquier otra forma de medio de almacenamiento escribible conocido en la técnica. Alternativamente, cualquier procesador convencional, controlador, o máquina de estado podría ser substituido por el microprocesador. Los ASICs típicos diseñados específicamente para la codificación de voz están descritos en U.S. Patent No. 5.727.123, asignado al apoderado de la invención presente, y US-A-5 7845 32, archivado el 16 de febrero de 1994, asignado al apoderado de la invención presente.
En la figura 3 un codificador 200 que puede ser usados en un codificador de voz incluye un módulo de decisión de modo 202, un módulo de estimación de tono 204, un módulo de análisis LP 206, un filtro de análisis LP 208, un módulo de discretización LP 210, y un módulo de discretización de residuo 212. Los marcos de voz de entrada s(n) les son provistos al módulo de decisión de modo 202, al módulo de estimación de tono 204, al módulo de análisis LP 206, y al filtro de análisis LP 208. El módulo de decisión de modo 202 produce un índice de modo I_{m} y un modo M de basado en la periodicidad, energía, relación señal/ruido (SNR por sus siglas en inglés), o tasa de cruce cero, entre otras características, de cada marco de voz de entrada s(n). Varios métodos para clasificar marcos de voz según la periodicidad son descritos en U.S. Patent No. 5.911.128, la cual está asignada al apoderado de la invención presente. Tales métodos son también incorporados en los Estándares Interinos de la Asociación de la Industria de las Telecomunicaciones TIA/EIA IS-127 y TIA/EIA IS-733. Un esquema típico de decisión de modo está también descrito en dicho US-A-2002/0099548.
El módulo de estimación de tono 204 produce un índice de tono I_{p} y un valor de retraso P_{0} basado en cada marco de voz de entrada s(n). El módulo de análisis LP 206 realiza análisis predictivo lineal en cada marco de voz de entrada s(n) para generar un parámetro LP \alpha. El parámetro LP \alpha le es provisto al módulo de discretización LP 210. El módulo de discretización LP 210 también recibe el modo M, por consiguiente realiza el proceso de discretización en una manera dependiente del modo. El módulo de discretización LP 210 produce un índice LP I_{LP} y un parámetro discretizado LP \hat{\alpha}. El filtro de análisis LP 208 recibe el parámetro LP discretizado \hat{\alpha} además del marco de voz de entrada s(n). El filtro de análisis LP 208 genera una señal de residuo LP R[n], lo cual representa el error entre los marcos de voz de entrada s(n) y la voz reconstruida basado en los parámetros discretizados estimados linealmente \hat{\alpha}. El residuo LP R[n], el modo M, y el parámetro LP discretizado \hat{\alpha} le son provistos al módulo de discretización de residuo 212. Basado en estos valores, el módulo de discretización de residuo 212 produce un índice de residuo I_{R} y una señal de residuo discretizada \hat{R}[n].
En la figura 4 un decodificador 300 que puede ser usado en un codificador de voz incluye un módulo de decodificación de parámetro LP 302, un módulo de decodificación de residuo 304, un módulo de decodificación de modo 306, y un filtro de síntesis LP 308. El módulo de decodificación de modo 306 recibe y decodifica un índice de modo I_{M}, generando de allí un modo M. El módulo de decodificación de parámetro LP 302 recibe el modo M y un índice LP I_{LP}. El módulo de decodificación de parámetro LP 302 decodifica los valores recibidos para producir un parámetro discretizado LP \hat{\alpha}. El módulo de decodificación de residuo 304 recibe un índice de residuo I_{R}, un índice de tono I_{P}, y el índice de modo I_{M}. El módulo de decodificación de residuo 304 decodifica los valores recibidos para generar una señal discretizada de residuo \hat{R}[n]. La señal discretizada del residuo \hat{R}[n] y el parámetro discretizado LP \hat{\alpha} le son provisto al filtro de síntesis LP 308, el cual sintetiza una señal decodificada de voz de salida \hat{s}[n] de allí.
La operación y la implementación de los varios módulos del codificador 200 de la figura 3 y del decodificador 300 de la figura 4 son conocidas en la técnica y descritos en la mencionada anteriormente U.S. Patent No. 5.414.796 y L.B. Rabiner y R.W. Schafer, Digital Processing of Speech Signals 396-453 (1978).
Como es ilustrado en el diagrama de flujo de la figura 5, un codificador de voz de acuerdo a una realización sigue un conjunto de pasos en el procesamiento de muestras de voz a ser transmitidas. En el paso 400 que el codificador de voz recibe muestras digitales de señales de voz en marcos sucesivos. Al recibir un marco dado, el codificador de voz procede al paso 402. En el paso 402 el codificador de voz detecta la energía del marco. La energía es una medida de la actividad de voz del marco. La detección de voz es realizada sumando los cuadrados de las amplitudes de las muestras digitalizadas de voz y comparando la energía resultante con un valor umbral. En una realización el valor umbral se adapta basado en el nivel cambiante de ruido de fondo. Un detector típico de actividad de voz de umbral variable como es descrito en la mencionada anteriormente U.S. Patent No. 5.414.796. Algunos sonidos de voz no hablada pueden ser muestras de energía sumamente baja que pueden ser codificadas equivocadamente como ruido de fondo. Para impedir que esto de ocurrir, la inclinación espectral de muestras de energía baja puede usarse para distinguir la voz no hablada del ruido de fondo, como es descrita en la mencionada anteriormente U.S. Patent No. 5.414.796.
Después de detectar la energía del marco, el codificador de voz procede al paso 404. En el paso 404 el codificador de voz determina si la energía del marco detectada es suficiente para clasificar el marco como que contiene información de voz. Si la energía del marco detectada es menor que un nivel umbral predefinido, entonces el codificador de voz procede al paso 406. En el paso 406 el codificador de voz codifica el marco como de ruido de fondo (esto es, no voz, o silencio). En una realización el marco de ruido de fondo es codificado a 1/8 de la tasa, o 1 kbps. Si en el paso 404 la energía del marco detectada alcanza o excede el nivel predefinido del umbral, el marco es clasificado como de voz y el codificador de voz procede al paso 408.
En el paso 408 que el codificador de voz determina si el marco es de voz no hablada, esto es, el codificador de voz examina la periodicidad del marco. Varios métodos conocidos de determinación de periodicidad incluyen, por ejemplo, el uso de cruces cero y el uso de funciones de autocorrelación normalizada (NACFs por sus siglas en inglés). En particular, el uso de cruces cero y NACFs para detectar periodicidad es descrito en la mencionada anteriormente U.S. Patent No. 5.911.128 y US-A-2002/0099548. Además, los métodos citados anteriormente usados para hacer la distinción de la voz hablada de la voz no hablada son incorporados en los Estándares Interinos de la Asociación de la Industria de las Telecomunicaciones TIA/EIA IS-127 y TIA/EIA IS-733. Si se determina que el marco es de voz no hablada en el paso 408, entonces el codificador de voz procede al paso 410. En el paso 410 el codificador de voz codifica el marco como voz no hablada. En una realización los marcos de voz no hablada están codificados a un cuarto de la tasa, o 2.6 kbps. Si en el paso 408 no se determina que el marco es de voz no hablada, entonces el codificador de voz procede al paso 412.
En el paso 412 el codificador de voz determina si el marco es de voz de transición, usando métodos de detección de periodicidad que son conocidos en la técnica, como son descrito en, por ejemplo, la mencionada anteriormente U.S. Patent No. 5.911.128. Si se determina que el marco es voz de transición, entonces el codificador de voz procede al paso 414. En el paso 414 el marco es codificado como de voz de transición (esto es, la transición de la voz no hablada a la voz hablada). En una realización el marco de voz de transición es codificado de acuerdo a un método de codificación de interpolación multipulso descrito en US-B-6260017, titulada "Codificación por interpolacion multipulso de marcos de voz de transición", archivada el 7 de mayo de 1999, asignada al apoderado de la invención presente. En otra realización el marco de voz de transición es codificado a tasa completa, o 13.2 kbps.
Si en el paso 412 el codificador de voz determina que el marco no es de voz de transición, el codificador de voz pasa al paso 416. En el paso 416 el codificador de voz codifica el marco como de voz de transición. En una realización los marcos de voz hablada pueden ser codificados a media tasa, o 6.2 kbps. Es posible también codificar los marcos de voz hablada a tasa completa, o 13.2 kbps (o tasa completa, 8 kbps, en un codificador 8k CELP). Esos expertos en la técnica apreciarían, sin embargo, que codificar marco de voz a media tasa permite al codificador ahorrar ancho de banda valioso sacando provecho de la naturaleza de estado estable de los marcos hablados. Además, a pesar de la tasa usada para codificar la voz hablada, la voz hablada es ventajosamente codificada mediante el uso de la información de los marcos anteriores, y por lo tanto se dice que ha sido codificada de manera predictiva.
Esos expertos apreciarían que tanto la señal de voz como el residuo LP correspondiente pueden ser codificados siguiendo los pasos mostrados en la figura 5. Las características de onda del ruido, de la voz no hablada, de la voz de transición, y de la voz hablada pueden ser vistas como una función en el tiempo en la gráfica de la figura 6A. Las características de onda del ruido, del residuo no hablado, del residuo de transición, y del residuo hablado LP pueden ser visto como una función en el tiempo en la gráfica de la figura 6B.
En una realización un codificador de voz ejecuta los pasos de algoritmo mostrados en el diagrama de flujo de la figura 7 para intercalar dos métodos de discretización vectorial (VQ por sus siglas en inglés) de la información espectral de línea (LSI por sus siglas en inglés). El codificador de voz ventajosamente computa estimaciones del vector de código cifrado de media móvil (MA pos sus siglas en inglés) equivalente para una VQ LSI basada en una predicción no MA, que permite al codificador de voz intercalar dos métodos de integración VQ LSI. En un esquema basado en predicciones MA, un MA es calculado para un número previamente tratado de marcos, P, el MA que va siendo calculado mediante la multiplicación de los pesos de los parámetros por las entradas vectoriales respectivas de código cifrado, como es descrito debajo. El MA es sustraído del vector de entrada de los parámetros LSI para generar un vector de discretización objetivo, también como es descrito más abajo. Sería fácilmente apreciado por esos expertos en la técnica que el método VQ basado en una predicción no MA puede ser cualquier método conocido de VQ que no emplee un el esquema VQ basado en predicciones MA.
Los parámetros LSI son típicamente discretizados, ya sea mediante el uso VQ con predicción MA intermarco o mediante el uso de cualquier otro método estándar VQ basado en predicción no MA como, por ejemplo, VQ dividido, VQ multietapa (MSVQ por sus siglas en inglés), VQ predictivo intercambiado (SPVQ por sus siglas en inglés), o una combinación de una cierta cantidad o todos estos. En la realización descrita con referencia a la figura 7, un esquema es utilizado para mezclar cualquiera de los métodos anteriormente citados de VQ con un método VQ basado en predicciones MA. Esto es deseable porque mientras un método VQ basado en predicciones MA se usa obtener el mejor provecho en marcos de voz que son de naturaleza de estado estable, o estacionarios, (la cual exhibe señales como esas mostradas para marcos de voz estacionarios en las figuras 6A-B), un método VQ basado en predicción no MA es usado para obtener el mejor provecho en marcos de voz que son de naturaleza de estado no estable, no estacionarios, (la cual exhibe señales como esas mostradas para marcos de voz no hablada y marcos de transición en las figuras 6A-B).
En esquemas VQ basados en predicciones no MA para discretizar los parámetros LSI de N dimensiones, el vector de entrada para el marco M-ésimo, L_{M} \equiv {L^{n}_{M}; n = 0,1, .., N - 1} es usado directamente como el objetivo para la discretización y es discretizado al vector \hat{L}_{M} \equiv {\hat{L}^{n}_{M}; n = 0,1, .., N - 1} usando cualquiera de las técnicas VQ estándar anteriormente citadas.
En el esquema típico de predicción de intermarco MA, el objetivo para la discretización es calculado como
1
donde {\hat{U}^{n}_{M - 1}, \hat{U}^{n}_{M - 2}, .., \hat{U}^{n}_{M - P}; n = 0,1, .., N - 1} son las entradas del código cifrado correspondiente a los parámetros LSI de los P marcos procesados inmediatamente antes del marco P, y {\alpha_{1}^{n}, \alpha_{2}^{n}, .., \alpha^{n}_{P}; n = 0,1, .., N - 1} son los pesos respectivos de manera que {\alpha_{1}^{n} + \alpha_{2}^{n} +, .., \alpha^{n}_{P} = 1; n = 0,1, .., N - 1}. El objetivo de discretización U_{M} es entonces discretizado usando cualquiera de las técnicas VQ anteriormente citadas. El vector discretizado LSI es calculado como sigue:
2
El esquema de predicción MA requiere la presencia de los valores pasados de las entradas de código cifrado, {\hat{U}_{M - 1}, \hat{U}_{M - 2}, ..., \hat{U}_{M - P}}, de los pasados P marcos. Mientras las entradas de código cifrado están automáticamente disponibles para esos marcos (entre los pasados P marcos) que fueron ellos mismos discretizados utilizando el esquema MA, el resto de los pasados P marcos pudieron ser discretizado usando una método VQ basado en predicción no MA, y las entradas correspondientes del código cifrado (\hat{U}) no están disponibles directamente para estos marcos. Esto dificulta mezclar, o intercalar, los dos métodos VQ citados anteriormente.
En la realización descrita con referencia a la figura 7, la siguiente ecuación se usa ventajosamente para calcular estimaciones, \tilde{\hat{U}}_{M - K}, de la entrada de código cifrado \hat{U}_{M - K} en los casos de K \in {1, 2, ..., P} la entrada de código cifrado \hat{U}_{M - K} no está explícitamente disponible:
3
donde {\beta_{1}^{n}, \beta_{2}^{n}, .., \beta_{P}^{n}; n = 0,1, .., N - 1} son los pesos respectivos de manera que {\beta_{1}^{n} + \beta_{2}^{n} +, .., + \beta_{P}^{n} = 1; n = 0,1, .., N - 1}, y con la condición inicial de {\tilde{\hat{U}}_{-1}, \tilde{\hat{U}}_{-2}, ..., \tilde{\hat{U}}_{-P}}. Una condición inicial típica es {\tilde{\hat{U}}_{-1} = \tilde{\hat{U}}_{-2} =, ..., = \tilde{\hat{U}}_{-P} = L^{B}}, donde L^{B} son los valores prejuiciados de los parámetros LSI. Lo que sigue es un conjunto típico de pesos:
4
En el paso 500 del diagrama de flujo de la figura 7, el codificador de voz determina si se debe discretizar el vector L_{M} de entrada LSI con una técnica VQ basada en predicciones MA. Esta decisión se basa ventajosamente en el contenido de la voz del marco. Por ejemplo, los parámetros LSI para marcos hablados estacionarios son discretizados para obtener mejor provecho para con un método VQ basado en predicciones MA, mientras que los parámetros LSI para marcos no hablados y los marcos de transición son discretizados para obtener mejor provecho con un método VQ basado en predicción no MA. Si el codificador de voz decide discretizar el vector de entrada LSI con una técnica VQ basada en predicciones MA, entonces el codificador de voz procede al paso 502. Si, por otra parte, el codificador de voz decide no discretizar el vector L_{M} de entrada LSI con una técnica VQ basada en predicciones MA, entonces el codificador de voz procede al paso 504.
En el paso 502 el codificador de voz calcula el objetivo U_{M} para la discretización de acuerdo a la ecuación (1) arriba. El codificador de voz luego procede al paso 506. En el paso 506 el codificador de voz discretiza el objetivo U_{M} de acuerdo a cualquier de las diversas técnicas generales VQ que son bien conocidos en la técnica. El codificador de voz luego procede al paso 508. En el paso 508 el codificador de voz calcula el vector \hat{L}_{M} de los parámetros LSI discretizados a partir del objetivo discretizado \hat{U}_{M} de acuerdo a la ecuación (2) arriba.
En el paso 504 el codificador de voz discretiza el objetivo L_{M} de acuerdo a cualquiera de las diversas técnicas VQ basadas en predicción no MA que son bien conocidas en la técnica. (Como esos expertos en la técnica entenderían, el vector objetivo para la discretización en una técnica VQ basada en predicción no MA es L_{M}, y no U_{M}.) El codificador de voz luego procede al paso 510. En el paso 510 el codificador de voz calcula los vectores de codificación \tilde{\hat{U}}_{M} equivalentes MA a partir del vector \hat{L}_{M} de los parámetros LSI discretizados de acuerdo a la ecuación (3) arriba.
En el paso 512 el codificador de voz utiliza el objetivo \hat{U}_{M} discretizado obtenido en el paso 506 y los vectores de codificación \tilde{\hat{U}}_{M} equivalentes MA obtenidos en el paso 510 para actualizar la memoria de los vectores de código cifrado de MA de los pasados P marcos. La memoria actualizada de los vectores de código cifrado de MA de los pasados P marcos es luego usada en el paso 502 para calcular el objetivo U_{M} para la discretización para el vector L_{M + 1} LSI de entrada para el siguiente marco.
Entonces, un aparato y método nuevo para intercalar métodos de discretización de información espectral de línea en un codificador de voz ha sido descrito. Esos expertos en la técnica entenderían que los varios bloques lógicos ilustrativos y pasos de algoritmo descritos con respecto a las realizaciones reveladas en este punto pueden ser implementados o realizados con un procesador de señales digitales (DSP por sus siglas en inglés), un circuito integrado para aplicaciones específicas (ASIC por sus siglas en inglés), circuitos de compuerta lógica o de transistores, componentes discretos de hardware como, por ejemplo, los registros y FIFO, un procesador ejecutando un conjunto de instrucciones de soporte lógico inalterable, o cualquier módulo convencional de software programable y un procesador. El procesador ventajosamente puede ser un microprocesador, pero en la alternativa, el procesador puede ser cualquier procesador convencional, controlador, microcontrolador, o cualquier máquina de estados. El módulo del software podría radicar en memoria RAM, memoria de destello, registros, o cualquier otra forma de medio de almacenamiento escribible conocido en la técnica. Esos expertos apreciarían además que los datos, las instrucciones, los comandos, la información, las señales, los bits, los símbolos, y los chips que puede ser referenciados a todo lo largo de la descripción citada anteriormente están ventajosamente representadas por voltajes, corrientes, ondas electromagnéticas, campos magnéticos o partículas, partículas o campos ópticos, o cualquier combinación de estos.
Realizaciones preferidas de la invención presente han sido así mostradas y descritas. Sería aparente a un no experto en la técnica, sin embargo, que numerosas alteraciones pueden ser hechas a las realizaciones reveladas hasta este punto sin apartarse del alcance de la invención. Por consiguiente, la invención presente no está limitada excepto de acuerdo a las siguientes reivindicaciones.

Claims (20)

1. Un codificador de voz (200) que comprende:
un filtro predictivo lineal (206) configurado para analizar un marco y generar un vector de codificación de información espectral de línea basado en esto; y
un discretizador (210) acoplado al filtro predictivo lineal y configurado para discretizar vectorialmente (504) el vector de información espectral de línea con una primera técnica de discretización vectorial que usa un esquema de discretización vectorial basada en predicciones de media no móvil,
en donde el discretizador (210) es además configurado para calcular (510) vectores de codificación de media móvil equivalentes para la primera técnica, actualizar (512) con los vectores de codificación de media móvil equivalentes una memoria de un código cifrado de media móvil de vectores de codificación para un número predefinido de marcos que fueron previamente procesados por el codificador de voz, calcular (502) un vector de discretización objetivo para la segunda técnica basado en la memoria actualizada de código cifrado de media móvil, discretizar vectorialmente (506) el vector de discretización objetivo con una segunda técnica de discretización vectorial para generar un vector de codificación objetivo discretizado, la segunda técnica de discretización vectorial que usa un esquema basado en predicciones de media móvil, actualizar (512) la memoria del código cifrado de media móvil con el vector de codificación objetivo discretizado, y calcular (508) vectores de información espectral de línea discretizados del vector de codificación objetivo discretizado.
2. El codificador de voz de la reivindicación 1, en donde el marco es un marco de voz.
3. El codificador de voz de la reivindicación 1, en donde el marco es un marco de residuo de predicción lineal.
4. El codificador de voz de la reivindicación 1, en donde el vector de discretización objetivo es calculado de acuerdo a la siguiente ecuación:
5
donde {\hat{U}^{n}_{M - 1}, \hat{U}^{n}_{M - 2}, .., \hat{U}^{n}_{M - P}; n = 0,1, .., N - 1} son entradas del código cifrado correspondiente a los parámetros de información espectral de línea del número predefinido de marcos procesados inmediatamente antes del marco, y {\alpha_{1}^{n}, \alpha_{2}^{n}, .., \alpha^{n}_{P}; n = 0,1, .., N - 1} son los pesos respectivos de los parámetros de manera que {\alpha_{1}^{n} + \alpha_{2}^{n} +, .., \alpha^{n}_{P} = 1; n = 0,1, .., N - 1}.
5. El codificador de voz de la reivindicación 1, en donde los vectores de información espectral de línea discretizados son calculados de acuerdo a la siguiente ecuación:
\vskip1.000000\baselineskip
6
\vskip1.000000\baselineskip
donde {\hat{U}^{n}_{M - 1}, \hat{U}^{n}_{M - 2}, .., \hat{U}^{n}_{M - P}; n = 0,1, .., N - 1} son entradas del código cifrado correspondiente a los parámetros de información espectral de línea del número predefinido de marcos procesados inmediatamente antes del marco, y {\alpha_{1}^{n}, \alpha_{2}^{n}, .., \alpha^{n}_{P}; n = 0,1, .., N - 1} son los pesos respectivos de los parámetros de manera que {\alpha_{1}^{n} + \alpha_{2}^{n} +, .., \alpha^{n}_{P} = 1; n = 0,1, .., N - 1}.
6. El codificador de voz de la reivindicación 1, donde los vectores de codificación de media móvil equivalentes son calculados de acuerdo a la siguiente ecuación:
\vskip1.000000\baselineskip
7
\vskip1.000000\baselineskip
donde {\beta_{1}^{n}, \beta_{2}^{n}, .., \beta_{P}^{n}; n = 0,1, .., N - 1} son los respectivos pesos de los elementos del vector de codificación de media móvil equivalentes tal que {\beta_{1}^{n} + \beta_{2}^{n} +, .., + \beta_{P}^{n} = 1; n = 0,1, .., N - 1}, y donde es establecida una condición inicial
{\tilde{\hat{U}}_{-1}, \tilde{\hat{U}}_{-2}, ..., \tilde{\hat{U}}_{-P}}.
7. El codificador de voz de la reivindicación 1, en donde el codificador de voz reside en una unidad suscripta de un sistema inalámbrico de comunicación.
8. Un método de discretizado vectorial de un vector de información espectral de línea de un marco, usando la primera y la segunda técnica de discretización vectorial, la primera técnica (504) usando un esquema de discretización vectorial basada en predicciones de media no móvil, la segunda técnica (506) usando un esquema de discretización vectorial basada en predicciones de media móvil, el método que comprende los pasos de:
discretizar vectorialmente (504) el vector de información espectral de línea con la primera técnica de discretización vectorial;
calcular (510) los vectores de codificación de media móvil equivalentes para la primera técnica;
actualizar (512) con los vectores de codificación de media móvil equivalentes la memoria de un código cifrado de media móvil de vectores de codificación para un número predefinido de marcos que fueron previamente procesados por el codificador de voz;
calcular (502) un vector de discretización objetivo para la segunda técnica basada en la memoria actualizada de código cifrado de media móvil;
discretizar vectorialmente (506) el vector de discretización objetivo con la segunda técnica de discretización vectorial para generar un vector de codificación objetivo discretizado;
actualizar (512) la memoria del código cifrado de media móvil con el vector de codificación objetivo discretizado; y
deducir (508) vectores de información espectral de línea discretizados del vector de codificación objetivo discretizado.
9. El método de la reivindicación 8, en donde el marco es un marco de voz.
10. El método de la reivindicación 8, en donde el marco es un marco de residuo de predicción lineal.
11. El método de la reivindicación 8, en donde el paso de calcular comprende calcular la discretización objetivo de acuerdo a la siguiente ecuación:
\vskip1.000000\baselineskip
8
\vskip1.000000\baselineskip
donde {\hat{U}^{n}_{M - 1}, \hat{U}^{n}_{M - 2}, .., \hat{U}^{n}_{M - P}; n = 0,1, .., N - 1} son entradas del código cifrado correspondiente a los parámetros de información espectral de línea del número predefinido de marcos procesados inmediatamente antes del marco, y {\alpha_{1}^{n}, \alpha_{2}^{n}, .., \alpha^{n}_{P}; n = 0,1, .., N - 1} son los pesos respectivos de los parámetros de manera que {\alpha_{1}^{n} + \alpha_{2}^{n} +, .., \alpha^{n}_{P} = 1; n = 0,1, .., N - 1}.
12. El método de la reivindicación 8, en donde el paso de deducir comprende deducir los vectores de información espectral de línea discretizados de acuerdo a la siguiente ecuación:
\vskip1.000000\baselineskip
100
\vskip1.000000\baselineskip
donde {\hat{U}^{n}_{M - 1}, \hat{U}^{n}_{M - 2}, .., \hat{U}^{n}_{M - P}; n = 0,1, .., N - 1} son entradas del código cifrado correspondiente a los parámetros de información espectral de línea del número predefinido de marcos procesados inmediatamente antes del marco, y {\alpha_{1}^{n}, \alpha_{2}^{n}, .., \alpha^{n}_{P}; n = 0,1, .., N - 1} son los pesos respectivos de los parámetros de manera que {\alpha_{1}^{n} + \alpha_{2}^{n} +, .., \alpha^{n}_{P} = 1; n = 0,1, .., N - 1}.
13. El método de la reivindicación 8, en donde el paso de calcular comprende calcular los vectores de código de media móvil equivalentes de acuerdo a la siguiente ecuación:
9
donde {\beta_{1}^{n}, \beta_{2}^{n}, .., \beta_{P}^{n}; n = 0,1, .., N - 1} son los respectivos pesos de los elementos del vector de codificación de media móvil equivalentes tal que {\beta_{1}^{n} + \beta_{2}^{n} +, .., + \beta_{P}^{n} = 1; n = 0,1, .., N - 1}, y donde es establecida una condición inicial {\tilde{\hat{U}}_{-1}, \tilde{\hat{U}}_{-2}, ..., \tilde{\hat{U}}_{-P}}.
14. Un codificador de voz, que comprende:
medios para discretizar vectorialmente (504) un vector de información espectral de línea de un marco con una primera técnica de discretización vectorial que usa un esquema de discretización vectorial basada en predicciones de media no móvil;
medios para calcular (510) moviendo vectores de codificación de media móvil equivalentes para la primera técnica;
medios para actualizar (512) con los vectores de codificación de media móvil equivalentes una memoria de un código cifrado de media móvil de vectores de codificación para un número predefinido de marcos que fueron previamente procesados por el codificador de voz;
medios para calcular (502) un vector de discretización objetivo para una segunda técnica que usa un esquema de discretización vectorial basada en predicciones de media móvil basados en la memoria actualizada de código cifrado de media móvil;
medios para discretizar vectorialmente (506) el vector de discretización objetivo con la segunda técnica de discretización vectorial para generar un vector de codificación objetivo discretizado;
medios para actualizar (512) la memoria del código cifrado de media móvil con el vector de codificación objetivo discretizado; y
medios para deducir (508) vectores de información espectral de línea discretizados a partir del vector de codificación objetivo discretizado.
15. El codificador de voz de la reivindicación 14, en donde el marco es un marco de voz.
16. El codificador de voz de la reivindicación 14, en donde el marco es un marco de residuo de predicción lineal.
17. El codificador de voz de la reivindicación 14, en donde la discretización objetivo es calculada de acuerdo a la siguiente ecuación:
10
donde {\hat{U}^{n}_{M - 1}, \hat{U}^{n}_{M - 2}, .., \hat{U}^{n}_{M - P}; n = 0,1, .., N - 1} son entradas del código cifrado correspondiente a los parámetros de información espectral de línea del número predefinido de marcos procesados inmediatamente antes del marco, y {\alpha_{1}^{n}, \alpha_{2}^{n}, .., \alpha^{n}_{p}; n = 0,1, .., N - 1} son los pesos respectivos de los parámetros de manera que {\alpha_{1}^{n} + \alpha_{2}^{n} +, .., \alpha^{n}_{p} = 1; n = 0,1, .., N - 1}.
18. El codificador de voz de la reivindicación 14, en donde los vectores discretizados de información espectral de línea son deducidos de acuerdo a la siguiente ecuación:
11
\newpage
donde {\hat{U}^{n}_{M - 1}, \hat{U}^{n}_{M - 2}, .., \hat{U}^{n}_{M - P}; n = 0,1, .., N - 1} son entradas del código cifrado correspondiente a los parámetros de información espectral de línea del número predefinido de marcos procesados inmediatamente antes del marco, y {\alpha_{1}^{n}, \alpha_{2}^{n}, .., \alpha^{n}_{p}; n = 0,1, .., N - 1} son los pesos respectivos de los parámetros de manera que {\alpha_{1}^{n} + \alpha_{2}^{n} +, .., \alpha^{n}_{p} = 1; n = 0,1, .., N - 1}.
19. El codificador de voz de la reivindicación 14, en donde los vectores de codificación de media variable equivalentes son calculados de acuerdo a la siguiente ecuación:
12
donde {\beta_{1}^{n}, \beta_{2}^{n}, .., \beta_{P}^{n}; n = 0,1, .., N - 1} son los respectivos pesos de los elemento del vector de codificación de media móvil equivalentes tal que {\beta_{1}^{n} + \beta_{2}^{n} +, .., + \beta_{P}^{n} = 1; n = 0,1, .., N - 1}, y donde es establecida una condición inicial {\tilde{\hat{U}}_{-1}, \tilde{\hat{U}}_{-2}, ..., \tilde{\hat{U}}_{-P}}.
20. El codificador de voz de la reivindicación 14, en donde el codificador de voz reside en una unidad suscripta de un sistema inalámbrico de comunicación.
ES00950441T 1999-07-19 2000-07-19 Metodo y aparato para entrelazar metodos de discretizacion de informacion espectral en un codificador de voz. Expired - Lifetime ES2264420T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/356,755 US6393394B1 (en) 1999-07-19 1999-07-19 Method and apparatus for interleaving line spectral information quantization methods in a speech coder
US356755 1999-07-19

Publications (1)

Publication Number Publication Date
ES2264420T3 true ES2264420T3 (es) 2007-01-01

Family

ID=23402819

Family Applications (1)

Application Number Title Priority Date Filing Date
ES00950441T Expired - Lifetime ES2264420T3 (es) 1999-07-19 2000-07-19 Metodo y aparato para entrelazar metodos de discretizacion de informacion espectral en un codificador de voz.

Country Status (12)

Country Link
US (1) US6393394B1 (es)
EP (1) EP1212749B1 (es)
JP (1) JP4511094B2 (es)
KR (1) KR100752797B1 (es)
CN (1) CN1145930C (es)
AT (1) ATE322068T1 (es)
AU (1) AU6354600A (es)
BR (1) BRPI0012540B1 (es)
DE (1) DE60027012T2 (es)
ES (1) ES2264420T3 (es)
HK (1) HK1045396B (es)
WO (1) WO2001006495A1 (es)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735253B1 (en) 1997-05-16 2004-05-11 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web
US7143434B1 (en) 1998-11-06 2006-11-28 Seungyup Paek Video description system and method
ES2287122T3 (es) * 2000-04-24 2007-12-16 Qualcomm Incorporated Procedimiento y aparato para cuantificar de manera predictiva habla sonora.
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
US20040128511A1 (en) * 2000-12-20 2004-07-01 Qibin Sun Methods and systems for generating multimedia signature
US20040204935A1 (en) * 2001-02-21 2004-10-14 Krishnasamy Anandakumar Adaptive voice playout in VOP
WO2002097796A1 (en) * 2001-05-28 2002-12-05 Intel Corporation Providing shorter uniform frame lengths in dynamic time warping for voice conversion
US7339992B2 (en) * 2001-12-06 2008-03-04 The Trustees Of Columbia University In The City Of New York System and method for extracting text captions from video and generating video summaries
US7289459B2 (en) * 2002-08-07 2007-10-30 Motorola Inc. Radio communication system with adaptive interleaver
WO2006096612A2 (en) 2005-03-04 2006-09-14 The Trustees Of Columbia University In The City Of New York System and method for motion estimation and mode decision for low-complexity h.264 decoder
CN101185125B (zh) * 2005-04-01 2012-01-11 高通股份有限公司 用于带宽延伸语音预测激励信号的抗稀疏滤波的方法和设备
WO2007107659A2 (fr) * 2006-03-21 2007-09-27 France Telecom Quantification vectorielle contrainte
US7463170B2 (en) * 2006-11-30 2008-12-09 Broadcom Corporation Method and system for processing multi-rate audio from a plurality of audio processing sources
US7465241B2 (en) * 2007-03-23 2008-12-16 Acushnet Company Functionalized, crosslinked, rubber nanoparticles for use in golf ball castable thermoset layers
WO2009126785A2 (en) 2008-04-10 2009-10-15 The Trustees Of Columbia University In The City Of New York Systems and methods for image archaeology
WO2009155281A1 (en) * 2008-06-17 2009-12-23 The Trustees Of Columbia University In The City Of New York System and method for dynamically and interactively searching media data
US20100017196A1 (en) * 2008-07-18 2010-01-21 Qualcomm Incorporated Method, system, and apparatus for compression or decompression of digital signals
US8671069B2 (en) 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
CN102982807B (zh) * 2012-07-17 2016-02-03 深圳广晟信源技术有限公司 用于对语音信号lpc系数进行多级矢量量化的方法和系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4901307A (en) 1986-10-17 1990-02-13 Qualcomm, Inc. Spread spectrum multiple access communication system using satellite or terrestrial repeaters
US5103459B1 (en) 1990-06-25 1999-07-06 Qualcomm Inc System and method for generating signal waveforms in a cdma cellular telephone system
BR9206143A (pt) 1991-06-11 1995-01-03 Qualcomm Inc Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
TW271524B (es) 1994-08-05 1996-03-01 Qualcomm Inc
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
DE19845888A1 (de) * 1998-10-06 2000-05-11 Bosch Gmbh Robert Verfahren zur Codierung oder Decodierung von Sprachsignalabtastwerten sowie Coder bzw. Decoder

Also Published As

Publication number Publication date
CN1361913A (zh) 2002-07-31
DE60027012T2 (de) 2007-01-11
EP1212749A1 (en) 2002-06-12
JP4511094B2 (ja) 2010-07-28
KR20020033737A (ko) 2002-05-07
HK1045396B (zh) 2005-02-18
DE60027012D1 (de) 2006-05-18
JP2003524796A (ja) 2003-08-19
BR0012540A (pt) 2004-06-29
CN1145930C (zh) 2004-04-14
HK1045396A1 (en) 2002-11-22
KR100752797B1 (ko) 2007-08-29
EP1212749B1 (en) 2006-03-29
WO2001006495A1 (en) 2001-01-25
AU6354600A (en) 2001-02-05
BRPI0012540B1 (pt) 2015-12-01
US6393394B1 (en) 2002-05-21
ATE322068T1 (de) 2006-04-15

Similar Documents

Publication Publication Date Title
ES2265958T3 (es) Discretizacion de magnitud espectral para un codificador de voz.
KR100805983B1 (ko) 가변율 음성 코더에서 프레임 소거를 보상하는 방법
ES2264420T3 (es) Metodo y aparato para entrelazar metodos de discretizacion de informacion espectral en un codificador de voz.
ES2287122T3 (es) Procedimiento y aparato para cuantificar de manera predictiva habla sonora.
KR100912030B1 (ko) 무선 통신 시스템에서 비대칭 스피치 코더를 사용하여 비대칭 링크를 생성하는 방법 및 장치
EP1214705B1 (en) Method and apparatus for maintaining a target bit rate in a speech coder
US6324503B1 (en) Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
US7085712B2 (en) Method and apparatus for subsampling phase spectrum information
ES2276690T3 (es) Particion de espectro de frecuencia de una forma de onda prototipo.
KR101164834B1 (ko) 제 1 비트 레이트와 연관된 제 1 패킷을 제 2 비트 레이트와 연관된 제 2 패킷으로 디밍하는 시스템 및 방법