ES2348319T3 - Vocodificador de velocidad variable. - Google Patents

Vocodificador de velocidad variable. Download PDF

Info

Publication number
ES2348319T3
ES2348319T3 ES08016577T ES08016577T ES2348319T3 ES 2348319 T3 ES2348319 T3 ES 2348319T3 ES 08016577 T ES08016577 T ES 08016577T ES 08016577 T ES08016577 T ES 08016577T ES 2348319 T3 ES2348319 T3 ES 2348319T3
Authority
ES
Spain
Prior art keywords
voice
value
frame
speed
tone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES08016577T
Other languages
English (en)
Inventor
William R. Gardner
Klein S. Gilhousen
Paul E. Jacobs
Chong U. Lee
Katherine S. Lam
Ming-Chang Tsai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=24866989&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2348319(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of ES2348319T3 publication Critical patent/ES2348319T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0056Systems characterized by the type of code used
    • H04L1/0057Block codes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • H04J3/16Time-division multiplex systems in which the time allocation to individual channels within a transmission cycle is variable, e.g. to accommodate varying complexity of signals, to vary number of channels transmitted
    • H04J3/1682Allocation of channels according to the instantaneous demands of the users, e.g. concentrated multiplexers, statistical multiplexers
    • H04J3/1688Allocation of channels according to the instantaneous demands of the users, e.g. concentrated multiplexers, statistical multiplexers the demands of the users being taken into account after redundancy removal, e.g. by predictive coding, by variable sampling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/0001Systems modifying transmission characteristics according to link quality, e.g. power backoff
    • H04L1/0014Systems modifying transmission characteristics according to link quality, e.g. power backoff by adapting the source coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/0001Systems modifying transmission characteristics according to link quality, e.g. power backoff
    • H04L1/0015Systems modifying transmission characteristics according to link quality, e.g. power backoff characterised by the adaptation strategy
    • H04L1/0017Systems modifying transmission characteristics according to link quality, e.g. power backoff characterised by the adaptation strategy where the mode-switching is based on Quality of Service requirement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0041Arrangements at the transmitter end
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0045Arrangements at the receiver end
    • H04L1/0046Code rate detection or code type detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Amplifiers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Oscillators With Electromechanical Resonators (AREA)
  • Solid-Sorbent Or Filter-Aiding Compositions (AREA)
  • Developing Agents For Electrophotography (AREA)
  • Curing Cements, Concrete, And Artificial Stone (AREA)
  • Dc Digital Transmission (AREA)
  • Luminescent Compositions (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Noise Elimination (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)
  • Table Devices Or Equipment (AREA)
  • Inorganic Insulating Materials (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Endoscopes (AREA)
  • Magnetic Record Carriers (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

- Un procedimiento de procesamiento de una señal de voz que comprende una pluralidad de tramas, comprendiendo el procedimiento: calcular un nivel de energía de una trama de la señal de voz; obtener una estimación de ruido de fondo (B) en una trama anterior de la señal de voz; generar una estimación actual de ruido de fondo (B'); asignar bits para la trama de la señal de voz, donde se asignan menos bits en función de si el nivel de energía es inferior a al menos una función de la estimación de ruido de fondo (B) en la trama anterior; y codificar la señal de voz en un paquete según los bits asignados.

Description

ANTECEDENTES DE LA INVENCIÓN
I. Campo de la invención
La presente invención se refiere al procesamiento de voz. Específicamente, la presente invención se refiere a un procedimiento y a un sistema nuevo y mejorado para la compresión de voz en los que la cantidad de compresión varía dinámicamente mientras que su incidencia en la calidad de la voz reconstruida es mínima. Además, puesto que los datos de voz comprimidos están destinados a enviarse a través de un canal que puede introducir errores, el procedimiento y el sistema de la presente invención también minimiza el impacto de los errores de canal en la calidad de voz.
II. Descripción de la técnica relacionada
La transmisión de voz mediante técnicas digitales ha tenido una amplia difusión, en particular en las aplicaciones de teléfonos de radio digital. Esto, a su vez, ha suscitado el interés por determinar la cantidad mínima de información que puede ser enviada a través del canal, conservando la calidad percibida de la voz reconstruida. Si la voz se transmite simplemente mediante muestreo y digitalización, se requiere una velocidad de transmisión de datos del orden de 64 kilobits por segundo (Kbit/s) para obtener la calidad de voz del teléfono analógico convencional. Sin embargo, a través de la utilización del análisis de voz, seguido de una correcta codificación, transmisión y resíntesis en el receptor, puede conseguirse una importante reducción de la velocidad de transmisión de datos.
Los dispositivos que emplean técnicas para comprimir voz sonora extrayendo parámetros que se relacionan con un modelo de generación de voz humana habitualmente se denominan vocodificadores. Dichos dispositivos se componen de un codificador que analiza la voz entrante para extraer los parámetros pertinentes, y un decodificador, que resintetiza la voz utilizando los parámetros que recibe a través del canal de transmisión. Para ser preciso, el modelo debe cambiar constantemente. Por lo tanto, la voz se divide en bloques de tiempo, o tramas de análisis, durante los cuales se calculan los parámetros. A continuación, se actualizan los parámetros de cada nueva trama.
Entre los diversos tipos de codificadores de voz existentes, los que efectúan codificación de predicción lineal con excitación por código (CELP), codificación estocástica o codificación de voz con excitación por vector, constituyen una clase. Puede obtenerse un ejemplo de algoritmo de codificación de esta clase particular en el documento "A 4.8 kbps Code Excited Linear Predictive Coder" (Codificador de predicción lineal con excitación por código de 4,8 Kbit/s) de Thomas E. Tremain et al., Proceedings of the Mobile Satellite Conference, 1988.
La función del vocodificador es comprimir la señal de voz digitalizada en una señal de baja velocidad binaria, eliminando todas las redundancias naturales inherentes al habla.
Habitualmente, la voz presenta redundancias de corta duración, debidas sobre todo a la operación de filtrado del tracto vocal, y redundancias de larga duración debidas a la excitación del tracto vocal por las cuerdas vocales. En un codificador CELP, estas operaciones son modelizadas por dos filtros, un filtro de formantes de corta duración y un filtro de tonos de larga duración. Una vez eliminadas estas redundancias, la señal residual resultante puede modelizarse como ruido blanco gaussiano, que asimismo debe codificarse. La base de esta técnica consiste en calcular los parámetros de un filtro, denominado filtro LPC, que lleva a cabo predicción a corto plazo de la forma de onda de la voz utilizando un modelo del tracto vocal humano. Además, se modelizan efectos a largo plazo relacionados con el tono de la voz, calculando los parámetros de un filtro de tonos que, en esencia, modeliza las cuerdas vocales humanas. Por último, estos filtros deben ser excitados, y esto se lleva a cabo determinando qué forma de onda de excitación aleatoria concreta de un grupo contenido en un libro de código da por resultado la aproximación más cercana a la voz original, cuando la forma de onda excita los dos filtros mencionados anteriormente. Por lo tanto, los parámetros transmitidos se refieren a tres elementos: (1) el filtro LPC, (2) el filtro de tonos y (3) la excitación del libro de código.
Aunque la utilización de técnicas de codificación vocal favorecen el objetivo de intentar reducir la cantidad de información enviada a través del canal y a la vez asegurar voz reconstruida de calidad, es necesario emplear otras técnicas para conseguir una mayor reducción. Una técnica utilizada anteriormente para reducir la cantidad de información enviada es la selección de la actividad de las señales vocales. En esta técnica, no se transmite información durante las pausas de voz. Aunque esta técnica consigue el resultado deseado de la reducción de datos, adolece de varias deficiencias.
En muchos casos, la calidad de la voz se reduce debido al recorte de la parte inicial de las palabras. Otro problema de la desconexión del canal durante la inactividad es que los usuarios del sistema perciben la ausencia del ruido de fondo que normalmente acompaña a la voz y la valoración que éstos dan a la calidad del canal es tan baja como la de una llamada telefónica normal. Otro problema en relación con la selección de la actividad es que los ruidos bruscos ocasionales de fondo pueden activar el transmisor cuando no hay voz, ocasionando molestas ráfagas de ruido en el receptor.
Para tratar de mejorar la calidad de la voz sintetizada en los sistemas de selección de actividad de señales vocales, se añade ruido de confort sintetizado durante el proceso de decodificación. Aunque se consigue alguna mejora en calidad al añadir ruido de confort, la mejora de la calidad global no es substancial, puesto que el ruido de confort no modeliza el ruido de fondo real del codificador.
Una técnica más preferida para efectuar la compresión de datos, y que consigue reducir
la información que es necesario enviar, consiste en llevar a cabo la codificación vocal de velocidad variable. Puesto que la voz contiene de forma inherente períodos de silencio, es decir, pausas, la cantidad de datos necesarios para representar dichos períodos puede reducirse. La codificación vocal de velocidad variable explota este hecho de la forma más eficaz reduciendo la velocidad de transmisión de datos para estos periodos de silencio. La reducción de la velocidad de transmisión de datos, a diferencia de la interrupción completa de la transmisión de datos durante períodos de silencio, supera los problemas asociados a la selección de actividad de las señales vocales a la vez que facilita la reducción de la información transmitida.
Por lo tanto, un objetivo de la presente invención es proporcionar un procedimiento y sistema nuevos y mejorados para la compresión de voz utilizando una técnica de codificación vocal de velocidad variable.
Merece especial atención el artículo "Adaptative Pitch Detection Algorithm for Noisy Signals", de Wu S et al., speech processing 1, Glasgow, del 23 al 26 de mayo de 1989, ICASSP'89, Nueva York, IEEE, vol. 1, Conf. 14, 23 de mayo de 1989, páginas 576 a 579, XP000089790. El artículo describe un algoritmo para determinar el tono de una señal en un entorno ruidoso. Se describe para calcular la energía de una trama actual y para calcular la energía con una energía de ruido de referencia. Si la energía de segmento supera la energía de ruido de referencia, la trama actual se define como un "posible" segmento de señal. Después se llevan a cabo una función de correlación cruzada y una función de búsqueda de tono para clasificar un segmento de señal como un segmento de no señal o como un segmento de señal.
También merece especial atención el documento US-A-4.811.404, el cual describe un sistema de supresión de ruido que lleva a cabo una mejora de la calidad de voz sobre la señal de voz más ruido disponible en la entrada para generar una señal de voz limpia en la salida mediante modificación de ganancia espectral. Se considera incluir la suma de un mecanismo de umbral de relación de señal a ruido (SNR) para reducir la fluctuación de ruido de fondo desplazando el aumento de ganancia de las tablas de ganancia hasta que se alcance un determinado umbral SNR, el uso de un calculador métrico de voz para generar estimaciones de ruido de fondo más precisas tomando la decisión de actualización en base a las características globales similares a la voz en los canales y al intervalo de tiempo desde la última actualización, y el uso de un modificador SNR de canal (820) para proporcionar inmunidad contra ráfagas de ruido de banda estrecha a través de la modificación de las estimaciones SNR en función del cálculo métrico de voz y de las energías de canal.
También merece especial atención el documento US-A-4.672.669, el cual describe la detección de la presencia de señales de voz en un VAD (detector de actividad de voz) en dos etapas: (1) la energía de señal por encima de un umbral decide la presencia, por debajo de un umbral decide ambigüedad; (2) la ambigüedad se resuelve probando la tasa de cambio de los parámetros espectrales. SUMARIO DE LA INVENCIÓN
Según la presente invención, se proporcionan un procedimietno para el procesamiento de una señal de voz como el establecido en la reivindicación 1 y un procesador de voz configurado para procesar una señal de voz como el establecido en la reivindicación 7. Las formas de realización preferidas de la invención se dan a conocer en las reivindicaciones subordinadas.
La presente invención implementa un algoritmo de codificación vocal de la clase de codificadores de voz mencionada anteriormente, codificación de predicción lineal con excitación por código (CELP), codificación estocástica o codificación de voz con excitación por vector. La técnica CELP por sí sola proporciona una importante reducción de la cantidad de datos necesarios para representar la voz, de una forma que, tras la resíntesis, da por resultado voz de alta calidad. Como se ha mencionado anteriormente, los parámetros del vocodificador se actualizan para cada trama. El vocodificador de la presente invención proporciona una velocidad de transmisión de datos de salida variable cambiando la frecuencia y la precisión de los parámetros del modelo.
La diferencia más notable de la invención respecto de la técnica CELP básica es su capacidad de generar una velocidad de transmisión de datos de salida variable basada en la actividad de señales vocales. La estructura que se define permite actualizar los parámetros con menos frecuencia, o con menos precisión, durante las pausas de voz y la técnica determina una reducción todavía mayor en la cantidad de información a transmitir. El fenómeno que se explota para reducir la velocidad de transmisión de datos es el factor de actividad de señales vocales, que es el porcentaje medio de tiempo durante el cual un hablante dado habla realmente en una conversación. Para las conversaciones telefónicas bilaterales habituales, la velocidad media de transmisión de datos se reduce en un factor de 2 o más. Durante las pausas de voz, el vocodificador sólo codifica el ruido de fondo. En esos momentos, no es necesario transmitir algunos de los parámetros relativos al modelo del tracto vocal humano.
El planteamiento mencionado anteriormente, denominado selección de actividad de las señales vocales, para la limitación de la cantidad de información transmitida durante los períodos de silencio, es una técnica en la que no se transmite información durante los momentos de silencio. En lo que respecta a la recepción, el período puede rellenarse con "ruido de confort" sintetizado. En cambio, en una realización preferida, un vocodificador de velocidad variable trasmite datos continuamente a velocidades que oscilan entre 8 Kbit/s y 1 Kbit/s, aproximadamente. Un vocodificador que lleva a cabo una transmisión continua de datos puede prescindir de la síntesis de "ruido de confort", y la codificación del ruido de fondo proporciona una calidad más natural a la voz resintetizada. Por consiguiente, la presente invención supone una mejora significativa en la calidad de voz resintetizada respecto de la selección de actividad de las señales vocales, al facilitar una transición suave entre la voz y el fondo.
La presente invención incorpora además una nueva técnica para enmascarar la presencia de errores. Debido a que los datos están destinados a ser transmitidos por un canal que puede ser ruidoso como, por ejemplo, un enlace de radio, los datos deben incluir errores. Las técnicas anteriores que utilizan codificación de canales para reducir el número de errores presentes pueden resultar parcialmente satisfactorias en la reducción de errores. No obstante, la codificación de canales por sí sola no proporciona el nivel de protección de errores completo necesario para asegurar voz reconstruida de alta calidad. En el vocodificador de velocidad variable, que aplica codificación vocal de forma permanente, un error puede destruir datos relativos a algún evento vocal interesante como, por ejemplo, el inicio de una palabra o una sílaba. Un problema habitual de los vocodificadores basados en la codificación de predicción lineal (LPC) es que los errores en los parámetros relativos al modelo del tracto vocal ocasionan sonidos que se asemejan vagamente a los sonidos humanos, y que pueden cambiar el sonido de la palabra original en una medida suficiente como para confundir al oyente. En la presente invención, los errores se enmascaran para reducir su perceptibilidad por el oyente. Este enmascaramiento de errores implementado en la presente invención proporciona una reducción drástica del efecto de los errores sobre la inteligibilidad de la voz.
Debido a que el cambio máximo que puede experimentar cualquier parámetro está limitado a valores menores de bajas velocidades, los errores en los parámetros transmitidos a estas velocidades afectarán menos a la calidad de la voz. Puesto que los errores de las diferentes velocidades tienen diferentes efectos percibidos sobre la calidad de la voz, el sistema de transmisión puede aprovecharse al máximo para dar más protección a los datos de velocidad más alta. Por consiguiente, como característica añadida, la presente invención proporciona resistencia a los errores del canal.
La presente invención, al implementar una versión de salida de velocidad variable del algoritmo CELP, da como resultado una compresión de voz que varía dinámicamente entre 8:1 y 64:1, dependiendo de la actividad de las señales vocales. Los factores de compresión recién mencionados se refieren a una entrada de ley u, siendo los factores de compresión superiores en un factor de 2 para una entrada lineal. La determinación de la velocidad se efectúa de trama en trama para aprovechar por completo el factor de actividad vocal. Aún cuando se generan menos datos para las pausas de voz, la degradación percibida del ruido de fondo resintetizado se reduce al mínimo. Utilizando las técnicas de la presente invención, puede conseguirse voz con una calidad casi de tipo de circuito interurbano a una velocidad de transmisión de datos máxima de 8 Kbit/s y una velocidad media de transmisión de datos del orden de 3,5 Kbit/s en conversación normal.
Puesto que la presente invención permite detectar pausas cortas de voz, se consigue una reducción del factor efectivo de actividad vocal. Las decisiones de velocidad pueden tomarse de trama en trama sin tiempo de bloqueo y, en consecuencia, la velocidad de transmisión de datos puede reducirse en las pausas de voz que tengan una duración tan corta como la de la trama, que habitualmente es de 20 ms en la forma de realización preferida. Podrán captarse, pues, pausas como las existentes entre sílabas. Esta técnica reduce el factor de actividad vocal en una medida mayor que la conseguida tradicionalmente, puesto que es posible codificar no sólo pausas de larga duración entre frases, sino también pausas de más corta duración a velocidades inferiores.
Debido a que las decisiones de velocidad se toman de trama en trama, no se produce recorte de la parte inicial de la palabra, como ocurre en el sistema de selección de actividad de las señales vocales. El recorte de esta naturaleza se produce en el sistema de selección de actividad de las señales vocales debido al retardo entre la detección de la voz y el reinicio de la transmisión de datos. Utilizar una decisión de velocidad basada en cada trama da como resultado voz en la que todas las transiciones tienen un sonido natural.
Si el vocodificador transmite ininterrumpidamente, el ruido de fondo del ambiente del hablante se oirá de forma permanente en el extremo de recepción, proporcionando de ese modo un sonido más natural durante las pausas de voz. Por consiguiente, la presente invención permite una transición suave hacia el ruido de fondo. Lo que el oyente puede oír en el fondo durante la conversación no se transformará de repente en un ruido de confort sintetizado durante las pausas, como ocurre en un sistema de selección de actividad de las señales vocales.
Puesto que el ruido de fondo se somete continuamente a codificación vocal para la transmisión, los eventos interesantes del fondo pueden enviarse con total claridad. En ciertos casos, el ruido de fondo que interesa puede codificarse incluso a la velocidad más alta. La codificación a máxima velocidad puede producirse, por ejemplo, cuando hay alguna persona que habla en voz alta en el fondo, o si pasa una ambulancia cerca de un usuario que se halla en la calle. No obstante, el ruido de fondo de variación constante o lenta será codificado a bajas velocidades.
La utilización de codificación vocal de velocidad variable promete un aumento de la capacidad de un sistema telefónico celular digital basado en acceso múltiple por división del código (CDMA) superior a un factor de dos. La codificación vocal CDMA y de velocidad variable coinciden de manera singular, puesto que, con CDMA, las interferencias entre canales decrecen automáticamente a la vez que decrece la velocidad de transmisión de datos a través de cualquier canal. Para comparar, consideraremos los sistemas en los que se asignan intervalos de transmisión como, por ejemplo, los sistemas TDMA o FDMA. Para que uno de estos sistemas aproveche cualquier descenso de la velocidad de transmisión de datos, se requiere una intervención externa para coordinar la reasignación de intervalos no utilizados a otros usuarios. El retardo inherente a dicho sistema determina que el canal pueda ser reasignado sólo durante largas pausas de voz. Por lo tanto, no puede aprovecharse por completo el factor de actividad vocal. No obstante, con coordinación externa, la codificación vocal de velocidad variable es útil en sistemas diferentes al CDMA por los otros motivos mencionados.
En un sistema CDMA, la calidad de voz del sistema puede degradarse ligeramente en los momentos en que se desea una capacidad adicional del sistema. En términos abstractos, el vocodificador puede considerarse como un grupo de vocodificadores que funcionan a diferentes velocidades y proporcionan diferentes calidades de voz. Por consiguiente, las calidades de voz pueden mezclarse para reducir más la velocidad media de transmisión de datos. Los experimentos iniciales muestran que mezclando voz sometida a codificación vocal de velocidad completa y media velocidad, p.ej. variando de trama en trama la velocidad de transmisión de datos máxima permitida entre 8 Kbit/s y 4 Kbit/s, la voz resultante tiene una calidad que es mejor que la variable de media velocidad, de 4 Kbit/s como máximo, pero no tan buena como la variable de velocidad completa, de 8 Kbit/s como máximo.
Es bien conocido que en la mayoría de conversaciones telefónicas sólo habla una persona a la vez. Como función adicional para los enlaces telefónicos dúplex completo, puede proporcionarse un interbloqueo de velocidad. Si una dirección del enlace transmite a la velocidad de transmisión más alta, entonces la otra dirección del enlace es forzada a transmitir a la velocidad más lenta. Un interbloqueo entre las dos direcciones del enlace puede garantizar una utilización media no superior al 50% de cada dirección del enlace. No obstante, cuando el canal se desactiva como en el caso del interbloqueo de velocidad en la selección de actividad, no hay forma de que un oyente interrumpa al hablante para asumir el papel de hablante en la conversación. La presente invención proporciona con facilidad la capacidad de interbloqueo de velocidad mediante señales de control que establecen la velocidad de codificación vocal.
Por último, debe observarse que utilizando un modelo de codificación vocal de velocidad variable, la información de señalización puede compartir el canal con datos de voz con un efecto muy pequeño sobre la calidad de la voz. Por ejemplo, una trama de alta velocidad puede dividirse en dos; una de las mitades se utiliza para enviar los datos de voz de velocidad más baja y la otra mitad para enviar los datos de señalización. En el vocodificador de la forma de realización preferida, sólo se produce una ligera degradación de la calidad de la voz entre la voz sometida a codificación vocal de velocidad completa y la sometida a codificación vocal de medía velocidad. Por consiguiente, la codificación vocal de la voz a la velocidad más baja para la transmisión compartida con otros datos da por resultado una diferencia de calidad de voz casi imperceptible por el usuario.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
Las características, objetivos y ventajas de la presente invención resultarán más evidentes a partir de la descripción detallada expuesta a continuación cuando se toma junto con los dibujos, en los que se utilizan caracteres de referencia equivalentes para indicaciones equivalentes y, en los que:
las Figuras 1a-1e ilustran gráficamente las tramas y subtramas de análisis del vocodificador para diferentes velocidades; las Figuras 2a-2d son una serie de gráficos que ilustran la distribución binaria de salida del vocodificador para diferentes velocidades; la Figura 3 es un diagrama de bloques generalizado de un ejemplo de codificador; la Figura 4 es un diagrama de flujo de un codificador; la Figura 5 es un diagrama de bloques generalizado de un ejemplo de decodificador; la Figura 6 es un diagrama de flujo de un decodificador; la Figura 7 es un diagrama de bloques funcionales más detallado del codificador; la Figura 8 es un diagrama de bloques de un ejemplo de ventana de Hamming y de subsistemas de autocorrelación; la Figura 9 es un diagrama de bloques de un ejemplo de subsistema de determinación de velocidad; la Figura 10 es un diagrama de bloques de un ejemplo de subsistema de análisis LPC; la Figura 11 es un diagrama de bloques de un ejemplo de subsistema de transformación LPC-LSP; la Figura 12 es un diagrama de bloques de un ejemplo de subsistema de cuantificación LPC; la Figura 13 es un diagrama de bloques de un ejemplo de subsistema de interpolación LSP y de transformación LSP-LPC; la Figura 14 es un diagrama de bloques del libro de código adaptativo para la búsqueda del tono; la Figura 15 es un diagrama de bloques del decodificador del codificador;
la Figura 16 es un diagrama de bloques del subsistema de búsqueda del tono; la Figura 17 es un diagrama de bloques del subsistema de búsqueda del libro de código; la Figura 18 es un diagrama de bloques del subsistema de empaquetamiento de datos; la Figura 19 es un diagrama de bloques funcionales más detallado del decodificador; las Figuras 20a-20d son diagramas que ilustran los parámetros y datos de decodificación de subtramas recibidos por el decodificador para diferentes velocidades; las Figuras 21a-21c son diagramas que proporcionan una ilustración adicional de los parámetros y datos de decodificación de subtramas recibidos por el decodificador para condiciones especiales; la Figura 22 es un diagrama de bloques del subsistema de cuantificación inversa LSP; la Figura 23 es un diagrama de bloques más detallado del decodificador con postfiltrado y control automático de ganancia; y la Figura 24 es un diagrama que ilustra las características adaptativas del filtro de brillo.
DESCRIPCIÓN DETALLADA DE LA FORMA DE REALIZACIÓN PREFERIDA
Según la presente invención, sonidos como la voz y/o el ruido de fondo se muestrean y se digitalizan utilizando técnicas bien conocidas. Por ejemplo, la señal analógica puede transformarse en una señal digital mediante el formato estándar de 8 bits/ley u seguido de una conversión de ley u/código uniforme. Como alternativa, la señal analógica puede convertirse directamente a una forma digital en un formato de modulación por impulsos codificados (PCM) uniforme. Por lo tanto, cada muestra en la forma de realización preferida está representada por una palabra de 16 bits de datos. Las muestras se organizan en tramas de datos de entrada, comprendiendo cada trama un número predeterminado de muestras. En la forma de realización a modo de ejemplo dada a conocer en este documento, la velocidad de muestreo considerada es de 8 kHz. Cada trama comprende 160 muestras o 20 ms de voz a la velocidad de muestreo de 8 kHz. Debe sobrentenderse que es posible utilizar otras velocidades de muestreo y tamaños de trama.
El campo de la codificación vocal incluye muchas técnicas diferentes para la codificación de voz, siendo una de éstas la técnica de codificación CELP. En el documento "A 4.8 kbps Code Excited Linear Predictive Coder" (Codificador de predicción lineal con excitación por código de 4,8 Kbit/s) mencionado anteriormente, se proporciona un sumario de la técnica de codificación CELP. La presente invención implementa una forma de las técnicas de codificación CELP para proporcionar una velocidad variable a los datos de voz codificados, donde el análisis LPC se lleva a cabo con una cantidad de muestras constante y donde las búsquedas de tono y de libro de código se llevan a cabo con cantidades de muestras variables dependiendo de la velocidad de transmisión. Las técnicas de codificación CELP que se aplican a la presente invención se
describen conceptualmente con referencia a las Figuras 3 y 5.
En la forma de realización preferida de la presente invención, las tramas de análisis de voz tienen una duración de 20 ms, lo cual implica que los parámetros extraídos se transmiten en una ráfaga 50 veces por segundo. Además, la velocidad de transmisión de datos varía aproximadamente entre 8 Kbit/s y 4 Kbit/s, 2 Kbit/s y 1 Kbit/s. A velocidad completa (denominada también velocidad 1), la transmisión de datos se lleva a cabo a 8,55 Kbit/s y los parámetros codificados para cada trama utilizan 171 bits incluyendo una CRC (verificación por redundancia cíclica) interna de 11 bits. En ausencia de los bits de CRC, la velocidad será de 8 Kbit/s. A media velocidad (denominada también velocidad 1/2), la transmisión de datos se lleva a cabo a 4 Kbit/s y los parámetros codificados para cada trama utilizan 80 bits. A cuarto de velocidad (denominada también velocidad 1/4), la transmisión de datos se lleva a cabo a 2 Kbit/s y los parámetros codificados para cada trama utilizan 40 bits. A octavo de velocidad (denominada también velocidad 1/8), la transmisión de datos es ligeramente inferior a 1 Kbit/s y los parámetros codificados para cada trama utilizan 16 bits.
La Figura 1 ilustra gráficamente un ejemplo de trama de análisis de datos dé voz 10 y la relación de una ventana de Hamming 12 utilizada en análisis LPC. En las Figuras 2a-2d, se ilustran gráficamente la trama de análisis LPC y las subtramas de tono y libro de código para las diferentes velocidades. Debe sobrentenderse que la trama de análisis LPC es del mismo tamaño para todas las velocidades.
En relación con los dibujos y, en particular, con la Figura 1a, el análisis LPC se lleva a cabo utilizando las 160 muestras de datos de voz de la trama 10 que se someten a enventanado utilizando una ventana de Hamming 12. Como se ilustra en la Figura 1a, las muestras s(n) se numeran del 0 al 159 dentro de cada trama. La ventana de Hamming 12 se sitúa con un desplazamiento de 60 muestras dentro de la trama 10. Por lo tanto, la ventana de Hamming 12 empieza en la 60a muestra, s(59), de la trama de datos actual 10 y continúa hasta terminar en la muestra 59a, s(58) de la siguiente trama de datos 14. Por consiguiente, los datos ponderados generados para la trama actual, es decir la trama 10, también contendrán datos basados en datos de la siguiente trama, o sea la trama 14.
Dependiendo de la velocidad de transmisión de datos, se efectúan búsquedas para calcular los parámetros de excitación del filtro de tonos y del libro de código varias veces en diferentes subtramas de la trama de datos 10, como se muestra en las Figuras 1b-1e. Debe sobrentenderse que en la forma de realización preferida sólo se selecciona una velocidad para la trama 10, de modo que las búsquedas de tono y de libro de código se efectúan en subtramas de diversos tamaños correspondientes a la velocidad seleccionada, como se describe más adelante. No obstante, con finalidades ilustrativas, en las Figuras 1b-1e se muestra la estructura de subtrama de las búsquedas de tono y de libro de código para las diversas velocidades permitidas de la forma de realización preferida para la trama 10.
En todas las velocidades, se efectúa un cálculo LPC por trama 10 como se ilustra en la Figura 1a. Como se ilustra en la Figura 1b, a velocidad completa existen dos subtramas de libro de código 18 para cada subtrama de tono 16. A velocidad completa se efectúan cuatro actualizaciones de tono, una para cada una de las cuatro subtramas de tono 16, de 40 muestras de duración (5 ms). Además, a velocidad completa se efectúan ocho actualizaciones de libro de código, una para cada una de las ocho subtramas de libro de código 18, de 20 muestras de duración (2,5 ms).
A media velocidad, como se ilustra en la Figura 1c, existen dos subtramas de libro de código 22 para cada subtrama de tono 20. El tono se actualiza dos veces, una vez por cada una de las dos tramas de tono 20, mientras que el libro de código se actualiza cuatro veces, una vez por cada una de las cuatro subtramas de libro de código 22. A cuarto de velocidad, como se ilustra en la Figura 1d, existen dos subtramas de libro de código 26 para la única subtrama de tono 20. El tono se actualiza una vez para la subtrama de tono 24, mientras que el libro de código se actualiza dos veces, una vez por cada una de las dos subtramas de libro de código
26. Como se ilustra en la Figura 1e, a octavo de velocidad, no se determina el tono y el libro de código se actualiza sólo una vez en la trama 28 que corresponde a la trama 10.
Además, aunque los coeficientes LPC se calculan sólo una vez por trama, éstos se interpolan linealmente, en una representación de par de líneas espectrales (LSP), hasta cuatro veces utilizando las frecuencias LSP resultantes de la trama anterior para calcular aproximadamente los resultados del análisis LPC con la ventana de Hamming centrada en cada subtrama. La excepción es que, a velocidad completa, no se interpolan los coeficientes LPC para las subtramas de libro de código. Más adelante, se proporciona más información acerca del cálculo de frecuencias LSP.
Aparte de llevarse a cabo con menos frecuencia las búsquedas de tono y de libro de código a velocidades más bajas, se asignan menos bits para la transmisión de los coeficientes LPC. El número de bits asignados a las diferentes velocidades se muestra en las Figuras 2a-2d. Cada una de las Figuras 2a-2d representa el número de bits de datos codificados por el vocodificador asignados a cada una de las tramas de 160 muestras de voz. En las Figuras 2a2d, el número del respectivo bloque LPC 30a-30d es el número de bits utilizados a la correspondiente velocidad para codificar los coeficientes LPC de corto plazo. En la forma de realización preferida, el número de bits utilizados para codificar los coeficientes LPC a las velocidades completa, media, cuarto y octavo son respectivamente 40, 20, 10 y 10.
Para implementar la codificación de velocidad variable, los coeficientes LPC se
transforman en primer lugar en pares de líneas espectrales (LSP) y las resultantes frecuencias LSP se codifican de forma individual utilizando codificadores DPCM. El orden de LPC es 10, es decir, hay 10 frecuencias LSP y 10 codificadores DPCM independientes. La asignación de bits para los codificadores DPCM se efectúa según la Tabla I.
TABLA I
NÚMERO DE CODIFICADOR DPCM
1
2 3 4 5 6 7 8 9 10
VELOC. 1 VELOC. 1/2 VELOC. 1/4 VELOC. 1/8
4 2 1 1 4 2 1 1 4 4 4 4 4 4 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 4 2 1 1 4 2 1 1
10 Tanto en el codificador como en el decodificador, las frecuencias LSP vuelven a convertirse en coeficientes de filtro LPC antes de su utilización en las búsquedas de tono y de libro de código.
Con respecto a la búsqueda del tono, la actualización de tono se calcula cuatro veces a velocidad completa, una por cada cuarta parte de trama de voz, como se ilustra en la Figura 2a. 15 Para cada actualización de tono a velocidad completa, se utilizan 10 bits para codificar los nuevos parámetros de tono. Las actualizaciones de tono se efectúan un número de veces variable para las otras velocidades mostradas en las Figuras 2b-2d. A medida que la velocidad decrece, el número de actualizaciones de tono también decrece. La Figura 2b ilustra las actualizaciones de tono para media velocidad que se calculan dos veces, una para cada mitad 20 de trama de voz. De modo similar, la Figura 2c ilustra las actualizaciones de tono para cuarto de velocidad que se calculan una vez para cada trama de voz completa. Igual que para la velocidad completa, se utilizan 10 bits para codificar los nuevos parámetros de tono para cada actualización de tono de media velocidad y cuarto de velocidad. No obstante, como se ilustra en la Figura 2d, para octavo de velocidad no se calcula ninguna actualización de tono, puesto que
25 esta velocidad se utiliza para codificar tramas cuando la voz presente es nula o casi nula y no existen redundancias de tono. En cada actualización de tono de 10 bits, 7 bits representan el retardo de tono y 3 bits representan la ganancia de tono. El retardo de tono está limitado a los valores comprendidos
entre 17 y 143. La ganancia de tono se cuantifica linealmente entre 0 y 2 para su representación mediante el valor de 3 bits.
En relación con la búsqueda de libro de código, como se ilustra en la Figura 2a, a velocidad completa la actualización de libro de código se calcula ocho veces, una para cada octava parte de la trama de voz. Para cada actualización de libro de código a velocidad completa, se utilizan 10 bits para codificar los nuevos parámetros de libro de código. Las actualizaciones de libro de código se efectúan un número de veces variable a las velocidades mostradas en las Figuras 2b-2d. No obstante, a medida que disminuye la velocidad también disminuye el número de actualizaciones de libro de código. La Figura 2b ilustra las actualizaciones de libro de código para media velocidad que se calculan cuatro veces, una vez para cada cuarta parte de la trama de voz. La Figura 2c ilustra las actualizaciones de libro de código para cuarto de velocidad que se calculan dos veces, una vez para cada mitad de la trama de voz. Igual que para la velocidad completa, se utilizan 10 bits para codificar los nuevos parámetros de libro de código para cada actualización de tono de media velocidad y cuarto de velocidad. Por último, la Figura 2d ilustra las actualizaciones de libro de código para octavo de velocidad que sólo se calculan una vez para cada trama de voz completa. Debe observarse que a octavo de velocidad se transmiten 6 bits; 2 de los cuales son representativos de la ganancia de libro de código; los 4 restantes son bits aleatorios. Más adelante, se proporciona más información acerca de las asignaciones de bits para las actualizaciones de libro de código.
Los bits asignados para las actualizaciones de libro de código representan los bits de datos necesarios para cuantificar vectorialmente el residuo de predicción de tono. Para las velocidades completa, media y cuarto, cada actualización de libro de código consiste en 7 bits de índice de libro de código más 3 bits de ganancia de libro de código para un total de 10 bits. La ganancia de código de libro se codifica utilizando un codificador de modulación diferencial por impulsos codificados (DPCM) que funciona en el dominio logarítmico. Aunque para octavo de velocidad puede utilizarse una disposición de bits parecida, es preferible utilizar un modelo alternativo. A octavo de velocidad, la ganancia de libro de código es representada por 2 bits, mientras que se utilizan 4 bits generados de forma aleatoria con los datos recibidos, como simiente para el generador de números pseudoaleatorios que sustituye al libro de código.
Con respecto al diagrama de bloques del codificador ilustrado en la Figura 3, el análisis LPC se lleva a cabo en una modalidad de bucle abierto. Para cada trama de muestras de voz de entrada s(n), se calculan los coeficientes LPCO ( α1 -α10 ) como se describirá más adelante, mediante análisis/cuantificación LPC 50, para utilizarlos en el filtro de síntesis de formantes 60.
No obstante, el cálculo de la búsqueda del tono se efectúa en una modalidad de bucle cerrado que a menudo se denomina procedimiento de análisis por síntesis. Sin embargo, en la implementación se utiliza una nueva técnica híbrida de bucle cerrado/bucle abierto para dirigir la búsqueda del tono. En la búsqueda del tono, se lleva a cabo una codificación seleccionando parámetros que reducen al mínimo el error cuadrático medio entre la voz de entrada y la voz sintetizada. Para simplificar, en esta parte de la descripción no se tratará el tema de la velocidad. No obstante, más adelante se proporciona información adicional detallada acerca del efecto de la velocidad seleccionada en las búsquedas de tono y de libro de código.
En la forma de realización conceptual ilustrada en la Figura 3, el filtro de ponderación perceptiva 52 se caracteriza mediante las siguientes ecuaciones:
imagen1
donde
imagen1
es el filtro de predicción de formantes y µ es un parámetro de ponderación perceptiva, que en la forma de realización a modo de ejemplo es igual a 0,8. El filtro de síntesis de tono 58 se caracteriza mediante la siguiente ecuación:
imagen1
El filtro de síntesis de formantes 60, un filtro ponderado que se describe a continuación, se caracteriza mediante la siguiente ecuación:
imagen1
Las muestras de voz de entrada s(n) son ponderadas por el filtro de ponderación perceptiva 52, y las muestras de voz ponderadas x(n) son proporcionadas a una entrada de suma del sumador 62. La ponderación perceptiva se utiliza para ponderar el error en las frecuencias donde hay menos potencia de señal. Es en estas frecuencias de baja potencia de señal cuando el ruido es más apreciable perceptivamente. Las muestras de voz sintetizada x'(n) se pasan desde el filtro de síntesis de formantes 60 hasta una entrada de resta del sumador 62 donde se sustraen de las x(n) muestras. La diferencia de muestras obtenida desde el sumador 62 se introduce en el elemento de error cuadrático medio (MSE) 64 donde se eleva al cuadrado y se suma. Los resultados del elemento MSE 64 se proporcionan al elemento de minimización 66 que genera valores para el retardo de tono L, la ganancia de tono b, el índice de libro de código I y la ganancia de libro de código.
En el elemento de minimización 66, se introducen todos los valores posibles de L, el parámetro de retardo de tono de P(z), en el filtro de síntesis de tono 58 junto con el valor c(n) del multiplicador 56. Durante la búsqueda del tono no hay contribución alguna del libro de código, es decir, c(n) = 0. Los valores de L y b que reducen al mínimo el error ponderado entre la voz de entrada y la voz sintetizada son elegidos por el elemento de minimización 66. El filtro de síntesis de tono 58 genera y proporciona el valor p(n) al filtro de síntesis de formantes 60. Una vez hallado el retardo de tono L y la ganancia de tono b para el filtro de tonos, se lleva a cabo la búsqueda de libro de código de forma parecida.
Debe sobrentenderse que la Figura 3 es una representación conceptual del planteamiento de análisis por síntesis tomado en la presente invención. En la implementación a modo de ejemplo de la presente invención, los filtros no se utilizan en la configuración de retroalimentación en bucle cerrado habitual. En la presente invención, la conexión de retroalimentación se rompe durante la búsqueda y se sustituye por un residuo de formantes de bucle abierto, cuyos detalles se proporcionan más adelante en este documento.
El elemento de minimización 66 genera a continuación valores para el índice de libro de código i y la ganancia de libro de código G. Los valores de salida del libro de código 54, seleccionados entre una pluralidad de valores vectoriales aleatorios gaussianos según el índice de libro de código I, se multiplican en el multiplicador 56 por la ganancia de libro de código G para generar la secuencia de valores c(n) utilizada en el filtro de síntesis de tono 58. El índice de libro de código I y la ganancia de libro de código G que se eligen para la transmisión son los que reducen al mínimo el error cuadrático medio.
Debe observarse que la ponderación perceptiva W(z) se aplica tanto a la voz de entrada
mediante el filtro de ponderación perceptiva 52 como a la voz sintetizada mediante la función
de ponderación incorporada dentro del filtro de síntesis de formantes 60. Por lo tanto, el filtro de
síntesis de formantes 60 es en realidad un filtro de síntesis de formantes ponderados, que
combina la función de ponderación de la ecuación 1 con la característica típica de filtro de
predicción de formantes
imagen1 para proporcionar la función de síntesis de formantes ponderados
5
10
15
20
25
30 16
de la ecuación 3.
Debe sobrentenderse que como alternativa, el filtro de ponderación perceptiva 52 puede situarse entre el sumador 62 y el elemento MSE 64. En este caso, el filtro de síntesis de
imagen2
formantes 60 tendrá la característica de filtro normal de
La Figura 4 ilustra un diagrama de flujo de las etapas relativas a la codificación de voz con el codificador de la Figura 3. Con fines descriptivos, las etapas relativas a la decisión de velocidad se incluyen en el diagrama de flujo de la Figura 4. Las muestras de voz digitalizada se obtienen (bloque 80) de los circuitos de muestreo a partir de los cuales se calculan después los coeficientes LPC (bloque 82). En el cálculo de coeficientes LPC, se utilizan la ventana de Hamming y técnicas de autocorrelación. Para la trama que interesa, se toma una decisión inicial de velocidad (bloque 84) basada en la energía de trama en la forma de realización preferida.
Para codificar eficazmente los coeficientes LPC en un número pequeño de bits, los coeficientes LPC se transforman en frecuencias de pares de líneas espectrales (LSP) (bloque 86) y luego se cuantifican (bloque 88) para la transmisión. Opcionalmente, puede efectuarse una determinación de velocidad adicional (bloque 90), aumentándose la velocidad si la cuantificación de los coeficientes LSP para la velocidad inicial se considera insuficiente (bloque 92).
Para la primera subtrama de tono de la trama de voz que se está analizando, las frecuencias LSP se interpolan y transforman en coeficientes LPC (bloque 94) para su utilización en la dirección de la búsqueda del tono. En la búsqueda del tono, la excitación del libro de código se establece en cero. En la búsqueda del tono (bloques 96 y 98) que es un procedimiento de análisis por síntesis como el descrito anteriormente, para cada retardo de tono L posible, se compara la voz sintetizada con la voz original. Para cada valor de L, se determina un valor entero, la ganancia de tono óptima b. De los grupos de valores de L y b, el grupo de valores de L y b óptimos proporciona el mínimo error cuadrático medio ponderado perceptivamente entre la voz sintetizada y la voz original. Para los valores óptimos determinados de L y b para esa subtrama de tono, se cuantifica el valor de b (bloque 100) para su transmisión junto con el correspondiente valor de L. En una implementación alternativa de la búsqueda del tono, los valores de b pueden ser valores cuantificados que participan en la búsqueda del tono, siendo utilizados estos valores cuantificados para dirigir la búsqueda del tono. Por lo tanto, en esta implementación, dejará de ser necesario cuantificar el valor de b seleccionado tras la búsqueda del tono (bloque 100).
Para la primera subtrama de libro de código de la trama de voz que se está analizando, las frecuencias LSP se interpolan y transforman en coeficientes LPC (bloque 102), para su utilización en la dirección de la búsqueda de libro de código. No obstante, en la forma de realización a modo de ejemplo, a velocidad completa las frecuencias LSP sólo se interpolan hasta el nivel de subtrama de tono. Esta etapa de interpolación y transformación se lleva a cabo tanto para la búsqueda de libro de código como para la búsqueda del tono, debido a la diferencia en tamaño de las subtramas de tono y libro de código para cada velocidad, excepto para la velocidad 1/8 donde es irrelevante ya que no se calcula ningún dato de tono. En la búsqueda de libro de código (bloques 104 y 106), se utilizan los valores de retardo L y de ganancia b de tono óptimos en el filtro de síntesis de tono, para comparar, para cada índice de libro de código l posible, la voz sintetizada con la voz original. Para cada valor de I, se determina un valor entero; la ganancia de libro de código G óptima. De los grupos de valores de I y G, el grupo de valores de I y G óptimos proporciona el mínimo error entre la voz sintetizada y la voz original. Para los valores óptimos determinados de I y G para dicha subtrama de código de libro, se cuantifica el valor G (bloque 108), para su transmisión junto con el correspondiente valor I. Por otra parte, en una implementación alternativa de la búsqueda de libro de código, la cuantificación de los valores G puede llevarse a cabo como parte de la búsqueda de libro de código, siendo utilizados estos valores cuantificados en la dirección de la búsqueda de código. En esta implementación alternativa, deja de ser necesaria la cuantificación del valor G seleccionado tras la búsqueda de libro de código (bloque 108).
Después de la búsqueda de libro de código, se ejecuta el decodificador del codificador con los valores I, G, L y b óptimos. La ejecución del decodificador del codificador reconstruye las memorias de filtro del codificador para su utilización en futuras subtramas.
A continuación, se efectúa una comprobación (bloque 110) para determinar si la subtrama de libro de código cuyo análisis acaba de terminar es la última subtrama de libro de código del grupo de subtramas de libro de código correspondiente a la subtrama de tono para la cual va destinada la búsqueda del tono. En otras palabras, se determina si quedan más subtramas de libro de código que correspondan a la subtrama de tono. En la forma de realización a modo de ejemplo sólo existen dos subtramas de libro de código por subtrama de tono. Si se determina que queda otra subtrama de libro de código que corresponde a la trama de tono, se repiten las etapas 102-108 para dicha subtrama de libro de código.
En caso de que no queden más subtramas de libro de código correspondientes a la trama de tono, se efectuará una comprobación (bloque 112) para determinar si queda alguna subtrama de tono dentro de la trama de voz que se está analizando. Si en la trama de voz actual que se está analizando queda otra subtrama de tono, se repiten las etapas 94-110 para cada subtrama de tono y correspondientes subtramas de libro de código. Cuando hayan finalizado todos los cálculos para la trama de voz actual que se está analizando, los valores representativos de los coeficientes LPC para la trama de voz, el retardo L y la ganancia b de tono para cada subtrama de tono y el índice I y la ganancia G de libro de código para cada subtrama de libro de código se empaquetan para la transmisión (bloque 114).
En relación con la Figura 5, se ilustra un diagrama de bloques del decodifícador en el que los valores recibidos para los coeficientes LPC ( α i ), los retardos y ganancias de tono (L y b) y los índices y ganancias de libro de código (l y G) se utilizan para sintetizar la voz. De nuevo, en la Figura 5, como en la Figura 3, no se tiene en cuenta la información de velocidad para simplificar la descripción. La información de velocidad de transmisión de datos puede enviarse como información suplementaria y, en ciertos casos, puede obtenerse en la etapa de demodulación del canal.
El decodificador comprende en un libro de código 130 que está provisto de los índices de libro de código recibidos o, para octavo de velocidad, la simiente aleatoria. La salida del libro de código 130 se proporciona a una entrada del multiplicador 132, mientras que la otra entrada del multiplicador 132 recibe la ganancia de libro de código G. La salida del multiplicador 132 se proporciona junto con el retardo L y la ganancia b de tono al filtro de síntesis de tono 134. La salida del filtro de síntesis de tono 134 se proporciona junto con los coeficientes LPC α i al filtro de síntesis de formantes 136. La salida del filtro de síntesis de formantes 136 se proporciona al postfiltro adaptativo 138 donde se filtra y se proporciona como voz reconstruida. Como se describe más adelante, en el codificador se implementa una versión del decodificador. El decodificador del codificador no incluye un postfiltro adaptativo 138, sino que incluye un filtro de ponderación perceptiva.
La Figura 6 es un diagrama de flujo que corresponde al funcionamiento del decodificador de la Figura 5. En el decodificador, la voz se reconstruye a partir de los parámetros recibidos (bloque 150). En particular, el valor recibido del índice de libro de código se introduce en el libro de código que genera un vector del código o valor de salida del libro de código (bloque 152). El multiplicador recibe el vector de código junto con la ganancia de libro de código G recibida y multiplica estos valores (bloque 154), siendo proporcionada la señal resultante al filtro de síntesis de tono. Debe observarse que la ganancia de libro de código G se reconstruye decodificando y cuantificando inversamente los parámetros DPCM recibidos. Al filtro de síntesis de tono se le facilitan los valores de retardo L y ganancia b de tono recibidos, junto con la señal de salida del multiplicador, para permitir el filtrado de la salida del multiplicador (bloque 156).
Los valores que se obtienen tras el filtrado del vector de libro de código por el filtro de síntesis de tono se introducen en el filtro de síntesis de formantes. Asimismo, al filtro de síntesis de formantes se le facilitan los coeficientes LPC α i para su utilización en el filtrado de la señal de salida del filtro de síntesis de tono (bloque 158). Los coeficientes LPC se reconstruyen en el decodificador para su interpolación mediante decodificación de los parámetros DPCM recibidos en frecuencias LSP cuantificadas, cuantificación inversa de las frecuencias LSP y
5 transformación de las frecuencias LSP en coeficientes LPC α i . La salida del filtro de síntesis de formantes se proporciona al postfiltro adaptativo en el que se enmascara el ruido de cuantificación y en el que la voz reconstruida se somete a control de ganancia (bloque 160). Se obtiene voz reconstruida (bloque 162) para su conversión analógica.
Con referencia a la ilustración del diagrama de bloques de las Figuras 7a y 7b, se
10 proporciona más información acerca de las técnicas de codificación de voz de la presente invención. En la Figura 7a, cada una de las tramas de las muestras de voz digitalizada se proporciona a un subsistema de ventana de Hamming 200, en el que la voz de entrada se somete a enventanado antes del cálculo de los coeficientes de autocorrelación en el subsistema de autocorrelación 202.
15 El subsistema de ventana de Hamming 200 y el subsistema de autocorrelación 202 se ilustran en un ejemplo de implementación en la Figura 8. El subsistema de ventana de Hamming 200 comprende una tabla de consulta 250, que habitualmente es una memoria de sólo lectura (ROM) de 80x16 bits, y un multiplicador 252. Para cada velocidad, la ventana de voz se centra entre las muestras 139a y 140a de cada trama de análisis que tiene una longitud
20 de 160 muestras. La ventana para calcular los coeficientes de autocorrelación está pues desplazada 60 tramas respecto de la trama de análisis. La selección de ventana se efectúa utilizando una tabla ROM que contiene 80 de los 160 valores WH(n), puesto que la ventana de Hamming es simétrica respecto del centro. El desplazamiento de la ventana de Hamming se lleva a cabo desviando el puntero de dirección
25 de la ROM 60 posiciones con respecto a la primera muestra de una trama de análisis. Estos valores son multiplicados con precisión simple con las correspondientes muestras de voz de entrada por el multiplicador 252. Supongamos que s(n) sea la señal de voz de entrada en la ventana de análisis. La señal de voz sometida a selección de ventana sw(n) es definida por:
imagen3
En la Tabla II se proporcionan ejemplos de valores hexadecimales del contenido de la tabla de consulta 250. Estos valores se interpretan como números en complemento a dos que tienen 14 bits fraccionarios, siendo leída la tabla de izquierda a derecha y de arriba abajo.
5 TABLA II
0x051f 0x0525 0x0536 0x0554 0x057d 0x05b1 0x05f2 0x063d
0x0694 0x06f6 0x0764 0x07dc 0x085e 0x08ec 0x0983 0x0a24 0x0ad0 0x0b84 0x0c42 0x0d09 0x0dd9 0x0eb0 0x0f90 0x1077 0x1166 0x125b 0x1357 0x1459 0x1560 0x166d 0x177f 0x1895 0x19af 0x1acd 0x1bee 0x1d11 0x1e37 0x1f5e 0x2087 0x21b0 0x22da 0x2403 0x252d 0x2655 0x277b 0x28a0 0x29c2 0x2ae1 0x2bfd 0x2d15 0x2e29 0x2f39 0x3043 0x3148 0x3247 0x333f 0x3431 0x351c 0x3600 0x36db 0x37af 0x387a 0x393d 0x39f6 0x3aa6 0x3b4c 0x3be9 0x3c7b 0x3d03 0x3d80 0x3df3 0x3e5b
0x3eb7 0x3f09 0x3f4f 0x3f89 0x3fb8 0x3fdb 0x3ff3 0x3fff
El subsistema de autocorrelación 202 comprende un registro 254, un multiplexor 256, un registro de desplazamiento 258, un multiplicador 260, un sumador 262, un registro de 10 desplazamiento circular 264 y una memoria tampón 266. Cada 20 ms, se obtienen muestras de voz de selección de ventana sw(n) y se bloquean en el registro 254. En la muestra sw(0), la primera muestra de una trama de análisis LPC, los registros de desplazamiento 258 y 264 se ponen a 0. En cada nueva muestra sw(n), el multiplexor 256 recibe una nueva señal de selección de muestra que permite la entrada de la muestra desde el registro 254. La nueva
15 muestra sw(n) se pasa también al multiplicador 260 donde se multiplica por la muestra sw(n-10), que es la última posición SR10 del registro de desplazamiento 258. El valor resultante se suma en el sumador 262 con el valor de la última posición CSR11 del registro de desplazamiento circular 264. Los registros de desplazamiento 258 y 260 son desplazados iterativamente una vez,
20 sustituyendo sw(n-1) por sw(n) en la primera posición SR1 del registro de desplazamiento 258 y sustituyendo el valor que previamente estaba presente en la posición CSR10. Tras el desplazamiento iterativo del registro de desplazamiento 258, la nueva señal de selección de muestra se retira de la entrada del multiplexor 256, permitiendo de ese modo que la muestra sw(n-9) que actualmente se halla en la posición SR10 del registro de desplazamiento 260 entre
25 en el multiplexor 256. En el registro de desplazamiento circular 264, el valor que se hallaba previamente en la posición CSR11 se desplaza hasta la primera posición CSR1. Una vez que la nueva señal de selección de muestra es retirada del multiplexor, el registro de desplazamiento 258 se prepara para proporcionar un desplazamiento circular de los datos del registro de desplazamiento como el del registro de desplazamiento circular 264.
Los registros de desplazamiento 258 y 264 se desplazan iterativamente 11 veces en total para cada muestra, efectuándose de ese modo 11 operaciones de multiplicación/acumulación. Una vez que se han introducido iterativamente 160 muestras, los resultados de autocorrelación, que están contenidos en el registro de desplazamiento circular
5 264, se transmiten iterativamente a la memoria tampón 266 como valores R(0)-R(10). Todos los registros de desplazamiento se ponen a cero, y el proceso se repite para la siguiente trama de muestras de voz enventanadas.
Con referencia de nuevo a la Figura 7a, cuando los coeficientes de autocorrelación para la trama de voz ya han sido calculados, el subsistema de determinación de velocidad 204 y el
10 subsistema de análisis LPC 206 utilizan estos datos para calcular, respectivamente, una velocidad de transmisión de datos de trama y los coeficientes LPC. Puesto que estas operaciones son independientes entre sí pueden calcularse en cualquier orden o incluso de forma simultánea. Con fines explicativos, la determinación de velocidad será descrita en primer lugar.
15 El subsistema de determinación de velocidad 204 tiene dos funciones: (1) determinar la velocidad de la trama actual, y (2) calcular un nuevo valor aproximado del nivel de ruido de fondo. La velocidad de la trama de análisis actual se determina inicialmente basándose en la energía de la trama actual, el cálculo aproximado anterior del nivel de ruido de fondo, la velocidad anterior y el mandato de velocidad del microprocesador de control. El nuevo nivel de
20 ruido de fondo se calcula utilizando el cálculo previo de nivel de ruido de fondo y la energía de trama actual. La presente invención utiliza una técnica de ajuste de umbral adaptativo para la determinación de la velocidad. Junto con el cambio de ruido de fondo se produce el cambio de umbrales que se utilizan para la selección de la velocidad. En la realización a modo de ejemplo
25 se calculan tres umbrales para determinar una selección de velocidad preliminar RTP. Los umbrales son las funciones cuadráticas del cálculo de ruido de fondo anterior, las cuales se muestran a continuación:
imagen3
siendo B el cálculo de ruido de fondo anterior.
La energía de la trama se compara con los tres umbrales T1(B), T2(B) y T3(B). Si la energía de la trama se halla por debajo de los tres umbrales, se selecciona la velocidad de transmisión más baja (de 1 Kbit/s), es decir, la velocidad 1/8, en la que RTP = 4. Si la energía de trama se halla por debajo de dos umbrales, se selecciona la segunda velocidad de transmisión (de 2 Kbit/s), es decir, la velocidad 1/4, en la que RTP = 3. Si la energía de trama se halla por debajo de un umbral sólo, se selecciona la tercera velocidad de transmisión (de 4 Kbit/s), es decir, la velocidad 1/2, en la que RTP = 2. Si la energía de la trama se halla por encima de los tres umbrales, se selecciona la velocidad de transmisión más alta (de 8 Kbit/s), es decir, la velocidad 1, en la que RTP = 1.
La velocidad preliminar RTP puede modificarse, entonces, basándose en la velocidad final de la trama anterior RTr. Si la velocidad preliminar RTP es inferior a la velocidad final de la trama anterior menos uno (RTr-1), se establece una velocidad intermedia RTm, siendo RTm= (RTr-1). Este procedimiento de modificación determina que la velocidad descienda lentamente al producirse una transición de una señal de alta energía a una señal de baja energía. No obstante, si la selección de velocidad inicial es mayor o igual a la velocidad anterior menos uno (RTr-1), la velocidad intermedia RTm se establece en el mismo valor que la velocidad preliminar RTP, es decir, RTm = RTP. En esta situación, la velocidad aumenta de inmediato, por lo tanto, cuando se produce una transición de una señal de baja energía a una señal de alta energía.
Por último, la velocidad intermedia RTm se modifica todavía más mediante mandatos de límite de velocidad de un microprocesador. Si la velocidad RTm es superior a la velocidad más alta permitida por el microprocesador, la velocidad inicial RT¡ se establece en el valor más alto posible. Del mismo modo, si la velocidad intermedia RTm es inferior a la velocidad más baja permitida por el microprocesador, la velocidad inicial RT¡ se establece en el valor más bajo permitido.
En ciertos casos, tal vez sea deseable codificar toda la voz a una velocidad determinada por el microprocesador. Los mandatos de límite de velocidad pueden utilizarse para establecer la velocidad de trama a la velocidad deseada, estableciendo las velocidades máxima y mínima permitidas en la velocidad deseada. Los mandatos de límite de velocidad pueden utilizarse en situaciones de control de velocidad especiales como, por ejemplo, el interbloqueo de velocidad, y la transmisión "atenuación-ráfaga", ambas descritas a continuación.
La Figura 9 proporciona un ejemplo de implementación del algoritmo de decisión de velocidad. Para iniciar el cálculo, el registro 270 se carga previamente con el valor 1 que se proporciona al sumador 272. Los registros de desplazamiento circulares 274, 276 y 278 se cargan respectivamente con el primer, el segundo y el tercer coeficiente de las ecuaciones cuadráticas de umbral (7)-(9). Por ejemplo, las posiciones última, intermedia y primera del registro de desplazamiento circular 274 se cargan respectivamente con el primer coeficiente de las ecuaciones con las cuales se calculan T1, T2 y T3. Del mismo modo, las posiciones última, intermedia y primera del registro de desplazamiento circular 276 se cargan respectivamente con el segundo coeficiente de las ecuaciones con las cuales se calculan T1, T2 y T3. Por último, las posiciones última, intermedia y primera del registro de desplazamiento circular 278 se cargan respectivamente con el término constante de las ecuaciones con las cuales se calculan T1, T2 y T3. En cada uno de los registros de desplazamiento circular 274, 276 y 278, el valor se obtiene desde la última posición.
Al calcular el primer umbral T1, el cálculo de ruido de fondo de la trama anterior B se eleva al cuadrado multiplicando el valor por sí mismo en el multiplicador 280. E! valor B2 resultante se multiplica por el primer coeficiente, -5,544613(10-6), que se obtiene desde la última posición del registro de desplazamiento circular 274. Este valor resultante se suma en el sumador 286 con el producto del ruido de fondo B y el segundo coeficiente, 4,047152, obtenido desde la última posición del registro de desplazamiento circular 276, del multiplicador 284. El valor de salida del sumador 286 se suma a continuación en el sumador 288 con el término constante, 363,1293, obtenido desde la última posición del registro de desplazamiento circular 278. La salida del sumador 288 es el valor calculado de T1.
El valor calculado de T1 obtenido del sumador 290 se resta en el sumador 288 del valor de energía de trama Ef que, en la realización a modo de ejemplo, es el valor R(0) del dominio lineal, proporcionado por el subsistema de autocorrelación.
En una implementación alternativa, la energía de trama Ef también puede representarse en el dominio logarítmico en dB, donde se calcula aproximadamente mediante el logaritmo del primer coeficiente de autocorrelación R(0) normalizado por la longitud efectiva de la ventana:
imagen1
siendo LA la longitud de la ventana de autocorrelación. También debe sobrentenderse que la actividad vocal puede medirse asimismo a partir de otros parámetros diversos, que incluyen la ganancia de predicción de tono o la ganancia de predicción de formantes Ga:
imagen1
siendo E(10) la energía del residuo de predicción tras la 10a iteración y E(0) la energía del residuo de predicción LPC inicial, descrita posteriormente con respecto al análisis LPC, que es igual a R(0).
A partir de la salida del sumador 290, el complemento del bit de signo de la diferencia en complemento a dos resultante es extraído por el comparador o el limitador 292 y proporcionado al sumador 272, donde se suma con la salida del registro 270. Por lo tanto, si la diferencia entre R(0) y T1 es positiva, el registro 270 se aumenta en uno. Si la diferencia es negativa, el registro 270 permanece igual.
Los registros circulares 274, 276 y 278 se desplazan iterativamente, obteniéndose en la salida de los mismos los coeficientes de la ecuación para T2, es decir, la ecuación (8). El proceso de calcular el valor umbral T2 y compararlo con la energía de la trama se repite como se ha descrito en relación con el proceso para el valor umbral T1. Los registros circulares 274, 276 y 278 vuelven a desplazarse iterativamente, obteniéndose los coeficientes de la ecuación para T3, es decir, la ecuación (9), a la salida de los mismos. El cálculo del valor umbral T3 y la comparación con la energía de trama ya han sido descritos anteriormente. Una vez realizados los tres cálculos y comparaciones de umbral, el registro 270 contendrá el cálculo de velocidad inicial RT¡. El cálculo de velocidad preliminar RTP es proporcionado a la lógica de descenso de velocidad 294. A la lógica 294 también se le proporciona la velocidad final de la trama anterior RTr desde el subsistema de cuantificacíón de frecuencias LSP que está almacenado en el registro 298. La lógica 296 calcula el valor (RTr-1) y, en la salida, proporciona el valor más alto entre el cálculo de velocidad preliminar RTP y el valor (RTr-1). El valor RTm se proporciona a la lógica del limitador de velocidad 296.
Como se ha mencionado anteriormente, el microprocesador proporciona mandatos de límite de velocidad al vocodificador, en particular, a la lógica 296. En una implementación de procesador de señales digitales, este mandato se recibe en la lógica 296 antes de que la parte de análisis LPC del proceso de codificación haya terminado. La lógica 296 asegura que la velocidad no sobrepase los límites de velocidad y modifica el valor RTm si rebasa los límites. Si el valor RTm se halla dentro del intervalo de velocidades permitidas, la lógica 296 lo proporciona como valor de velocidad inicial RTi. El valor de velocidad inicial RTi es pasado desde la lógica 296 hasta el subsistema de cuantificación LSP 210 de la Figura 7a.
El cálculo de ruido de fondo mencionado anteriormente se utiliza en el cálculo de los umbrales de velocidad adaptativos. Para la trama actual, el cálculo de ruido de fondo de trama anterior B se utiliza para establecer los umbrales de velocidad para la trama actual. No obstante, para cada trama, el cálculo de! ruido de fondo se actualiza para su utilización en la determinación de los umbrales de velocidad para la siguiente trama. El nuevo cálculo de ruido de fondo B' se determina en la trama actual basándose en el cálculo de ruido de fondo de trama anterior B y la energía de la trama actual Ef.
Cuando se determina el nuevo cálculo de ruido de fondo B' para su utilización durante la siguiente trama (como el cálculo de ruido de fondo de trama anterior B) se calculan dos valores. El primer valor V1 es simplemente la energía de la trama actual Ef. El segundo valor V2 es el mayor de B+1 y KB, siendo K = 1,00547. Para impedir que el segundo valor aumente demasiado, éste es obligado a permanecer por debajo de una constante alta M = 160.000. Se elige el menor de los dos valores V1 y V2 como el nuevo cálculo de ruido de fondo B'.
Matemáticamente,
imagen1
y el nuevo cálculo de ruido de fondo B' es:
imagen1
siendo mín(x, y) el mínimo de x e y, y max(x, y) el máximo de x e y.
La Figura 9 muestra además un ejemplo de implementación del algoritmo de cálculo de ruido de fondo. El primer valor V1, es simplemente la energía de trama actual Ef proporcionada directamente a una entrada del multiplexor 300.
El segundo valor V2 se calcula a partir de los valores KB y B+1, que se calculan en primer lugar. Cuando se calculan los valores KB y B+1, el cálculo de ruido de fondo de trama anterior B almacenado en el registro 302 se pasa al sumador 304 y al multiplicador 306. Debe observarse que el cálculo de ruido de fondo de trama anterior B almacenado en el registro 302 para su utilización en la trama actual es igual al nuevo cálculo de ruido de fondo B' efectuado en la trama anterior. Al sumador 304 también se le proporciona un valor de entrada de 1 a sumar con el valor B para generar el término B+1. Al multiplicador 304 también se le proporciona un valor de entrada K a multiplicar con el valor B para generar el término KB. Los términos B+1 y KB se pasan respectivamente desde el sumador 304 y el multiplicador 306 hasta entradas independientes del multiplexor 308 y el sumador 310.
El sumador 310 y el comparador o limitador 312 se utilizan para seleccionar el mayor de los términos B+1 y KB. El sumador 310 resta el término B+1 de KB y proporciona el valor resultante al comparador o limitador 312. El limitador 312 proporciona una señal de control al multiplexor 308 para seleccionar como salida el mayor de los términos B+1 y KB. El término B+1 o KB seleccionado pasa desde el multiplexor 308 hasta el limitador 314, que es un limitador de tipo de saturación, que proporciona el término seleccionado si éste es inferior al valor
5 constante M, o el valor M si éste es superior al valor M. La salida del limitador 314 es proporcionada como segunda entrada al multiplexor 300 y como entrada al sumador 316.
Asimismo, el sumador 316 recibe en otra entrada el valor de energía de trama Ef. El sumador 316 y el comparador o limitador 318 se utilizan para seleccionar el menor valor entre el valor Ef y el término proporcionado por el limitador 314. El sumador 316 resta el valor de
10 energía de trama del valor proporcionado por el limitador 314 y pasa el valor resultante al comparador o limitador 318. El limitador 318 proporciona una señal de control al multiplexor 300 para seleccionar el menor entre el valor Ef y la salida del limitador 314. El valor seleccionado proporcionado por el multiplexor 300 se pasa como nuevo cálculo de ruido de fondo B' al registro 302 donde se almacena para su utilización durante la siguiente trama como cálculo de ruido de
15 fondo de trama anterior B. En relación nuevamente con la Figura 7, cada uno de los coeficientes de autocorrelación R(0)-R(10) pasa del subsistema de autocorrelación 202 al subsistema de análisis LPC 206. Los coeficientes LPC se calculan en el subsistema de análisis LPC 206, en el filtro de ponderación perceptiva 52 y en el filtro de síntesis de formantes 60.
20 Los coeficientes LPC pueden obtenerse mediante el procedimiento de autocorrelación utilizando la recursión de Durbin como se indica en el documento Digital Processing of Speech Signals (Tratamiento digital de señales de voz), de Rabiner y Schafer, Prentice-Hall, Inc., 1978. Esta técnica es un procedimiento de cálculo eficaz para obtener los coeficientes LPC. El algoritmo puede expresarse mediante las siguientes ecuaciones:
imagen4
imagen5
Los diez coeficientes LPC se designan mediante las etiquetas αj(10), para 1 < j < 10.
10 Antes de codificar los coeficientes LPC, debe asegurarse la estabilidad del filtro. La estabilidad del filtro se consigue escalando radialmente los polos del filtro hacia dentro por una pequeña cantidad, reduciéndose de este modo la magnitud de las respuestas de frecuencia de cresta y ampliándose al mismo tiempo el ancho de banda de las crestas. Esta técnica se denomina comúnmente ampliación de ancho de banda y se describe en mayor detalle en el
15 artículo "Spectral Smoothing in PARCOR Speech Analysís-Synthesis" ("Suavizado espectral en el análisis por síntesis de voz Parcor") de Tohkura et al., ASSP Transactions, diciembre de 1978. En el presente caso, la ampliación de ancho de banda puede llevarse a cabo de forma eficaz escalando cada coeficiente LPC. Por consiguiente, como se expone en la Tabla III, cada uno de los coeficientes LPC resultantes se multiplica por un correspondiente valor hexadecimal
20 para dar los coeficientes LPC de salida definitivos α1 -α10 del subsistema de análisis LPC 206. Debe observarse que los valores presentados en la Tabla III son hexadecimales y que los 15 bits fraccionarios se proporcionan en notación de complemento dos. De esta forma, el valor 0x8000 representa -1,0 y el valor 0x7333 (o 29491) representa 0,899994 = 29491/32768.
25 TABLA III
α1 = α1 (10) • 0x7333 α 2 = α 2 (10) • 0x67ae α 3 = α 3 (10) • 0x5d4f α 4 = α 4 (10) • 0x53fb α 5 = α 5 (10) • 0x4b95 α 6 = α 6 (10) • 0x4406 α 7 = α 7 (10) • 0x3d38 α 8 = α 8 (10) • 0x3719 α 9 = α 9 (10) • 0x3196
5
10
15
20
25
30 28
α = α (10) •0x2ca1
10 10
Las operaciones se llevan a cabo preferentemente con doble precisión, es decir, con divisiones, multiplicaciones y sumas de 32 bits. Se prefiere la exactitud de la doble precisión para mantener el rango dinámico de las funciones de autocorrelación y los coeficientes de filtro.
En la Figura 10, se muestra un diagrama de bloques de un ejemplo de forma de realización del subsistema LPC 206, que implementa las ecuaciones (15)-(20) anteriores. El subsistema LPC 206 consiste en tres partes de circuito, un circuito de cálculo principal 330 y dos circuitos de actualización de memoria tampón 332 y 334 que se utilizan para actualizar los registros del circuito de cálculo principal 330. El calculo empieza cargando en primer lugar los valores R(1)-R(10) en la memoria tampón 340. Para empezar el cálculo, el registro 348 se carga previamente con el valor R(1) por medio del multiplexor 344. El registro se inicializa con
( i −1)
R(0) por medio del multiplexor 350, la memoria tampón 352 (que contiene 10 α j valores) se inicializa con sólo ceros por medio del multiplexor 354, la memoria tampón 356 (que contiene
( i )
α j valores) se inicializa con todo ceros por medio del multiplexor 358, e i se establece en 1 para el ciclo de cálculo. Para mayor claridad, los contadores para i y j y otros controles de ciclo de cálculo no se muestran, ya que las personas expertas en la materia de diseño de lógica digital están muy capacitadas para llevar a cabo el diseño y la integración de este tipo de circuitos de lógica.
El valor αj (i-l) se obtiene de la memoria tampón 356 para calcular el término ki E(i-1) indicado en la ecuación (14). Cada valor R(i-j) se obtiene de la memoria tampón 340 para su multiplicación con el valor αj (i-l) en el multiplicador 360. Cada valor resultante se resta en el sumador 362 del valor del registro 346. El resultado de cada resta se almacena en el registro 346 desde donde se resta el siguiente término. Existen i-1 multiplicaciones y acumulaciones en el iésimo ciclo, como se indica en el término de suma de la ecuación (14). Al final de este ciclo, el valor del registro 346 se divide en el divisor 264 por el valor E(i-1) del registro 348 para proporcionar el valor ki.
El valor ki se utiliza a continuación en el circuito de actualización de la memoria tampón 332 para calcular el valor E(i) como en la ecuación (19) anterior, que se utiliza como valor E(i-1) durante el siguiente ciclo de cálculo de ki. El valor del ciclo actual ki se multiplica por sí mismo en el multiplicador 366 para obtener el valor ki2. El valor ki2 se resta a continuación del valor de 1 en el sumador 368. El resultado de esta suma se multiplica en el multiplicador 370 con el valor E(i) del registro 348. El valor resultante E(i) se introduce en el registro 348 por medio del multiplexor 350 para su almacenamiento como valor E(i-1) para el siguiente ciclo.
( i )
A continuación, el valor ki se utiliza para calcular el valor α i como en la ecuación (15). En este caso, el valor ki se introduce en la memoria tampón 356 por medio del multiplexor 358. Asimismo, el valor ki se utiliza en el circuito de actualización de memoria tampón 334 para calcular los valores αj (i-l) a partir de los valores αj (i-l) como en la ecuación (18). Los valores almacenados actualmente en la memoria tampón 352 se utilizan para calcular los valores αj (i) . Como se indica en la ecuación (18), existen i-1 cálculos en el ciclo i-ésimo. En la iteración i = 1, no se requieren dichos cálculos. Para cada valor de j del ciclo i-ésimo, se calcula un valor de αj (i) .
( i )( i −1)
Al calcular cada valor de α , cada valor de α se multiplica en el multiplicador 372 con el
ji − j
( i −1)
valor ki para pasarlo al sumador 374. En el sumador 374, el valor ki αi-j se resta del valor α j que también se introduce en el sumador 374. El resultado de cada multiplicación y suma se proporciona como valor de αj (i) a la memoria tampón 356 por medio del multiplexor 358.
( i ) (i)
Una vez que se han calculado los valores α i y αj para el ciclo actual, los valores recién calculados y almacenados en la memoria tampón 356 se pasan a la memoria tampón 352 por medio del multiplexor 354. Los valores almacenados en la memoria tampón 356 se almacenan en las correspondientes posiciones de la memoria tampón 352. De este modo, la memoria tampón 352 se actualiza para el cálculo del valor ki del ciclo i+1.
Es importante observar que los datos αj (i-l) generados al final del un ciclo anterior se utilizan durante el ciclo actual para generar actualizaciones αj (i) para el siguiente ciclo. Los datos del ciclo anterior deben conservarse para generar por completo datos actualizados para el siguiente ciclo. De esta manera, las dos memorias tampón 356 y 352 se utilizan para conservar estos datos de ciclo anterior hasta que se han generado por completo los datos actualizados.
La anterior descripción hace referencia a una transferencia paralela de datos desde la memoria tampón 356 hasta la memoria tampón 352 hasta finalizar el cálculo de los valores actualizados. Esta implementación asegura que los datos antiguos se conserven durante todo el proceso de cálculo de los nuevos datos, sin pérdida de datos antiguos hasta que no han sido totalmente utilizados, como ocurre en una disposición de una sola memoria tampón. La implementación descrita es una de las diversas implementaciones disponibles que logran el mismo resultado. Por ejemplo, las memorias tampón 352 y 356 pueden multiplexarse de tal forma que, tras calcular el valor ki para un ciclo actual a partir de los valores almacenados en una primera memoria tampón, las actualizaciones se almacenan en la segunda memoria tampón para su utilización durante el siguiente ciclo de cálculo. En este siguiente ciclo, el valor ki se calcula a partir de los valores almacenados en la segunda memoria tampón. Los valores de la segunda memoria tampón y el valor ki se utilizan para generar actualizaciones para el siguiente ciclo, siendo estas actualizaciones almacenadas en la primera memoria tampón. Esta alternancia de memorias tampón permite la retención de los valores del ciclo de cálculo en curso, a partir de los cuales se generan las actualizaciones, y al mismo tiempo, el almacenamiento de los valores de actualización sin sobrescribir los valores en curso que son necesarios para generar las actualizaciones. Utilizando esta técnica, puede reducirse al mínimo el retardo asociado al cálculo del valor ki para el siguiente ciclo. Por consiguiente, las actualizaciones para las multiplicaciones/acumulaciones del cálculo de ki pueden llevarse a cabo al mismo tiempo que se
(i-l)
calcula el siguiente valor de αj.
Los diez coeficientes LPC αj (10) , almacenados en la memoria tampón 356 tras la finalización del último ciclo de cálculo (i = 10), se escalan para llegar a los correspondientes coeficientes LPC αj finales. La conversión a escala se lleva a cabo proporcionando una señal de selección de escala a los multiplexores 344, 376 y 378 para que los valores de escala almacenados en la tabla de consulta 342, los valores hexadecimales de la Tabla III, se seleccionen para ser proporcionados a través del multiplexor 344. Los valores almacenados en la tabla de consulta 342 se extraen de forma iterativa en secuencia y se introducen en el multiplicador 360. Asimismo, el multiplicador 360 recibe por medio del multiplexor 376 los αj (10) valores obtenidos de forma secuencial del registro 356. Los valores escalados se proporcionan desde el multiplicador 360 por medio del multiplexor 378 como salida al subsistema de transformación LPC-LSP 208 (Figura 7).
Para codificar con eficacia cada uno de los diez coeficientes LPC escalados en un número reducido de bits, los coeficientes se transforman en frecuencias de pares de líneas espectrales como se describe en el artículo "Line Spectrum Pair (LSP) and Speech Data Compression" ("Par de líneas espectrales (LSP) y compresión de datos de voz"), de Soong y Juang, ICASSP '84. A continuación, se muestra el cálculo de los parámetros LSP en las ecuaciones (21) y (22) junto con la Tabla IV.
Las frecuencias LSP son las diez raíces existentes entre 0 yπ de las siguientes ecuaciones:
imagen1
en las que los valores pn y qn para n = 1, 2, 3, 4 y 5 se definen de forma recursiva en la Tabla IV.
5
10
15
20
25
30 31
TABLA IV
p1 =-( α + α )-1 q1=-( α -α )+1
1 10 110
p2 =-( α + α )-p1 q2=-( α -α ) +q1
29 29 p3 =-( α 3 + α 8 )-p2 q3=-( α 3 -α 8 ) +q2 p4 =-( α + α )-p3 q4=-( α -α ) +q3
47 47
p5 =-( α + α )-p4 q5=-( α -α ) +q4
56 56
En la Tabla IV, los valores α1 ,…, α10 son los coeficientes escalados resultantes del análisis LPC. Para simplificar, las diez raíces de las ecuaciones (21) y (22) se escalan por un valor entre 0 y 0,5. Una propiedad de las frecuencias LSP es que, si el filtro LPC es estable, las raíces de las dos funciones se alternan; es decir, la raíz más baja, ω1, es la raíz mas baja de P(ω), la siguiente raíz más baja, ω2, es la raíz más baja de Q(ω) y así sucesivamente. De las diez frecuencias, las frecuencias impares son las raíces de P(ω) y las frecuencias pares son las raíces de Q(ω).
La búsqueda de raíces se lleva a cabo como se describe a continuación En primer lugar, se calculan los coeficientes p y q con doble precisión sumando los coeficientes LPC como se ha mostrado anteriormente. A continuación, cada π /256 radianes se efectúa la evaluación de P(ω) y estos valores se evalúan después para comprobar cambios de signo que indican una raíz en dicha subzona. Si se halla una raíz, entonces se efectúa una interpolación lineal entre los dos límites de esta zona para calcular aproximadamente la ubicación de la raíz. La existencia de una raíz Q está garantizada entre cada par de raíces P (la quinta raíz Q se haya entre la quinta raíz Py π ), debido a la propiedad de ordenación de las frecuencias. Se lleva a cabo una búsqueda binaria entre cada par de raíces P para determinar la ubicación de las raíces Q. Para facilitar la implementación cada raíz P se calcula aproximadamente mediante el valor π /256 más cercano y la búsqueda binaria se efectúa entre estos cálculos aproximados. Si no se encuentra ninguna raíz, se utilizan los valores no cuantificados anteriores de las frecuencias LSP de la última trama en la que se hallaron las raíces.
En la Figura 11, se ilustra un ejemplo de implementación de los circuitos utilizados para generar las frecuencias LSP. La operación descrita anteriormente requiere un total de 257 posibles valores de coseno entre 0 y π , que se almacenan con doble precisión en una tabla de consulta, la tabla de consulta de cosenos 400, a la que accede el contador 402 de modulo 256. Para cada valor de j introducido en la tabla de consulta 400 se proporciona una salida de cos ω, cos 2ω, cos 3ω, cos 4ω y cos 5ω, donde:
imagen1
siendo j un valor del contador.
Los valores cos ω, cos 2ω, cos 3ω, cos 4ω obtenidos de la tabla de consulta 400 se introducen en un respectivo multiplicador 404, 406, 408 y 410, mientras que el valor de cos 5ω se introduce directamente en el sumador 412. Estos valores se multiplican en un respectivo multiplicador 404, 406, 408 y 410 con un respectivo valor de los valores p4, p3, p2 y p1 introducido en el mismo por medio de los multiplexores 414, 416, 418 y 420. Los valores resultantes de esta multiplicación también se introducen en el sumador 412. Además, el valor p5 se proporciona a través del multiplexor 422 al multiplicador 424, siendo el valor constante 0,5, es decir, 1/2, proporcionado también al multiplicador 424. El valor resultante obtenido del multiplicador 424 es proporcionado como otra entrada al sumador 412. Los multiplexores 414422 seleccionan entre los valores p1-p5 o q1-q5, en respuesta a una señal de selección de coeficientes p/q, para utilizar los mismos circuitos para calcular tanto los valores P(ω) como los valores Q(ω). Los circuitos para generar los valores p1-p5 o q1-q5 no se muestran, pero se implementan fácilmente utilizando una serie de sumadores para sumar y restar los coeficientes LPC y los valores p1-p5 o q1-q5, junto con registros para almacenar los valores p1-p5 o q1-q5.
El sumador 412 suma los valores de entrada para proporcionar el valor de salida P(ω)o Q(ω) según el caso. Para facilitar la descripción, se considerará el caso de los valores de P(ω), siendo calculados los valores de Q(ω) de forma parecida utilizando los valores q1-q5. El valor actual de P(ω) se obtiene del sumador 412 y se almacena en el registro 426. El valor precedente de P(ω), almacenado previamente en el registro 426, se desplaza hasta el registro 428. Los bits de signo de los valores actual y anterior de P(ω) se someten a O exclusiva en la puerta O exclusiva 430 para dar una indicación de cruce por cero o de cambio de signo, en forma de una señal de habilitación que se envía al interpolador lineal 434. El valor actual y anterior de P(ω) también se pasan de los registros 426 y 428 al interpolador lineal 434, que es sensible a la señal de habilitación, para interpolar el punto entre los dos valores de P(ω) en el que se produce el cruce por cero. Este resultado de valor fraccionario de interpolación lineal, es decir, la distancia desde el valor j-1, se proporciona a la memoria tampón 436 junto con el valor j del contador 256. La puerta 430 también proporciona la señal de habilitación a la memoria tampón 436 que permite el almacenamiento del valor j y del correspondiente valor fraccionario FVj.
El valor fraccionario se resta del valor j cuando se introduce en el sumador 438 desde la memoria tampón 436 o, como alternativa, puede restarse del mismo cuando se introduce en la memoria tampón 436. Por otro lado, puede utilizarse un registro de la línea j introducido en la memoria tampón 436 para que el valor j-1 se introduzca en la memoria tampón 436, siendo introducido el valor fraccionario también en la misma. El valor fraccionario puede sumarse al valor j-1 ya sea antes del almacenamiento en el registro 436 o bien tras la salida del mismo. En cualquier caso, el valor combinado de j + FVj o (j-1) + FVj se pasa al divisor 440 donde se divide
5 por el valor constante de entrada de 512. La operación de división puede efectuarse simplemente cambiando la ubicación binaria del punto en la palabra binaria representativa. Esta operación de división proporciona la conversión a escala necesaria para llegar a una frecuencia LSP entre 0 y 0,5.
Cada evaluación de función de P(ω) o Q(ω) requiere 5 consultas de coseno, 4
10 multiplicaciones con doble precisión y 4 sumas. Las raíces calculadas habitualmente sólo tienen una precisión de alrededor de 13 bits, y se almacenan con precisión simple. Las frecuencias LSP se proporcionan al subsistema de cuantificación LSP 210 (Figura 7) para la cuantificación.
Una vez que se han calculado las frecuencias LSP, éstas deben cuantificarse para la transmisión. Cada una de las diez frecuencias LSP se centra aproximadamente en torno a un 15 valor de descentramiento. Debe observarse que las frecuencias LSP se aproximan a los valores de descentramiento cuando la voz de entrada tiene características espectrales uniformes y no puede llevarse a cabo la predicción a corto plazo. Los descentramientos se restan en el codificador, y se utiliza un cuantificador DPCM simple. En el decodificador, se vuelve a sumar el descentramiento. En la tabla V se exponen los valores negativos hexadecimales del valor de
20 descentramiento, para cada frecuencia LSP, ω1-ω10, proporcionados por el subsistema de transformación LPC-LSP. Nuevamente, los valores dados en la Tabla V se hallan en notación de complemento dos con 15 bits fraccionarios. El valor hexadecimal 0x8000 (o -32768) representa -1,0. Por lo tanto, el primer valor de la Tabla V, el valor 0xfa2f (o -1489) representa 0,045441 = -1489/32768.
25
TABLA V
Frecuencia LSP
Valor de descentramiento negativo
ω1
0xfa2f
ω2
0xf45e
ω3
0xee8c
ω4
0xe8bb
ω5
0xe2e9
ω6
0xdd18
ω7
0xd746
ω8
0xd175
ω9
0xcba3
ω10
0xc5d2
EL predictor utilizado en el subsistema es 0,9 veces la frecuencia LSP cuantificada de la anterior trama almacenada en una memoria tampón del subsistema. Esta constante de disminución de 0,9 se inserta para que los errores de canal desaparezcan finalmente.
5 Los cuantificadores utilizados son lineales, pero varían en gama dinámica y tamaño de paso con la velocidad. Asimismo, en tramas de alta velocidad, se transmiten más bits para cada frecuencia LSP y, por consiguiente, el número de niveles de cuantificación depende de la velocidad. En la Tabla VI se muestra la asignación de bits y la gama dinámica de la cuantificación para cada frecuencia a cada una de las velocidades. Por ejemplo, a la velocidad
10 1, ω1 se cuantifica uniformemente utilizando 4 bits (es decir, en 16 niveles) siendo el nivel de cuantificación más alto 0,025 y el más bajo, -0,025.
TABLA VI
VELOCIDAD
Completa Media Cuarto Octavo
ω1
4: ±.0,025 2: ±.0,015 1: ±.0,01 1: ±.0,01
ω2
4: ±.0,04 2: ±.0,015 1: ±.0,01 1: ±.0,015
ω3
4: ±.0,07 2: ±.0,03 1: ±.0,01 1: ±.0,015
ω4
4: ±.0,07 2: ±.0,03 1: ±.0,01 1: ±.0,015
ω5
4: ±.0,06 2: ±.0,03 1: ±.0,01 1: ±.0,015
ω6
4: ±.0,06 2: ±.0,02 1: ±.0,01 1: ±.0,015
ω7
4: ±.0,05 2: ±.0,02 1: ±.0,01 1: ±.0,01
ω8
4: ±.0,05 2: ±.0,02 1: ±.0,01 1: ±.0,01
ω9
4: ±.0,04 2: ±.0,02 1: ±.0,01 1: ±.0,01
ω10
4: ±.0,04 2: ±.0,02 1: ±.0,01 1: ±.0,01
Total
40 bits 20 bits 10 bits 10 bits
15
Si los intervalos de cuantificación para la velocidad elegida por el algoritmo de decisión de velocidad no son suficientemente amplios o se produce un desbordamiento de pendiente, la velocidad se sube hasta la siguiente velocidad más alta. La velocidad continúa subiendo hasta 20 que da cabida a la gama dinámica o se alcanza la velocidad completa. En la Figura 12 se proporciona un ejemplo de ilustración de diagrama de bloques de una implementación de la
técnica de ascenso de velocidad opcional.
La Figura 12 es un diagrama de bloques que ilustra un ejemplo de implementación del subsistema de cuantificación LSP 210 que incluye los circuitos de ascenso de velocidad. En la Figura 12, las frecuencias LSP de la trama actual se pasan del divisor 440 (Figura 11) al registro 442, en el que se almacenan para ser proporcionadas durante una determinación de ascenso de velocidad en la siguiente trama. Las frecuencias LSP de la trama anterior y las frecuencias LSP de la trama actual son pasadas respectivamente del registro 440 y el divisor 440 a una lógica de ascenso de velocidad 442 para una determinación de ascenso de velocidad de la trama actual. La lógica de ascenso de velocidad 442 también recibe la decisión de velocidad inicial, junto con los mandatos de límite de velocidad desde el subsistema de determinación de velocidad 204. Para determinar si es necesario llevar a cabo un aumento de velocidad, la lógica 442 compara las frecuencias LSP de la trama anterior con las frecuencias LSP de la trama actual, basándose en la suma del cuadrado de la diferencia entre las frecuencias LSP de la trama actual y la trama anterior. El valor resultante se compara a continuación con un valor umbral que, si se sobrepasa, indica que es necesario un aumento de velocidad para asegurar la codificación de alta calidad de la voz. Cuando se sobrepasa el valor umbral, la lógica 442 aumenta la velocidad inicial en un nivel de velocidad para proporcionar una salida de la velocidad final a utilizar siempre en el codificador.
En la Figura 12, los valores de frecuencia LSP ω1-ω10 se introducen de uno en uno en el sumador 450 junto con el correspondiente valor de descentramiento. El valor de descentramiento se resta del valor LSP introducido y el resultado se pasa al sumador 452. El sumador 452 también recibe como entrada un valor del predictor, un valor LSP correspondiente a la trama anterior multiplicado por una constante de disminución. El valor de predictor es restado de la salida del sumador 450 por el sumador 452. La salida del sumador 452 se proporciona como entrada al cuantificador 454.
El cuantificador 454 consiste en el limitador 456, la tabla de consulta de gama dinámica mínima 458, la tabla de consulta de tamaño de paso inverso 460, el sumador 462, el multiplicador 464 y la máscara de bits 466. La cuantificación se lleva a cabo en el cuantificador 454, determinando en primer lugar si el valor de entrada se halla dentro de la gama dinámica del cuantificador 454. El valor de entrada se proporciona al limitador 456 que limita el valor de entrada a los límites superior e inferior de la gama dinámica si la entrada sobrepasa los límites proporcionados por la tabla de consulta 458. La tabla de consulta 458 proporciona los límites almacenados, según la Tabla VI, al limitador 456 en respuesta a la entrada de velocidad y al índice de frecuencia LSP i introducidos en el mismo. El valor obtenido del limitador 456 se introduce en el sumador 462 donde se resta del mínimo de la gama dinámica, proporcionado por la tabla de consulta 458. El valor obtenido de la tabla de consulta 458 se determina nuevamente mediante la velocidad y el índice de frecuencia LSP i, según los valores de gama dinámica mínima (prescindiendo del signo de los mismos) expuestos en la Tabla VI. Por ejemplo, el valor de la tabla de consulta 458 para (velocidad completa, ω1) es 0,025.
A continuación, la salida del sumador 462 se multiplica en el multiplicador 464 por un valor seleccionado en la tabla de consulta 460. La tabla de consulta 460 contiene valores correspondientes al inverso del tamaño de paso para cada valor LSP de cada velocidad, según los valores expuestos en la Tabla VI. El valor obtenido de la tabla de consulta 460 se selecciona mediante la velocidad y el índice de frecuencia LSP i. Para cada velocidad e índice de frecuencia LSP i, el valor almacenado en la tabla de consulta 460 es la cantidad ((2n-1)/gama dinámica), siendo n el número de bits que representan el valor cuantificado. Además, por ejemplo, el valor de la tabla de consulta 460 para (velocidad 1, ω1) es (15/0,05) ó 300.
La salida del multiplicador 464 es un valor entre 0 y 2n-1 que se proporciona a la máscara de bits 466. La máscara de bits 466, en respuesta a la velocidad y al índice de frecuencia LSP, extrae del valor de entrada el número adecuado de bits según la Tabla VI. Los bits extraídos son los n bits de valor entero del valor de entrada para proporcionar una salida de bits limitada �ωi. Los valores �ωi son las frecuencias LSP cuantificadas centradas de codificación diferencial que se transmiten a través del canal representativo de los coeficientes LPC.
El valor �ωi también se aplica como retroalimentación a través de un predictor que comprende en el cuantificador inverso 468, el sumador 470, la memoria tampón 472 y el multiplicador 474. El cuantificador inverso 468 consiste en la tabla de consulta de tamaño de paso 476, la tabla de consulta de gama dinámica mínima 478, el multiplicador 480 y el sumador
482.
El valor �ωi se introduce en el multiplicador 480 junto con un valor seleccionado en la tabla de consulta 476. La tabla de consulta 476 contiene los valores correspondientes al tamaño de paso de cada valor LSP para cada una de las velocidades, según los valores expuestos en la Tabla VI. El valor obtenido de la tabla de consulta 476 se selecciona mediante la velocidad y el índice de frecuencia LSP i. Para cada velocidad e índice de frecuencia LSP i, el valor almacenado en la tabla de consulta 460 es la cantidad (gama dinámica/2n-1), siendo n el número de bits que representan el valor cuantificado. El multiplicador 480 multiplica los valores de entrada y proporciona una salida al sumador 482.
El sumador 482 recibe como otra entrada un valor de la tabla de consulta 478. El valor obtenido de la tabla de consulta 478 es determinado mediante la velocidad y el índice de frecuencia LSP i, según los valores de gama dinámica mínima (prescindiendo del signo de los mismos) expuestos en la Tabla VI. El sumador 482 suma el valor de gama dinámica mínima proporcionado por la tabla de consulta 478 con el valor obtenido del multiplicador 480, pasándose el valor resultante al sumador 470.
El sumador 470 recibe como otra entrada el valor de predictor obtenido del multiplicador
474. Estos valores se suman en el sumador 470 y se almacenan en la memoria tampón de almacenamiento de diez palabras 472. Cada valor de trama anterior obtenido de la memoria tampón 472 durante la trama actual se multiplica en el multiplicador 474 por la constante 0,9. Los valores de predictor obtenidos del multiplicador 474 se proporcionan a los sumadores 452 y 470 como se ha descrito anteriormente.
En la trama actual, el valor almacenado en la memoria tampón 472 es el valor LSP reconstruido de la trama anterior menos el valor de descentramiento. Del mismo modo, en la trama actual, el valor obtenido del sumador 470 es el valor LSP reconstruido de la trama actual al que también se ha sustraído el descentramiento. En la trama actual, las salidas de la memoria tampón 472 y del sumador 470 se proporcionan, respectivamente, a los sumadores 484 y 486, en los que el descentramiento se suma a los valores. Los valores obtenidos de los sumadores 484 y 486 son, respectivamente, los valores de frecuencia LSP reconstruidos de la trama anterior y los valores de frecuencia LSP reconstruidos de la trama actual. El suavizado LSP se lleva a cabo en las velocidades más bajas según la ecuación:
imagen1
siendo a = 0 para velocidad completa; a = 0,1 para media velocidad; a = 0,5 para cuarto de velocidad; y a = 0,85 para octavo de velocidad.
Los valores ω’i,f-1 de frecuencia LSP reconstruidos de la trama anterior (f-1) y los valores ω’i,f de frecuencia LSP reconstruidos de la trama actual (f) se obtienen del subsistema de cuantificación 210 y se pasan al subsistema de interpolación LSP de subtramas de tono 216 y al subsistema de interpolación LSP de subtramas de libro de código 226. Los valores cuantificados de frecuencia LSP �ωi se pasan del subsistema de cuantificación LSP 210 al subsistema ensamblador de datos 236 para la transmisión.
Los coeficientes LPC utilizados en el filtro de ponderación y el filtro de síntesis de formantes descritos a continuación son adecuados para la subtrama de tono que se está codificando. Para las subtramas de tono, la interpolación de los coeficientes LPC se efectúa una vez para cada subtrama de tono tal como se indica en la Tabla VIl:
TABLA VII Velocidad 1:
para subtrama de tono 1 ωi = 0.75ω’i,f-1 + 0.25ω’i,f para subtrama de tono 2 ωi = 0.5ω’i,f-1 + 0.5ω’i,f para subtrama de tono 3 ωi = 0.25ω’i,f-1 + 0.75ω’i,f para subtrama de tono 4
ωi= ω’i,f
Velocidad 1/2:
ωi = 0.625ω’i,f-1 + 0.375ω’i,f para subtrama de tono 1 ωi = 0.125ω’i,f-1 + 0.875ω’i,f para subtrama de tono 2
Velocidad 1/4:
ωi = 0.625ω’i,f-1 + 0.375ω’i,f para subtrama de tono 1
Velocidad 1/8:
No se efectúa búsqueda del tono.
El contador de subtramas de tono 224 se utiliza para mantener un registro de las
5 subtramas de tono para las que se calculan los parámetros de tono, siendo la salida del contador proporcionada al subsistema de interpolación LSP de subtramas de tono 216 para su utilización en la interpolación LSP de subtramas de tono. El contador de subtramas de tono 224 también proporciona una salida que indica la finalización de la subtrama de tono para la velocidad seleccionada al subsistema de empaquetamiento de datos 236.
10 La Figura 13 ilustra un ejemplo de implementación del subsistema de interpolación LSP de subtramas de tono 216 para interpolar las frecuencias LSP para la subtrama de tono pertinente. En la Figura 13, las frecuencias LSP anteriores y actuales ω’i,f-1 y ω’i,f se pasan, respectivamente, desde el subsistema de cuantificación LSP a los multiplicadores 500 y 502 donde se multiplican, respectivamente, por una constante proporcionada por la memoria 504.
15 La memoria 504 almacena un grupo de valores constantes y, de conformidad con una entrada del número de subtramas de tono de un contador de subtramas de tono, que se describirá más adelante, proporciona una salida de constantes como las expuestas en la Tabla VII para su multiplicación con los valores LSP de trama anterior y actual. Las salidas de los multiplicadores 500 y 502 se suman, en el sumador 506, para proporcionar los valores de frecuencia LSP para
20 la subtrama de tono según las ecuaciones de la Tabla VIl. Para cada subtrama de tono, una vez que se ha llevado a cabo la interpolación de las frecuencias LSP, se efectúa una transformación LSP-LPC inversa para obtener los coeficientes actuales de A(z) y el filtro de ponderación perceptiva. Los valores de frecuencia LSP interpolados se proporcionan, por lo tanto, al subsistema de transformación LSP-LPC 218 de la Figura 7.
25 El subsistema de transformación LSP-LPC 218 convierte las frecuencias LSP interpoladas nuevamente en coeficientes LPC para su utilización en la resíntesis de voz. Otra vez, el artículo de referencia mencionado anteriormente "Line Spectrum Pair (LSP) and Speech Data Compression" (Par de líneas espectrales (LSP) y compresión de datos de voz), de Soong y Juang describe detalladamente el algoritmo implementado en la presente invención en el proceso de transformación e indica cómo puede deducirse. Los aspectos de cálculo permiten expresar P(z) y Q(z) en términos de las frecuencias LSP mediante las ecuaciones:
imagen1
siendo wi las raíces del polinomio P' (frecuencias impares), y
imagen1
siendo wi las raíces del polinomio Q' (frecuencias pares), y
imagen1
El cálculo se lleva a cabo calculando en primer lugar los valores 2cos(ωi) para todas las frecuencias impares i. Este cálculo se realiza utilizando una expansión en serie de Taylor de quinto orden del coseno alrededor de cero (0) con precisión simple. Una expansión de Taylor alrededor del punto más cercano de la tabla de cosenos podría ser en potencia más precisa, pero la expansión alrededor de 0 consigue una precisión suficiente y no conlleva una cantidad excesiva de cálculos.
Seguidamente, se calculan los coeficientes del polinomio P. Los coeficientes de un producto de polinomios es la convolución de las secuencias de coeficientes de los polinomios individuales. A continuación, se calcula la convolución de las 6 secuencias de z coeficientes de polinomio de la ecuación (25) anterior, {1, -2cos(ω1), 1}, {1, -2cos(ω3), 1}... {1,-2cos(ω9), 1} y {1,1}.
Una vez calculado el polinomio P, se repite el mismo procedimiento para el polinomio Q, en el que las 6 secuencias de z coeficientes de polinomio de la ecuación (26) anterior, {1, 2cos(ω2), 1}, {1, -2cos(ω4), 1} ... {1, -2cos(ω10), 1} y {1, -1} y los coeficientes adecuados se suman y dividen entre 2, es decir, se desplazan 1 bit, para generar los coeficientes LPC.
La Figura 13 muestra además en detalle un ejemplo de implementación del subsistema de transformación LSP-LPC. La parte de circuito 508 calcula el valor de -2cos(ωi) a partir del valor de entrada de ωi. La parte de circuito 508 consiste en la memoria tampón 509, los sumadores 510 y 515, los multiplicadores 511, 512, 514, 516 y 518 y los registros 513 y 515. Cuando se calculan los valores de -2cos(ωi), los registros 513 y 515 se ponen a cero. Puesto que este circuito calcula sen(ωi), primero se resta ωi, en el sumador 510, del valor constante de entrada π /2. Este valor es elevado al cuadrado por el multiplicador 511 y, a continuación, se calculan en secuencia los valores (π /2 -ωi)2, (π /2 -ωi)4, (π /2 -ωi)6y (π /2 -ωi)8 utilizando el multiplicador 512 y el registro 513.
Los coeficientes de la expansión en serie de Taylor c[1]-c[4] se introducen en secuencia en el multiplicador 514 junto con los valores obtenidos del multiplicador 512. Los valores obtenidos del multiplicador 514 se introducen en el sumador 515 donde se suman con la salida del registro 516 para proporcionar la salida c[1] (π /2 -ωi)2+ c[2] (π /2 -ωi)4+ c[3] (π /2 -ωi)6 + c[4] (π /2 -ωi)8 al multiplicador 517. La entrada al multiplicador 517 del registro 516 se multiplica en el multiplicador 517 por la salida (π /2 -ωi) del sumador 510. La salida del multiplicador 517, es decir, el valor cos(ωi), se multiplica en el multiplicador 518 por la constante -2 para proporcionar la salida -2cos(ωi). El valor -2cos(ωi) se proporciona a la parte de circuito 520.
La parte de circuito 520 se utiliza en el cálculo de los coeficientes del polinomio P. La parte de circuito 520 consiste en la memoria 521, el multiplicador 522 y el sumador 523. El conjunto de ubicaciones de memoria P(1) ... P(11) se establecen en 0 excepto P(1) que establece en 1. Los valores indexados antiguos -2cos(ωi) se introducen en el multiplicador 524 para efectuar la convolución de (1, -2cos(ωi), 1) siendo 1 ≤ i ≤ 5, 1 ≤ j ≤ 2i+1, P(j) = 0 para j<1. La parte de circuito 520 se duplica (no se muestra) para calcular los coeficientes del polinomio Q. Los nuevos valores finales resultantes de P(1) -P(11) y Q(1) -Q(11) se proporcionan a la parte de circuito 524.
A la parte de circuito 524 se le proporcionan diez coeficientes LPC α i , siendo i un valor entre 1 y 10, para acabar el cálculo de la subtrama de tono. La parte de circuito 524 consiste en las memorias tampón 525 y 526, los sumadores 527, 528 y 529 y el divisor o desplazador de bits 530. Los valores P(i) y Q(i) finales se almacenan en las memorias tampones 525 y 526. Los valores P(i) y P(i+1) se suman en el sumador 527, mientras que los correspondientes valores Q(i) y Q(i+1) se restan en el sumador 528, para 1 ≤ i ≤ 10. La salida de los sumadores 527 y 528, respectivamente P(z) y Q(z), se introducen en el sumador 529 donde se suman y se proporcionan como el valor (P(z) + Q(z)). La salida del sumador se divide entre dos desplazando los bits una posición. Cada valor con desplazamiento de bit de (P(z) + Q(z))/2 es un coeficiente LPC α i de salida. Los coeficientes LPC de subtrama de tono se proporcionan al subsistema de búsqueda de tono 220 de la Figura 7.
Asimismo, las frecuencias LSP se interpolan para cada subtrama de libro de código
determinada mediante la velocidad seleccionada, excepto para la velocidad completa. La interpolación se calcula de idéntica manera a las interpolaciones LSP de subtrama de tono. Las interpolaciones LSP de subtrama de libro de código se calculan en el subsistema de interpolación LSP de subtramas de libro de código 226 y se proporcionan al subsistema de transformación LSP-LPC 228 donde la transformación se calcula de modo parecido al subsistema de transformación LSP-LPC 218.
Como se ha descrito en relación con la Figura 3, la búsqueda del tono es una técnica de análisis por síntesis, en la que la codificación se efectúa seleccionando parámetros que reducen al mínimo el error entre la voz de entrada y la voz sintetizada utilizando dichos parámetros. En la búsqueda del tono, la voz se sintetiza utilizando el filtro de síntesis de tono cuya respuesta se expresa en la ecuación (2). Cada 20 ms, la trama de voz se subdivide en un número de subtramas de tono que, como se ha descrito anteriormente, depende de la velocidad de transmisión de datos elegida para la trama. Una vez por cada subtrama de tono, se calculan los parámetros b y L, es decir, la ganancia y el retardo de tono, respectivamente. En el presente ejemplo de implementación, el retardo de tono L oscila entre 17 y 143 y, por motivos de transmisión, L=16 se reserva para el caso en que b=0.
El codificador de voz utiliza un filtro de ponderación perceptiva de ruido de la forma establecida en la ecuación (1). Como se ha mencionado anteriormente, el propósito del filtro de ponderación perceptiva es ponderar el error a frecuencias de menos potencia para reducir el efecto del ruido relacionado con el error. El filtro de ponderación perceptiva se obtiene a partir del filtro de predicción a corto plazo hallado anteriormente. Los coeficientes LPC utilizados en el filtro de ponderación, y el filtro de síntesis de formantes descrito más adelante, son los valores interpolados adecuados para la subtrama que se está codificando.
Cuando se efectúan las operaciones de análisis por síntesis, se utiliza una copia del decodificador/sintetizador de voz en el codificador. La forma del filtro de síntesis utilizado en el codificador de voz es obtenida mediante las ecuaciones (3) y (4). Las ecuaciones (3) y (4) corresponden a un filtro de síntesis de voz del decodificador seguido del filtro de ponderación perceptiva, denominado pues filtro de síntesis ponderada.
La búsqueda del tono se lleva a cabo bajo el supuesto de una contribución cero del libro de código en la trama actual, es decir, G = 0. Para cada retardo de tono posible, L, la voz se sintetiza y compara con la voz original. El error entre la voz de entrada y la voz sintetizada es ponderado por el filtro de ponderación perceptiva antes de que su error cuadrático medio (MSE) sea calculado. El objetivo de esto es elegir valores de L y b, de entre todos los valores posibles de L y b, que reducen al mínimo el error entre la voz ponderada perceptivamente y la voz sintetizada ponderada perceptivamente. La reducción al mínimo del error puede expresarse
mediante la siguiente ecuación:
imagen1
siendo LP el número de muestras de la subtrama de tono que, en el ejemplo de forma de realización, es 40 para una subtrama de tono de velocidad completa. Se calcula la ganancia de tono, b, que reduce al mínimo el MSE. Estos cálculos se repiten para todos los valores permitidos de L, y se eligen los valores de L y b que generan el MSE mínimo para el filtro de tonos.
El cálculo del retardo de tono óptimo incluye el residuo de formantes (p(n) en la Figura 3) para el tiempo entre n = -Lmáx y n = (LP-Lmln) -1, siendo Lmáx el valor de retardo de tono máximo, Lmln el valor de retardo de tono mínimo y LP la longitud de la subtrama de tono para la velocidad seleccionada, y siendo n = 0 el inicio de la subtrama de tono. En el ejemplo de forma de realización Lmáx = 143 y Lmln = 17. Utilizando el modelo de numeración proporcionado en la Figura 14, para velocidad 1/4, n = -143 a n = 142; para velocidad 1/2, n = -143 a n = 62; y para velocidad 1, n = -143 a n = 22. Para n<0, el residuo de formantes es sencillamente la salida del filtro de tonos de las subtramas de tono anteriores, que se conserva en la memoria del filtro de tonos y se denomina residuo de formantes de bucle cerrado. Para n ≥ 0, el residuo de formantes es la salida de un filtro de análisis de formantes que tiene una característica de filtro de A(z) en el que la entrada son las muestras de voz de la trama de análisis actual. Para n ≥ 0, el residuo de formantes se denomina residuo de formantes de bucle abierto y será exactamente p(n) si el filtro de tonos y el libro de código realizan una predicción perfecta en esta subtrama. En relación con las Figuras 14-17, se proporcionará más información acerca del cálculo del retardo de tono óptimo a partir de los valores de residuo de formantes asociados.
La búsqueda del tono se efectúa con respecto a 143 muestras reconstruidas de residuos de formantes de bucle cerrado, p(n) para n < 0, más LP -Lmin muestras no cuantificadas de residuos de formantes de bucle abierto, po(n) para n ≥ 0. De forma eficaz y gradual, la búsqueda que fundamentalmente es una búsqueda de bucle abierto en la que L es pequeño, y por lo tanto la mayoría de las muestras de residuo utilizadas son n > 0, se convierte en una búsqueda que principalmente es una búsqueda de bucle cerrado donde L es grande, y por lo tanto todas las muestras de residuo utilizadas son n < 0. Por ejemplo, utilizando el modelo de numeración proporcionado en la Figura 14 a velocidad completa, en el que la subtrama de tono consiste en 40 muestras de voz, la búsqueda del tono empieza utilizando el grupo de muestras de residuos de formantes numeradas de n = -17 a n = 22. En este modelo, desde n = -17 hasta n = -1, las muestras son muestras de residuos de formantes de bucle cerrado, mientras que desde n = 0 hasta n = 22, las muestras son muestras de residuos de formantes de bucle abierto. El siguiente grupo de muestras de residuos de formantes utilizado en la determinación del retardo de tono óptimo son las muestras numeradas de n = -18 a n = 21. Nuevamente, desde n = -18 hasta n =
5 -1, las muestras son muestras de residuos de formantes de bucle cerrado, mientras que desde n = 0 hasta n = 21, las muestras son muestras de residuos de formantes de bucle abierto. Este proceso continúa con los grupos de muestras hasta que se obtiene el retardo de tono para el último grupo de muestras de residuos de formantes, n = -143 a n = -104.
Como se ha descrito anteriormente en relación con la ecuación (28), el objetivo es
10 reducir al mínimo el error entre x(n), la voz ponderada perceptivamente menos la respuesta de entrada cero (ZIR) del filtro de formantes ponderados, y x'(n), la voz sintetizada ponderada perceptivamente que no tiene asignada memoria en los filtros, respecto de todos los valores posibles de L y b, dada una contribución cero del libro de código estocástico (G=0). La ecuación
(28) puede rescribirse en relación con b de la siguiente forma: 15
imagen1
20 donde
imagen1
25 siendo y(n) la voz sintetizada ponderada con el retardo de tono L cuando b=1, y h(n) la respuesta impulsiva del filtro de síntesis de formantes ponderados que tiene la característica de filtro según la ecuación (3).
Este proceso de reducción al mínimo es equivalente a incrementar al máximo el valor EL, donde: 30
imagen1
35 donde,
y,
imagen1
La b óptima para el L dado resulta ser:
imagen1
Esta búsqueda se repite para todos los valores permitidos de L. La b óptima se limita a valores positivos y, por ello, un L que dé por resultado un valor Exy negativo se ignora en la búsqueda. Por último, se eligen para la transmisión el retardo, L, y la ganancia de tono, b, que incrementan al máximo EL.
Como se ha mencionado anteriormente, x(n) es en realidad la diferencia ponderada perceptivamente entre la voz de entrada y la ZIR del filtro de formantes ponderados, debido a que para la convolución recursiva, expuesta más adelante en las ecuaciones (35) -(38), el supuesto es que el filtro A(z) siempre empieza por 0 en la memoria de filtro. No obstante, el caso real no es el del filtro que empieza con un 0 en la memoria de filtro. En síntesis, el filtro tendrá un estado que persiste desde la subtrama anterior. En la implementación, los efectos del estado inicial se restan de la voz ponderada perceptivamente al inicio. De esta forma, sólo es necesario calcular para cada L la respuesta a p(n) del filtro de régimen permanente A(z), con todas las memorias inicialmente establecidas en 0, pudiéndose utilizar la convolución recursiva. Sólo es necesario calcular una vez este valor de x(n), pero es necesario calcular y(n), la respuesta a estado cero del filtro de formantes a la salida del filtro de tonos, para cada retardo L. El cálculo de cada y(n) incluye muchas multiplicaciones redundantes, que no es necesario calcular para cada retardo. El procedimiento de convolución recursiva descrito a continuación se utiliza para reducir al mínimo los cálculos necesarios.
En relación con la convolución recursiva, el valor yL(n) es definido por el valor y(n), siendo:
o
imagen1
A partir de las ecuaciones (32) y (33) puede observarse que:
imagen1
De esta forma, una vez que se ha realizado la convolución inicial para y17(n), el resto de convoluciones puede efectuarse de forma recursiva, reduciendo en gran medida el número de cálculos necesarios. En el ejemplo proporcionado anteriormente para la velocidad 1, el valor y17(n) se calcula mediante la ecuación (36) utilizando el grupo de muestras de residuos de formantes numerados de n = -17 a n = 22.
En relación con la Figura 15, el codificador incluye un duplicado del decodificador de la Figura 5, el subsistema de decodificador 235 de la Figura 7, en ausencia del postfiltro adaptativo. En la Figura 15, la entrada al filtro de síntesis de tono 550 es el producto del valor de libro de código C|(n) y la ganancia G de libro de código. Las muestras de residuos de formantes proporcionadas p(n) se introducen en el filtro de síntesis de formantes 552 donde se filtran y proporcionan como muestras de voz reconstruidas s'(n). Las muestras de voz reconstruidas s’(n) se restan de las correspondientes muestras de voz de entrada s(n) en el sumador 554. La diferencia entre las muestras s(n)' y s(n) se introduce en el filtro de ponderación perceptiva 556. En cuanto al filtro de síntesis de tono 550, el filtro de síntesis de formantes 552 y el filtro de ponderación perceptiva 556, cada uno de estos filtros contiene una memoria del estado del filtro, siendo MP la memoria del filtro de síntesis de tono 550, Ma la memoria del filtro de síntesis de formantes 552 y Mw la memoria del filtro de ponderación perceptiva 556.
El estado de filtro Ma del filtro de síntesis de formantes 552 del subsistema del decodificador es proporcionado al subsistema de búsqueda del tono 220 de la Figura 7. En la Figura 16, se proporciona el estado de filtro Ma para calcular la respuesta a la entrada cero (ZIR) del filtro 560 que calcula la ZIR del filtro de síntesis de formantes 552. El valor ZIR calculado se resta de las muestras de voz de entrada s(n) en el sumador 562, siendo el resultado ponderado por el filtro de ponderación perceptiva 564. La salida del filtro de ponderación perceptiva 564, xp(n), se utiliza como voz de entrada ponderada en las ecuaciones (28)-(34), en las que x(n) = xp(n).
De nuevo en relación con las Figuras 14 y 15, el filtro de síntesis de tono 550 ilustrado en la Figura 14 proporciona las muestras de residuo de formantes de bucle cerrado y bucle abierto, calculadas de la forma descrita anteriormente, al libro de código adaptativo 568 que, en esencia, es una memoria para almacenarlas. El residuo de formantes de bucle cerrado se almacena en la parte de memoria 570, mientras que el residuo de formantes de bucle abierto se almacena en la parte de memoria 572. Las muestras se almacenan según el ejemplo de modelo de numeración descrito anteriormente. El residuo de formantes de bucle cerrado se organiza como se ha descrito anteriormente en relación con la utilización para cada búsqueda de retardo de tono L. El residuo de formantes de bucle abierto se calcula a partir de las muestras de voz de entrada s(n) de cada subtrama de tono que utiliza el filtro de análisis de formantes 574 que utiliza la memoria Ma del filtro de síntesis de formantes 552 del subsistema del decodificador para calcular los valores de p0(n). Los valores de p0(n) para la subtrama de tono actual se desplazan a través de una serie de elementos de retardo 576 para proporcionarse a la parte de memoria 572 del libro de código adaptativo 568. Los residuos de formantes de bucle abierto se almacenan con la primera muestra de residuo generada numerada como 0 y la última numerada como 142.
En relación ahora con la Figura 16, la respuesta impulsiva h(n) del filtro de formantes se calcula en el filtro 566 y se pasa al registro de desplazamiento 580. Como se ha indicado anteriormente en relación con la respuesta impulsiva del filtro de formantes h(n), ecuaciones (29)-(30) y (35)-(38), estos valores se calculan para todas las subtramas de tono en el filtro. Para reducir más los requisitos de cálculo del subsistema del filtro de tonos, la respuesta impulsiva del filtro de formantes h(n) se trunca en 20 muestras.
El registro de desplazamiento 580 junto con el multiplicador 582, el sumador 584 y el registro de desplazamiento 586 se configuran para llevar a cabo la convolución recursiva entre los valores h(n) del registro de desplazamiento 580 y los valores c(m) del libro de código adaptativo 568, como se ha descrito anteriormente. Esta operación de convolución se efectúa para hallar la respuesta a estado cero (ZSR) del filtro de formantes a la entrada procedente de la memoria del filtro de tonos, suponiendo que la ganancia de tono está establecida en 1. Con el funcionamiento de los circuitos de convolución, n se desplaza iterativamente de Lp a 1 para cada m, mientras que m se desplaza iterativamente de (Lp-17)-1 a -143. En el registro 586, los datos no se transmiten cuando n = 1, y los datos no se bloquean cuando n = Lp. Los datos se proporcionan como salida desde los circuitos de convolución cuando m ≤ -17.
Después de los circuitos de convolución, se hallan los circuitos de correlación y comparación que llevan a cabo la búsqueda para hallar el retardo de tono L y la ganancia de tono b óptimos. Los circuitos de correlación, denominados también circuitos de error cuadrático medio (MSE), calculan la autocorrelación y la correlación cruzada de la ZSR con la diferencia ponderada perceptivamente entre la ZIR del filtro de formantes y la voz de entrada, es decir, x(n). Utilizando estos valores, los circuitos de correlación calculan el valor de la ganancia de tono b óptima para cada valor del retardo de tono. Los circuitos de correlación consisten en el registro de desplazamiento 588, los multiplicadores 590 y 592, los sumadores 594 y 596, los registros 598 y 600, y el divisor 602. En los circuitos de correlación, los cálculos determinan que n se desplace iterativamente de Lp a 1, mientras que m se desplaza iterativamente de (Lp-17) -1 a
143.
Los circuitos de correlación van seguidos de los circuitos de comparación que llevan a cabo las comparaciones y almacenan los datos para determinar el valor óptimo del retardo L y la ganancia b de tono. Los circuitos de comparación consisten en el multiplicador 604, el comparador 606, los registros 608, 610 y 612 y el cuantificador 614. Los circuitos de comparación proporcionan para cada subtrama de tono los valores de L y b que reducen al mínimo el error entre la voz sintetizada y la voz de entrada. El valor de b es cuantificado en ocho niveles por el cuantificador 614 y es representado mediante un valor de 3 bits, siendo inferido un nivel adicional, el nivel b=0, cuando L=16. Estos valores de L y b son proporcionados al subsistema de búsqueda de libro de código 230 y a la memoria tampón de datos 222. Estos valores son proporcionados por medio del subsistema de empaquetamiento de datos 238 o la memoria tampón de datos 222 al decodificador 234 para su utilización en la búsqueda del tono.
Como la búsqueda del tono, la búsqueda de libro de código es un sistema de codificación de análisis por síntesis, en el que la codificación se efectúa seleccionando parámetros que reducen al mínimo el error entre la voz de entrada y la voz sintetizada utilizando los parámetros. Para velocidad 1/8, la ganancia de tono b se establece en cero.
Como se ha descrito anteriormente, cada 20 ms se subdivide en un número de subtramas de libro de código que, como se ha indicado anteriormente, depende de la velocidad de transmisión de datos elegida para la trama. Los parámetros G e I, la ganancia y el índice de libro de código, respectivamente, se calculan una vez por subtrama de libro de código. En el cálculo de estos parámetros, las frecuencias LSP para la subtrama, excepto para velocidad completa, se interpolan en el subsistema de interpolación LSP de subtramas de libro de código 226 de forma parecida a la descrita en relación con el subsistema de interpolación LSP de subtramas de tono 216. Las frecuencias LSP interpoladas de subtramas de libro de código también son convertidas en coeficientes LPC por el subsistema de transformación LSP-LPC 228 para cada subtrama de libro de código. El contador de subtramas de libro de código 232 se utiliza para mantener un registro de las subtramas de libro de código para las cuales se calculan los parámetros de libro de código, siendo proporcionada la salida del contador al subsistema de interpolación LSP de subtramas de libro de código 226 para su utilización en la interpolación LSP de subtramas de libro de código. Asimismo, el contador de subtramas de libro de código 232 proporciona una salida, que indica la finalización de una subtrama de libro de código para la velocidad seleccionada, al contador de subtramas de tono 224.
El libro de código de excitación consta de 2M vectores de códigos que se construyen a partir de una secuencia aleatoria blanca gaussiana de varianza unitaria. Existen 128 entradas en el libro de código para M=7. El libro de código está organizado de forma recursiva de modo que cada vector de código difiere del vector de código adyacente en una muestra; es decir, las muestras de un vector de código se desplazan una posición para que una nueva muestra entre por un extremo y otra muestra salga por el otro. Por consiguiente, un libro de código recursivo puede almacenarse como una ordenación lineal que tiene una longitud 2M + (Lc-1), siendo Lc la longitud de la subtrama de libro de código. No obstante, para simplificar la implementación y conservar espacio de memoria, se utiliza un libro de código circular de 2M muestras de longitud (128 muestras).
Para reducir los cálculos, los valores gaussianos del libro de código se recortan por el centro. En un principio, los valores se eligen mediante un procedimiento blanco gaussiano de varianza 1. Luego, cualquier valor con una magnitud inferior a 1,2 se establece en cero. Y de esta forma, alrededor del 75% de los valores se establecen de forma eficaz en cero, generándose un libro de código de impulsos. Este recorte central del libro de código reduce en un factor de 4 el número de multiplicaciones necesarias para llevar a cabo la convolución recursiva de la búsqueda de libro de código, puesto que no es necesario efectuar las multiplicaciones por cero. El libro de código utilizado en la implementación actual es proporcionado a continuación en la Tabla VIII.
TABLA VIII
0x0000 0x0000 0x0000 0x0000 0x2afe 0x0000 0x0000 0x0000 0x41da 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x3bb3 0x0000 0x363e 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x417d 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x9dfe 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0xc58a 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0xc8db 0xd365 0x0000 0x0000 0xd6a8 0x0000 0x0000 0x0000 0x3e53 0x0000 0x0000 0xd5ed 0x0000 0x0000 0x0000 0xd08b 0x0000 0x0000 0x0000 0x0000 0x3d14 0x396a 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x4ee7 0xd7ca 0x0000 0x0000 0x438c 0x0000 0x0000 0xad49 0x30b1 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x3fcd 0x0000 0x0000 0xd187 0x2e16 0xd09b 0xcb8d 0x0000 0x0000 0x0000 0x0000 0x0000 0x0000 0x32ff
Nuevamente, el codificador de voz utiliza un filtro de ponderación perceptiva del ruido de
la forma indicada en la ecuación (1) que incluye un filtro de síntesis ponderada de la forma
indicada en la ecuación (3). Para cada índice de libro de código, I, la voz se sintetiza y se
5 compara con la voz original. El error es ponderado por el filtro de ponderación perceptiva antes
de que sea calculado el MSE.
Como se ha indicado anteriormente, el objetivo es reducir al mínimo el error entre x(n) y
x'(n) respecto de todos los valores posibles de I y G. La reducción al mínimo del error puede
expresarse mediante la siguiente ecuación:
10
imagen1
siendo Lc el número de muestras de la subtrama de libro de código. La ecuación (38) puede rescribirse en relación con G, donde:
imagen6
donde y se deduce sometiendo a convolución la respuesta impulsiva del filtro de formantes con el l-ésimo vector de código, suponiendo que G=1. Reducir al mínimo el MSE es, a su vez, equivalente a incrementar al máximo:
imagen7
y
imagen1
La G óptima para el I dado se halla mediante la siguiente ecuación:
imagen1
Esta búsqueda se repite para todos los valores permitidos de I. A diferencia de la búsqueda del tono, la ganancia óptima, G, puede ser positiva o negativa. Por último, se eligen para la transmisión el índice l y la ganancia G de libro de código que incrementan al máximo EI.
De nuevo, debe observarse que sólo es necesario calcular una vez x(n), es decir, la diferencia ponderada perceptivamente entre la voz de entrada y la ZIR de los filtros de tono y formantes ponderados. Sin embargo, para cada índice l, es necesario calcular y(n), es decir, la respuesta a estado cero de los filtros de tono y de formantes de cada vector de código. Debido a que se utiliza un libro de código circular, puede utilizarse el procedimiento de convolución recursiva descrito para la búsqueda del tono para reducir al mínimo los cálculos necesarios.
En relación otra vez con la Figura 15, el codificador incluye un duplicado del decodificador de la Figura 5, el subsistema de decodificador 235 de la Figura 7, en el que se calculan los estados del filtro, siendo Mp la memoria del filtro de síntesis de tono 550, Ma la memoria del filtro de síntesis de formantes 552 y Mw la memoria del filtro de ponderación perceptiva 556.
Los estados de filtro Mp y Ma de los filtros de síntesis de tono y de formantes 550 y 552 (Figura 15) del subsistema del decodificador, son proporcionados al subsistema de búsqueda de libro de código 230 de la Figura 7. En la Figura 17, los estados de filtro Mp y Ma se proporcionan al filtro de respuesta a impulso cero (ZIR) 620 que calcula la ZIR de los filtros de tono y de síntesis de formantes 550 y 552. La ZIR calculada de los filtros de tono y de síntesis de formantes se resta de las muestras de voz de entrada s(n) en el sumador 622, siendo el resultado ponderado por el filtro de ponderación perceptiva 624. La salida del filtro de ponderación perceptiva 564, xc(n), se utiliza como voz de entrada ponderada en las ecuaciones de MSE anteriores (39)-(44), en las que x(n) = xc(n).
En la Figura 17, la respuesta impulsiva h(n) del filtro de formantes se calcula en el filtro 626 y se proporciona al registro de desplazamiento 628. La respuesta impulsiva del filtro de formantes h(n) se calcula para cada subtrama de libro de código. Para reducir más los requisitos de cálculo, la respuesta impulsiva h(n) del filtro de formantes se trunca en 20 muestras.
El registro de desplazamiento 628 junto con el multiplicador 630, el sumador 632 y el registro de desplazamiento 634 se configuran para llevar a cabo la convolución recursiva entre los valores h(n) del registro de desplazamiento 628 y los valores c(m) del libro de código 636 que contiene los vectores de libro de código descritos anteriormente. Esta operación de convolución se lleva a cabo para hallar la respuesta a estado cero (ZSR) del filtro de formantes a cada vector de código, suponiendo que la ganancia de libro de código está establecida en 1. Con el funcionamiento de los circuitos de convolución, n se desplaza iterativamente de Lc a 1 para cada m, mientras que m se desplaza iterativamente de 1 a 256. En el registro 586, los datos no se transmiten cuando n = 1 y los datos no se bloquean cuando n = Lc. Los datos se proporcionan como salida desde los circuitos de convolución cuando m ≤ 1. Debe observarse que los circuitos de convolución deben inicializarse para dirigir la operación de convolución recursiva desplazando iterativamente m veces el tamaño de la subtrama antes de iniciar los circuitos de correlación y comparación que siguen a los circuitos de convolución.
Los circuitos de correlación y comparación dirigen la presente búsqueda de libro de código para proporcionar los valores del índice de libro de código I y de ganancia de libro de código G. Los circuitos de correlación, también denominados circuitos de error cuadrático medio (MSE), calculan la autocorrelación y la correlación cruzada de la ZSR con la diferencia ponderada perceptivamente entre la ZIR de los filtros de tono y de formantes, y la voz de entrada x'(n). Es decir, los circuitos de correlación calculan el valor de la ganancia de libro de código G para cada valor de índice de libro de código I. Los circuitos de correlación consisten en el registro de desplazamiento 638, los multiplicadores 640 y 642, los sumadores 644 y 646, los registros 648 y 650 y el divisor 652. En los circuitos de correlación, los cálculos determinan que n se desplace iterativamente de Lc a 1, mientras que m se desplaza iterativamente de 1 a 256.
Los circuitos de correlación van seguidos de los circuitos de comparación que llevan a cabo las comparaciones y el almacenamiento de datos para determinar el valor óptimo del índice I y la ganancia G de libro de código. Los circuitos de comparación consisten en el multiplicador 654, el comparador 656, los registros 658, 660 y 662, y el cuantificador 664. Los circuitos de comparación proporcionan para cada subtrama de libro de código los valores de I y G que reducen al mínimo el error entre la voz sintetizada y la voz de entrada. La ganancia de libro de código G se cuantifica en el cuantificador 614 que somete a codificación DPCM los valores, durante la cuantificación, de una forma parecida a la cuantificación y codificación de frecuencias LSP con sustracción de descentramiento descritas en relación con la Figura 12. Estos valores de I y G se proporcionan a continuación a la memoria tampón de datos 222.
En la cuantificación y en la codificación DPCM del libro de código, la ganancia G se calcula según la siguiente ecuación:
imagen1
siendo 20 log Gi-1 y 20 log Gi-2 los respectivos valores calculados para la trama inmediatamente anterior (i-1) y la trama que precede a la trama inmediatamente anterior (i-2).
Los valores LSP, I, G, L y b junto con la velocidad se proporcionan al subsistema de empaquetamiento de datos 236, en el que los datos se disponen para su transmisión. En una implementación, los valores LSP, I, G, L y b junto con la velocidad pueden proporcionarse al decodificador 234 por medio del subsistema de empaquetamiento de datos 236. En otra implementación, estos valores pueden proporcionarse por medio de la memoria tampón de datos 222 al decodificador 234 para su utilización en la búsqueda del tono. No obstante, en la forma de realización preferida, se emplea una protección del bit de signo del libro de código en el subsistema de empaquetamiento de datos 236 que puede afectar al índice de libro de código. Por consiguiente, esta protección debe tenerse en cuenta si los datos I y G se proporcionan directamente desde la memoria tampón de datos 222.
En el subsistema de empaquetamiento de datos 236, los datos pueden empaquetarse según diversos formatos para la transmisión. La Figura 18 ilustra una forma de realización a modo de ejemplo de los elementos funcionales del subsistema de empaquetamiento de datos
236. El subsistema de empaquetamiento de datos 236 consiste en el generador pseudoaleatorio (PN) 670, el elemento de cálculo de verificación por redundancia cíclica (CRC) 672, la lógica de protección de datos 674 y el combinador de datos 676. El generador PN 670 recibe la velocidad y, para octavo de velocidad, genera un número aleatorio de 4 bits que se proporciona al combinador de datos 676. El elemento CRC 672 recibe la ganancia de libro de código y los valores LSP junto con la velocidad y, para velocidad completa, genera un código CRC interno de 11 bits que se proporciona al combinador de datos 676.
El combinador de datos 674 recibe el número aleatorio, el código CRC y, junto con la velocidad y los valores LSP, I, G, L y b de la memoria tampón de datos 222 (Figura 7b)
5
10
15
20
25
30
35 53
proporciona una salida al subsistema del procesador de datos del canal de transmisión 234. En la implementación en la que los datos se proporcionan directamente desde la memoria tampón de datos 222 al decodificador 234 a una velocidad mínima, el número de 4 bits del generador PN pasa del generador PN 670, por medio del combinador de datos 676, al decodificador 234. A velocidad completa, los bits CRC se incluyen junto con los datos de trama obtenidos del combinador de datos 674, mientras que a octavo de velocidad, el valor de índice de libro de código es excluido y sustituido por el número aleatorio de 4 bits.
En la forma de realización a modo de ejemplo, es preferible proporcionar protección para el bit de signo de ganancia de libro de código. La finalidad de la protección de este bit es que el decodificador del vocodificador sea menos sensible a los errores de un bit en este bit. Si el bit de signo cambia debido a un error no detectado, el índice de libro de código señalará un vector no relacionado con el óptimo. En la situación de error sin protección, se seleccionará el negativo del vector óptimo, un vector que en esencia es el peor vector posible a utilizar. El modelo de protección empleado aquí asegura que un error de un bit en el bit de signo de ganancia no ocasione la selección del negativo del vector óptimo en la situación de error. La lógica de protección de datos 674 recibe el índice y la ganancia de libro de código y examina el bit de signo del valor de ganancia. Si se comprueba que el bit de signo del valor de ganancia es negativo, se suma el valor 89 (módulo 128) al índice de libro de código asociado. El índice de libro de código, tanto si está modificado como si no lo está, es proporcionado por la lógica de protección de datos 674 al combinador de datos 676.
En la realización a modo de ejemplo, es preferible que a velocidad completa los bits más perceptivamente sensibles de los datos del paquete de voz comprimido estén protegidos, por ejemplo, mediante una CRC (verificación por redundancia cíclica) interna. Se utilizan once bits adicionales para llevar a cabo esta función de detección y de corrección de errores que es capaz de corregir cualquier error en el bloque protegido. El bloque protegido consta del bit más significativo de las 10 frecuencias LSP y del bit más significativo de los 8 valores de ganancia de libro de código. Si se produce un error incorregible en este bloque, el paquete se rechaza y se declara una operación de borrado, descrita más adelante. En los otros casos, la ganancia de tono se establece en cero, pero el resto de los parámetros se utilizan a medida que se reciben. En el ejemplo de forma de realización, se elige un código cíclico que tenga un polinomio generador de:
imagen1
que proporciona un código cíclico (31, 21). No obstante, debe sobrentenderse que pueden
utilizarse otros polinomios generadores. Para que este código sea un código (32, 31), se añade un bit de paridad global en el extremo. Puesto que solo hay 18 bits de información, los 3 primeros dígitos de la palabra del código se establecen en cero y no se transmiten. Esta técnica proporciona protección adicional y, de este modo, si el síndrome indica un error en estas posiciones, significa que se trata de un error incorregible. La codificación de un código cíclico de forma sistemática conlleva el cálculo de bits de paridad según: x10 u(x) módulo g(x), siendo u(x) el polinomio del mensaje.
En el extremo de decodificación, el síndrome se calcula como el resto de dividir el vector recibido por g(x). Si el síndrome no indica ningún error, el paquete se acepta sin tener en cuenta el estado del bit de paridad global. Si el síndrome indica un error, el error se corrige si el estado del bit de paridad global no es de verificación. Sí el síndrome indica más de un error, el paquete se rechaza. En la sección 4.5 del documento "Error Control coding: Fundamentals and Applications" (Codificación de control de errores: principios fundamentales y aplicaciones) de Lin y Costello, puede obtenerse más información acerca de dicho modelo de protección de errores y del cálculo del síndrome.
En una implementación de sistema telefónico celular CDMA, los datos son proporcionados por el combinador de datos 674 al subsistema del procesador de datos de canal de transmisión 238 para el empaquetamiento de datos para la transmisión en tramas de transmisión de datos de 20 ms. En una trama de transmisión en la que el vocodificador está preparado para velocidad completa, se transmiten 192 bits para una velocidad binaria efectiva de 9,6 Kbit/s. La trama de transmisión en este caso consiste en un bit de modo mixto utilizado para indicar el tipo de trama mixta (0 = sólo voz, 1 = voz y datos/señalización), 160 bits de datos del vocodificador junto con 11 bits de CRC interna; 12 bits de CRC externa o de trama y 8 bits de cola o de nivelado. A media velocidad, se transmiten 80 bits de datos de vocodificador junto con 8 bits de CRC de trama y 8 bits de cola para una velocidad binaria efectiva de 4,8 Kbit/s. A cuarto de velocidad, se transmiten 40 bits de datos de vocodificador junto con 8 bits de cola para una velocidad binaria efectiva de 2,4 Kbit/s. Por último, a octavo de velocidad, se transmiten 16 bits de datos de vocodificador junto con 8 bits de cola para una velocidad binaria efectiva de 1,2 Kbit/s.
La solicitud de patente U.S. en trámite junto con la presente n° de serie 07/543.496, presentada el 25 de junio de 1990 y titulada "SYSTEM AND METHOD FOR GENERATING SIGNAL WAVEFORMS IN A CDMA CELLULAR TELEPHONE SYSTEM" (SISTEMA Y PROCEDIMIENTO PARA GENERAR FORMAS DE ONDA DE SEÑALES EN UN SISTEMA TELEFÓNICO CELULAR CDMA), cedida al cesionario de la presente invención, proporciona más información acerca de la modulación empleada en un sistema CDMA en el que se empleará el vocodificador de la presente invención. En este sistema, a velocidades diferentes de la completa, se utiliza un modelo en el que los bits de datos se organizan en grupos, estando los grupos de bits situados de forma pseudoaleatoria dentro de la trama de transmisión de datos de 20 ms. Debe sobrentenderse que es posible emplear con facilidad otras velocidades de tramas y representaciones de bits aparte de las presentadas con fines ilustrativos aquí, en relación con la implementación del vocodificador y el sistema CDMA, para que de este modo queden disponibles otras implementaciones para el vocodificador y otras aplicaciones del sistema.
En el sistema CDMA, y también aplicable a otros sistemas, el subsistema de procesador 238 puede interrumpir de una trama a otra la transmisión de datos de vocodificador para transmitir otros datos como, por ejemplo, datos de señalización u otros datos de información no vocal. Este tipo particular de situación de transmisión se denomina "espacio-ráfaga". El subsistema de procesador 238 en esencia sustituye los datos de vocodificador por los datos de transmisión deseados para la trama.
Puede plantearse otra situación en la que se desea transmitir tanto datos de vocodificador como otros datos durante la misma trama de transmisión de datos. Este tipo particular de situación de transmisión se denomina "atenuación-ráfaga". En una transmisión de "atenuación-ráfaga", el vocodificador recibe mandatos de límite de velocidad que fijan la velocidad final del vocodificador en la velocidad deseada, por ejemplo, media velocidad. Los datos de vocodificador codificados a media velocidad se proporcionan al subsistema de procesador 238, que inserta los datos adicionales junto con los datos de vocodificador para la trama de transmisión de datos.
Una función adicional proporcionada para enlaces telefónicos dúplex completos es el interbloqueo de velocidad. Si una dirección del enlace está transmitiendo a la velocidad de transmisión más alta, entonces la otra dirección del enlace es obligada a transmitir a la velocidad más baja. Incluso a la velocidad más baja, queda disponible suficiente inteligibilidad para que el hablante activo se dé cuenta de que ha sido interrumpido y deje de hablar, permitiendo de ese modo que la otra dirección del enlace asuma el papel de hablante activo. Además, si el hablante activo continúa hablando durante un intento de interrupción, probablemente no percibirá una degradación de la calidad porque su propia voz "interfiere" en la capacidad de percibir calidad. De nuevo, utilizando los mandatos de límite de velocidad, el vocodificador puede adaptarse a la codificación vocal de la voz a una velocidad inferior a la normal.
Debe sobrentenderse que los mandatos de límite de velocidad pueden utilizarse para establecer la velocidad máxima del vocodificador en una velocidad inferior a la velocidad completa cuando se necesita capacidad adicional en el sistema CDMA. En un sistema CDMA en el que se utiliza un espectro de frecuencias común para la transmisión, la señal de un usuario se muestra como una interferencia para los otros usuarios del sistema. La capacidad de usuarios del sistema se ve pues limitada por la interferencia total ocasionada por los usuarios del sistema. A medida que aumenta el nivel de interferencias, normalmente debido a un aumento de usuarios en el sistema, los usuarios experimentan una degradación de la calidad a causa del incremento de las interferencias.
La contribución de cada usuario a las interferencias del sistema CDMA es una función de la velocidad de transmisión de datos de los usuarios. Adaptando el vocodificador para la codificación de voz a una velocidad inferior a la normal, los datos codificados se transmiten a la correspondiente velocidad de transmisión de datos reducida, disminuyendo de ese modo el nivel de interferencias ocasionado por el usuario. Por lo tanto, la capacidad del sistema puede aumentarse de forma considerable mediante la codificación vocal a una velocidad más baja. Cuando la demanda del sistema aumenta, los vocodificadores de los usuarios pueden ser controlados por el controlador del sistema o por la estación base de la célula para reducir la velocidad de codificación. La calidad del vocodificador de la presente invención determina que exista muy poca, aunque alguna, diferencia perceptible entre la voz codificada a velocidad completa y a media velocidad. Por consiguiente, el efecto sobre la calidad de las comunicaciones entre los usuarios del sistema cuando la voz se somete a codificación vocal a velocidad baja, por ejemplo, a media velocidad, es menos importante que el ocasionado por un nivel creciente de interferencias resultante de un número mayor de usuarios en el sistema.
Por consiguiente, pueden emplearse diversos modelos para establecer límites de velocidad de vocodificador individuales para velocidades de codificación de voz inferiores a las normales. Por ejemplo, todos los usuarios de una célula pueden ser controlados para codificar voz a media velocidad. Dicha acción reduce considerablemente las interferencias del sistema, con un efecto insignificante sobre la calidad de las comunicaciones entre los usuarios, a la vez que proporciona un considerable aumento de capacidad para usuarios adicionales. Hasta que el total de interferencias del sistema no haya aumentado hasta el nivel de degradación debido a los usuarios adicionales, éstas no incidirán en la calidad de las comunicaciones entre los usuarios.
Como se ha indicado anteriormente, el codificador incluye una copia del decodificador para aplicar la técnica de análisis por síntesis a la codificación de las tramas de las muestras de voz. Como se ilustra en la Figura 7, el decodificador 234 recibe los valores L, b, I y G ya sea por medio del subsistema de empaquetamiento de datos 238 o bien por medio de la memoria tampón de datos 222 para reconstruir la voz sintetizada y compararla con la voz de entrada. Las salidas del decodificador son los valores Mp, Ma y Mw descritas anteriormente. La utilización del decodificador 234 en el codificador y en la reconstrucción de la voz sintetizada en el otro extremo del canal de transmisión se describirá conjuntamente con mayor detalle en relación
con las Figuras 19-24.
La Figura 19 es un diagrama de flujo para un ejemplo de implementación del decodificador de la presente invención. Debido a la estructura común del decodificador implementando en el codificador y el implementado en el receptor, dichas implementaciones se describen de forma conjunta. La descripción relativa a la Figura 19 se refiere principalmente al decodificador en el extremo del canal de transmisión, puesto que los datos que allí se reciben deben procesarse previamente en el decodificador, mientras que en el decodificador del codificador se reciben los datos adecuados (velocidad, I, G, L y b) directamente desde el subsistema de empaquetamiento de datos 238 o la memoria tampón de datos 222. No obstante, la función básica del decodificador es la misma tanto para la implementación del codificador como para la del decodificador.
Como se ha indicado en relación con la Figura 5, para cada subtrama de libro de código, el vector de libro de código indicado por el índice de libro de código I se extrae del libro de código almacenado. El vector es multiplicado por la ganancia de libro de código G y luego filtrado por el filtro de tonos para cada subtrama de tono para obtener el residuo de formantes. Este residuo de formantes es filtrado por el filtro de formantes y luego se hace pasar por un postfiltro de formantes adaptativo y un postfiltro de brillo, y por un control automático de ganancia (AGC), para generar la señal de voz de salida.
Aunque la longitud de la subtrama de libro de código y tono varia, la decodificación se lleva a cabo en bloques de 40 muestras para facilitar la implementación. En primer lugar, se desempaquetan los datos comprimidos recibidos para convertirlos en ganancias de libro de código, índices de libro de código, ganancias de tono, retardos de tono y frecuencias LSP. Las frecuencias LSP deben procesarse a través de sus respectivos cuantificadores inversos y decodificadores DPCM como se ha descrito en relación con la Figura 22. Del mismo modo, los valores de ganancia de libro de código deben procesarse de forma parecida a las frecuencias LSP, salvo en lo que respecta al descentramiento. Asimismo, los valores de ganancia de tono se someten a cuantificación inversa. A continuación, se proporcionan los parámetros de cada subtrama de decodificación. En cada subtrama de decodificación, se necesitan 2 grupos de parámetros de libro de código (G e f), 1 grupo de parámetros de tono (b y L) y 1 grupo de coeficientes LPC para generar 40 muestras de salida. Las Figuras 20 y 21 ilustran ejemplos de parámetros de decodificación de subtramas para las diversas velocidades y otras condiciones de trama.
Para tramas de velocidad completa, existen 8 grupos de parámetros de libro de código recibidos y 4 grupos de parámetros de tono recibidos. Las frecuencias LSP se interpolan cuatro veces para proporcionar 4 grupos de frecuencias LSP. Los parámetros recibidos y la
correspondiente información de subtramas se enumeran en la Figura 20a.
Para tramas de media velocidad, cada grupo de los cuatro parámetros de libro de código recibidos se repite una vez, cada grupo de los dos parámetros de tono recibidos se repite una vez. Las frecuencias LSP se interpolan tres veces para proporcionar 4 grupos de frecuencias LSP. Los parámetros recibidos y la correspondiente información de subtramas se enumeran en la Figura 20b.
Para tramas de cuarto de velocidad, cada grupo de los dos parámetros de libro de código recibidos se repite cuatro veces, y el grupo de parámetros de tono también se repite cuatro veces. Las frecuencias LSP se interpolan una vez para proporcionar 2 grupos de frecuencias LSP. Los parámetros recibidos y la correspondiente información de subtramas se enumeran en la Figura 20c.
Para tramas de octavo de velocidad, el grupo de parámetros de libro de código recibido se utiliza para toda la trama. No hay ningún parámetro de tono presente para tramas de octavo de velocidad y la ganancia de tono simplemente se establece en cero. Las frecuencias LSP se interpolan una vez para proporcionar 1 grupo de frecuencias LSP. Los parámetros recibidos y la correspondiente información de subtramas se enumeran en la Figura 20d.
A veces, los paquetes de voz pueden dejarse en blanco para que la célula CDMA o estación móvil transmita información de señalización. Cuando el vocodificador recibe una trama en blanco, éste continúa con una ligera modificación en los parámetros de la trama anterior. La ganancia de libro de código se establece en cero. El retardo y la ganancia de tono de la trama anterior se utilizan como retardo y ganancia de tono de la trama actual, pero la ganancia está limitada a un valor uno o inferior. Las frecuencias LSP de la trama anterior se utilizan tal cual, sin interpolación. Debe observarse que el extremo de codificación y el extremo de decodificación todavía siguen sincronizados y que el vocodificador puede recuperarse de una trama en blanco muy rápidamente. Los parámetros recibidos y la correspondiente información de subtramas se enumeran en la Figura 21a.
En caso de que una trama se pierda debido a un error de canal, el vocodificador intenta enmascarar dicho error manteniendo una fracción de la energía de la trama anterior y efectuando una transición suave hacia el ruido de fondo. En este caso, la ganancia de tono se establece en cero, se selecciona un libro de código aleatorio utilizando el índice de libro de código de la trama anterior más 89 y la ganancia de libro de código es 0,7 veces la ganancia de libro de código de la subtrama anterior. Debe observarse que el número 89 no se utiliza por ningún motivo concreto, sino que constituye sólo una forma conveniente de seleccionar un vector de libro de código pseudoaleatorio. Las frecuencias LSP de la trama anterior son obligadas a disminuir hacia sus valores descentrados según:
ωi =0,9(ωi anterior -valor de descentramiento de ωi) + valor de descentramiento de ωi (47)
Los valores de descentramiento de las frecuencias LSP se muestran en la Tabla 5. Los parámetros recibidos y la correspondiente información de subtramas se enumeran en la Figura 21b.
Si no puede determinarse la velocidad en el receptor, el paquete se rechaza y se declara una operación de borrado. No obstante, si el receptor determina que es muy probable que la trama se haya transmitido a velocidad completa, aunque con errores, se emprende la acción descrita a continuación. Como se ha descrito anteriormente para velocidad completa, los bits más sensibles perceptivamente de los datos del paquete de voz comprimida son protegidos mediante una CRC interna. En el extremo de decodificación, se calcula el síndrome como el resto de dividir el vector recibido por g(x), de la ecuación (46). Si el síndrome no indica ningún error, el paquete se acepta sin tener en cuenta el estado del bit de paridad global. Si el síndrome indica un error, el error se corrige si el estado del bit de paridad global no es de verificación. Si el síndrome indica más de un error, el paquete se rechaza. Si se produce un error incorregible en este bloque, el paquete se rechaza y se declara una operación de borrado. En otros casos, la ganancia de tono se establece en cero, pero el resto de parámetros se utiliza a medida que se reciben con correcciones, como se ilustra en la Figura 21c.
Los postfiltros utilizados en esta implementación se describieron por primera vez en el documento "Real-Time Vector APC Speech Coding At 4800 BPS with Adaptive postfiltering" ("Codificación de voz CPA vectorial en tiempo real a 4800 bits/s con postfiltrado adaptativo") de
J.H. Chen et al., Proc. ICASSP, 1987. Puesto que los formantes de voz son perceptivamente más importantes que los valles espectrales, el postfiltro refuerza ligeramente los formantes para mejorar la calidad perceptiva de la voz codificada. Esto se lleva a cabo escalando los polos del filtro de síntesis de formantes radialmente hacia el origen. No obstante, un postfiltro todo polos por lo general introduce una inclinación espectral que da por resultado la amortiguación de la voz filtrada. La inclinación espectral de este postfiltro todo polos se reduce añadiendo ceros que tengan los mismos ángulos de fase que los polos, pero radios más pequeños, dando por resultado un postfiltro de la siguiente forma:
imagen1
siendo A(z) el filtro de predicción de formantes y los valores ρ y σ los factores de escala de postfiltro establecidos en 0,5 y 0,8, respectivamente.
Se añade un filtro de brillo adaptativo para compensar más la inclinación espectral introducida por el postfiltro de formantes. El filtro de brillo es de la siguiente forma:
imagen1
siendo determinado el valor de κ (el coeficiente de este filtro de una toma) mediante el valor medio de las frecuencias LSP que proporciona un valor aproximado del cambio en la inclinación espectral de A(z).
Para evitar desplazamientos grandes de la ganancia como consecuencia del postfiltrado, se implementa un bucle AGC para escalar la salida de voz de forma que tenga aproximadamente la misma energía que la voz que no ha sido postfiltrada. El control de ganancia se lleva a cabo dividiendo la suma de los cuadrados de las 40 muestras introducidas en el filtro por la suma de los cuadrados de las 40 muestras extraídas del filtro para obtener la ganancia inversa del filtro. A continuación, se procede al suavizado de la raíz cuadrada de este factor de ganancia:
β alisada = 0,2 β actual + 0,98 β anterior (50)
y a continuación la salida del filtro se multiplica por esta ganancia inversa suavizada para generar la voz de salida.
En la Figura 19, los datos del canal junto con la velocidad, ya sean transmitidos con los datos o bien obtenidos por otros medios, se proporcionan al subsistema de empaquetamiento de datos 700. En un ejemplo de implementación para un sistema CDMA, una decisión de velocidad que puede obtenerse a partir de la tasa de errores son los datos recibidos cuando se decodifican a cada una de las diferentes velocidades. En el subsistema de desempaquetamiento de datos 700, a velocidad completa, se lleva a cabo una CRC de errores, siendo el resultado de esta verificación proporcionado al subsistema de desempaquetamiento de datos de subtramas 702. El subsistema 700 proporciona una indicación de las condiciones de trama anómalas como, por ejemplo, las tramas en blanco, el borrado de tramas o las tramas erróneas con datos aprovechables al subsistema 702. El subsistema 700 proporciona la velocidad junto con los parámetros I, G, L y b de la trama al subsistema 702. Cuando se proporcionan los valores de índice I y ganancia G de libro de código, el bit de signo del valor de ganancia se verifica en el subsistema 702. Si el bit de signo es negativo, se resta el valor 89 (módulo 128) del índice de libro de código asociado. Además, en el subsistema, la ganancia de libro de código se somete a cuantificación inversa y a decodificación DPCM, mientras que la ganancia de tono se somete a cuantificación inversa.
Asimismo, el subsistema 700 proporciona la velocidad y las frecuencias LSP al subsistema de cuantificación inversa/interpolación LSP 704. El subsistema 700 proporciona además una indicación de trama en blanco, de borrado de trama o de trama errónea con datos aprovechables al subsistema 704. El contador de subtramas de decodificación 706 proporciona una indicación del valor del contador de subtramas i y j a los subsistemas 702 y 704.
En el subsistema 704, las frecuencias LSP son inversamente cuantificadas e interpoladas. La Figura 22 ilustra una implementación de la parte de cuantificación inversa del subsistema 704, siendo la parte de interpolación prácticamente idéntica a la descrita en relación con la Figura 12. En la Figura 22, la parte de cuantificación inversa del subsistema 704 consiste en el cuantificador inverso 750, de construcción idéntica a la del cuantificador inverso 468 de la Figura 12 y de funcionamiento parecido. La salida del cuantificador inverso 750 se proporciona como entrada al sumador 752. La otra entrada del sumador 752 se proporciona como salida del multiplicador 754. La salida del sumador 752 se proporciona al registro 756, en el que se almacena y proporciona para su multiplicación con la constante 0,9 en el multiplicador 754. La salida del sumador 752 también se proporciona al sumador 758, en el que el valor de descentramiento se suma nuevamente a la frecuencia LSP. La ordenación de las frecuencias LSP es asegurada por la lógica 760 que obliga a las frecuencias LSP a tener una separación mínima. Por lo general, la necesidad de forzar la separación no se plantea a menos que se produzca un error en la transmisión. A continuación, las frecuencias LSP se interpolan como se ha descrito en relación con la Figura 13 y en relación con las Figuras 20a-20d y 21a-21c.
En relación otra vez con la Figura 19, la memoria 708 se acopla al subsistema 704 para almacenar las frecuencias LSP de trama anterior, ωi,f-1, y puede utilizarse también para almacenar los valores de descentramiento bωi. Estos valores de trama anterior se utilizan en la interpolación para todas las velocidades. En condiciones de tramas en blanco, borrado de tramas o tramas erróneas con datos aprovechables, se utilizan las frecuencias LSP anteriores ωi,f-1 según el gráfico de las Figuras 21a-21c. En respuesta a una indicación de trama en blanco del subsistema 700, el subsistema 704 recupera las frecuencias LSP de trama anterior almacenadas en la memoria 708 para utilizarlas en la trama actual. En respuesta a una indicación de borrado de trama, el subsistema 704 otra vez recupera las frecuencias LSP de trama anterior de la memoria 708 junto con los valores de descentramiento para calcular las frecuencias LSP de la trama actual como se ha descrito anteriormente. Cuando se efectúa este cálculo, el valor de descentramiento almacenado se resta de la frecuencia LSP de la trama anterior en un sumador, siendo el resultado multiplicado en el multiplicador por un valor constante de 0,9 y siendo este resultado sumado en el sumador al valor de descentramiento almacenado. En respuesta a una indicación de trama errónea con datos aprovechables, las frecuencias LSP se interpolan de la misma forma que para velocidad completa si la CRC resulta satisfactoria.
Las frecuencias LSP se proporcionan al subsistema de transformación LSP-LPC 710, en el que las frecuencias LSP vuelven a convertirse en valores LPC. El subsistema 710 es prácticamente idéntico a los subsistemas de transformación LSP-LPC 218 y 228 de la Figura 7 descritos en relación con la Figura 13. Los coeficientes LPC α i se proporcionan a continuación al filtro de formantes 714 y al postfiltro de formantes 716. Asimismo, se calcula el valor medio de las frecuencias LSP a través de la subtrama en el subsistema promediador LSP 712 y se proporciona al filtro de brillo adaptativo 718 como valor κ .
El subsistema 702 recibe los parámetros I, G, L y b para la trama desde el subsistema 700, junto con la velocidad o la indicación de condición de trama anómala. Asimismo, el subsistema 702 recibe del contador de subtramas 706 los recuentos j para cada recuento i de cada subtrama de decodificación 1-4. El subsistema 702 se acopla también a la memoria 720 que almacena los valores de trama anterior de G, I, L y b, para utilizarlos en condiciones de tramas anómalas. El subsistema 702, en condiciones de tramas normales, salvo en octavo de velocidad, proporciona el valor de índice de libro de código lj al libro de código 722, el valor de ganancia de libro de código Gj al multiplicador 724, y los valores de retardo L y ganancia b de tono al filtro de tonos 726, según la Figura 20a-20d. Para octavo de velocidad, puesto que no se envía ningún valor para el índice de libro de código, se proporciona una simiente de paquete, que es el valor de parámetro de 16 bits (Figura 2d) para octavo de velocidad, al libro de código 722 junto con una indicación de velocidad. Para condiciones de tramas anómalas, los valores se proporcionan desde el subsistema 702 según las Figuras 21a-21c. Además, para octavo de velocidad, se proporciona una indicación al libro de código 722 como la descrita en relación con la Figura 23.
En respuesta a una indicación de trama en blanco del subsistema 700, el subsistema 702 recupera los valores de retardo L y de ganancia b de tono de la trama anterior, aunque aquí la ganancia está limitada al valor uno o inferior, almacenados en la memoria 708, para utilizarlos en las subtramas de decodificación de la trama actual. Además, no se proporciona ningún índice de libro de código I y la ganancia de libro de código G se establece en cero. En respuesta a una indicación de borrado de trama, el subsistema 702 recupera también el índice de libro de código de subtrama de la trama anterior de la memoria 720 y suma, en el sumador, el valor 89. La ganancia de libro de código de subtrama de trama anterior se multiplica en el multiplicador por la constante 0,7 para generar los respectivos valores G de las subtramas. No se proporciona ningún valor de retardo de tono y la ganancia de tono se establece en cero. En respuesta a una indicación de trama errónea con datos aprovechables, el índice y la ganancia de libro de código se utilizan como en una trama de velocidad completa, siempre que la CRC resulte satisfactoria, y no se proporciona ningún valor de retardo de tono y la ganancia de tono se establece en cero.
Como se ha descrito en relación con el decodificador del codificador de la técnica de análisis por síntesis, el índice de libro de código I se utiliza como dirección inicial para el valor de libro de código a proporcionar al multiplicador 724. El valor de ganancia de libro de código se multiplica en el multiplicador 724 por el valor de salida del libro de código 722, siendo el resultado proporcionado al filtro de tonos 726. El filtro de tonos 726 utiliza los valores de retardo L y ganancia b de tono de entrada para generar el residuo de formantes que es proporcionado al filtro de formantes 714. En el filtro de formantes 714, los coeficientes LPC se utilizan para filtrar el residuo de formantes y reconstruir la voz. En el decodificador del receptor, la voz reconstruida es filtrada nuevamente por el postfiltro de formantes 716 y el filtro de brillo adaptativo 718. El bucle AGC 728 se utiliza en la salida del filtro de formantes 714 y del postfiltro de formantes 716, siendo la salida de los mismos multiplicada en el multiplicador 730 por la salida del filtro de brillo adaptativo 718. La salida del multiplicador 730 es la voz reconstruida que luego se convierte en voz analógica utilizando técnicas conocidas y se presenta al oyente. En el decodificador del codificador, el filtro de ponderación perceptiva se coloca en la salida de éste para actualizar sus memorias.
En la Figura 22, se ilustran más detalles de la implementación del propio decodificador. El codificador 722 de la Figura 22 consiste en una memoria 750 parecida a la descrita con referencia a la Figura 17. No obstante, con fines explicativos, en la Figura 22 se ilustra un planteamiento ligeramente diferente para la memoria 750 y el direccionamiento de la misma. El libro de código 722 consiste además en un conmutador 752, un multiplexor 753 y un generador de números pseudoaleatorios (PN) 754. El conmutador 752 es sensible al índice de libro de código para señalar la ubicación de la dirección del índice de la memoria 750, como se indicó con referencia a la Figura 17. La memoria 750 es una memoria circular, en la que el conmutador 752 señala la ubicación de memoria inicial, siendo desplazados los valores a través de la memoria para su salida. Los valores de libro de código se obtienen de la memoria 750 a través del conmutador 752 como entrada para el multiplexor 753. El multiplexor 753 es sensible a la velocidad completa, media velocidad y cuarto de velocidad para proporcionar una salida de los valores proporcionados, a través del conmutador 752, al amplificador de ganancia de libro de código, el multiplicador 724. El multiplexor 753 también es sensible a la indicación de octavo de velocidad para seleccionar la salida del generador PN 754 como salida del libro de código 722 para el multiplicador 724.
Para mantener voz de alta calidad en la codificación CELP, el codificador y el decodificador deben tener los mismos valores almacenados en sus memorias de filtro internas. Esto se lleva a cabo transmitiendo el índice de libro de código, para que los filtros del decodificador y del codificador sean excitados por la misma secuencia de valores. Sin embargo, para la voz de calidad más alta, estas secuencias constan en su mayor parte de ceros con algunos picos distribuidos entre éstos. Este tipo de excitación no resulta óptima para la codificación de ruido de fondo.
Cuando se codifica ruido de fondo, a la velocidad de transmisión de datos más baja, puede implementarse una secuencia pseudoaleatoria para excitar los filtros. Para asegurar que las memorias de filtro sean iguales tanto en el codificador y como en el decodificador, las dos secuencias pseudoaleatorias deben ser iguales. Es necesario transmitir de cualquier manera una simiente al decodificador del receptor. Puesto que no existen bits adicionales que puedan utilizarse para enviar la simiente, los bits del paquete transmitido pueden utilizarse como simiente, como si constituyeran un número. Es posible llevar a cabo esta técnica ya que a velocidad baja, se utiliza exactamente la misma estructura de análisis por síntesis CELP para determinar la ganancia e índice de libro código. La diferencia es que el índice de libro de código se desecha y, en cambio, las memorias de filtro del codificador se actualizan utilizando una secuencia pseudoaleatoria. Por consiguiente, la simiente para la excitación puede determinarse una vez efectuado el análisis. Para asegurar que los propios paquetes no se desplacen de forma iterativa y periódica entre un grupo de configuraciones binarias, se insertan cuatro bits aleatorios en el paquete de octavo de velocidad en lugar de los valores de índice libro de código. Por lo tanto, la simiente del paquete es el valor de 16 bits indicado en la Figura 2d.
El generador PN 754 se construye utilizando técnicas bien conocidas y puede implementarse mediante diversos algoritmos. En la forma de realización a modo de ejemplo, el algoritmo empleado es del tipo descrito en el artículo "DSP chips can produce random numbers using proven algorithm" ("Los chips DSP pueden generar números aleatorios utilizando el algoritmo comprobado") de Paul Mennen, EDN, 21 de enero de 1991. El paquete de bits transmitido se utiliza como simiente (del subsistema 700 de la Figura 18) para generar la secuencia. En una implementación, la simiente se multiplica por el valor 521, sumándose el valor 259 al resultado. A partir del valor resultante, los bits menos significativos se utilizan como un número de 16 bits con signo. A continuación, este valor se utiliza como simiente para generar el siguiente valor de libro de código. La secuencia generada por el generador PN se
normaliza para que tenga una varianza de 1.
Cada valor obtenido del libro de código 722 se multiplica en el multiplicador 724 por la ganancia de libro de código G proporcionada durante la subtrama de decodificador. Este valor se proporciona como entrada al sumador 756 del filtro de tonos 726. El filtro tonos 726 consiste además en el multiplicador 758 y la memoria 760. El retardo de tono L determina la posición de una toma de la memoria 760 que es pasada al multiplicador 758. La salida de la memoria 760 se multiplica en el multiplicador 758 por el valor de ganancia de tono b, siendo el resultado pasado al sumador 756. La salida del sumador 756 proporciona a una entrada de la memoria 760 que es una serie de elementos de retardo como, por ejemplo, un registro de desplazamiento. Los valores se desplazan a través de memoria 760 (en la dirección Indicada por la flecha) y se proporcionan a la salida de toma seleccionada determinada por el valor de L. Puesto que los valores se desplazan a través de la memoria 760, los valores de antigüedad superior a 143 desplazamientos se rechazan. La salida del sumador 756 también se proporciona como entrada al filtro de formantes 714.
La salida del sumador 756 se proporciona a una entrada del sumador 762 del filtro de formantes 714. El filtro de formantes 714 consiste además en el grupo de multiplicadores 764a764j y la memoria 766. La salida del sumador 762 se proporciona como entrada a la memoria 766 que también está construida como una serie de elementos de retardo con tomas como, por ejemplo, un registro de desplazamiento. Los valores se desplazan por la memoria 766 (en la dirección indicada por la flecha) y se descartan por el extremo. Cada elemento tiene una toma que proporciona el valor almacenado como salida al correspondiente multiplicador de los multiplicadores 764a-764j. Cada uno de los multiplicadores 764a-764j recibe también el correspondiente coeficiente LPC de los coeficientes LPC α1 -α10 para multiplicarlo por la salida de la memoria 766. La salida del sumador 762 se proporciona como salida del filtro de formantes 714.
La salida del filtro de formantes 714 se proporciona como entrada al postfiltro de formantes 716 y al subsistema AGC 728. El postfiltro de formantes 716 consiste en los sumadores 768 y 770, junto con la memoria 772 y los multiplicadores 774a-774j, 776a-776j, 780a-780j y 782a-782j. A medida que los valores se desplazan por la memoria 772, se proporcionan por las correspondientes tomas para su multiplicación por los valores de coeficientes LPC escalados y su suma en los sumadores 768 y 770. La salida del postfiltro de formantes 716 se proporciona como entrada al filtro de brillo adaptativo 718.
El filtro de brillo adaptativo 718 consiste en los sumadores 784 y 786, los registros 788 y 790 y los multiplicadores 792 y 794. La Figura 24 es un gráfico que ilustra las características del filtro de brillo adaptativo. La salida del postfiltro de formantes 716 se proporciona al sumador 784 como una de sus entradas, mientras que la otra entrada procede de la salida del multiplicador 792. La salida del sumador 784 es proporcionada al registro 788, almacenada durante un ciclo y proporcionada durante el siguiente ciclo a los multiplicadores 792 y 794, junto con el valor -κ proporcionado por el promediador LSP 712 de la Figura 19. La salida de los multiplicadores 792 y 794 se proporciona a los sumadores 784 y 786. La salida del sumador 786 se proporciona al subsistema AGC 728 y al registro de desplazamiento 790. El registro 790 se utiliza como línea de retardo para asegurar la coordinación en los datos proporcionados por el filtro de formantes 714 al subsistema AGC 728, y proporcionados al filtro de brillo adaptativo 718 por medio del postfiltro de formantes 716.
El subsistema AGC 728 recibe los datos del postfiltro de formantes 716 y del filtro de brillo adaptativo 718 para escalar la energía de voz de salida hasta aproximadamente la energía de voz de entrada en el postfiltro de formantes 716 y el filtro de brillo adaptativo 718. El subsistema AGC 728 consiste en los multiplicadores 798, 800, 802 y 804, los sumadores 806, 808 y 810, los registros 812, 814 y 816, el divisor 818 y el elemento de raíz cuadrada 820. La salida de 40 muestras del postfiltro de formantes 716 se eleva al cuadrado en el multiplicador 798 y se suma en un acumulador, que consiste en el sumador 806 y el registro 812, para generar el valor “x”. Del mismo modo, la salida de 40 muestras del filtro de brillo adaptativo 718, tomada antes del registro 790, se eleva al cuadrado en el multiplicador 800 y se suma en un acumulador, que consiste en el sumador 808 y el registro 814, para generar el valor "y". El valor "y" es dividido por el valor "x" en el divisor 816 para dar la ganancia inversa de los filtros. La raíz cuadrada del factor de ganancia inversa es obtenida en el elemento 818, siendo el resultado sometido a suavizado. La operación de suavizado se lleva a cabo multiplicando el valor actual de ganancia G por el valor constante 0,02 en el multiplicador 802, siendo este resultado sumado en el sumador 810 al resultado de multiplicar por 0,98 la ganancia previa calculada utilizando el registro 820 y el multiplicador 804. La salida del filtro 718 se multiplica a continuación por la ganancia inversa suavizada en el multiplicador 730 para proporcionar la voz reconstruida de salida. La voz de salida se convierte luego en voz analógica utilizando las diversas técnicas de conversión bien conocidas para proporcionarla al usuario.
Debe sobrentenderse que la forma de realización de la presente invención dada a conocer aquí es solo un ejemplo de forma de realización, y que pueden efectuarse variantes de la forma de realización con funcionalidad equivalente. La presente invención puede implementarse en un procesador de señales digitales bajo control de un programa adecuado que proporciona la operación funcional dada a conocer aquí para codificar las muestras de voz y decodificar la voz codificada. En otras implementaciones, la presente invención puede adoptar la forma de realización de un circuito integrado para aplicación específica (ASIC) utilizando técnicas muy conocidas de integración a escala muy grande (VLSI).
La descripción anterior de las formas de realización preferidas se proporciona para permitir a los expertos en la materia la utilización de la presente invención. Las diversas modificaciones a estas formas de realización resultarán muy evidentes para los expertos en la materia, pudiéndose aplicar los principios genéricos definidos aquí a otras formas de realización sin utilizar la capacidad inventiva. Por lo tanto, la presente invención no pretende limitarse a las formas de realización mostradas en la presente memoria, sino que se le concede el alcance definido en las reivindicaciones adjuntas.

Claims (12)

  1. REIVINDICACIONES
    1.-Un procedimiento de procesamiento de una señal de voz que comprende una
    pluralidad de tramas, comprendiendo el procedimiento: calcular un nivel de energía de una trama de la señal de voz; obtener una estimación de ruido de fondo (B) en una trama anterior de la señal de voz; generar una estimación actual de ruido de fondo (B’); asignar bits para la trama de la señal de voz, donde se asignan menos bits en función de si el nivel de energía es inferior a al menos una función de la estimación de ruido de fondo (B) en la trama anterior; y codificar la señal de voz en un paquete según los bits asignados. 2.-El procedimiento según la reivindicación 1, en el que la generación comprende limitar
    un incremento en la estimación actual de ruido de fondo (B') sobre la estimación de ruido de fondo (B) por debajo de un valor predefinido.
  2. 3.-El procedimiento según la reivindicación 2, en el que la limitación comprende restringir la estimación actual de ruido de fondo (B’) a un valor que sea inferior o igual a la función del nivel de energía.
  3. 4.-El procedimiento según cualquiera de las reivindicaciones 1 a 3, en el que el nivel de energía de una trama de la señal de voz es un primer coeficiente de autocorrelación proporcionado por una autocorrelación de muestras de voz digitalizadas en una ventana de Hamming.
  4. 5.-El procedimiento según cualquiera de las reivindicaciones 1 a 3, en el que el nivel de energía de una trama de la señal de voz se aproxima mediante el logaritmo de un primer coeficiente de autocorrelación normalizado por una longitud de ventana de Hamming efectiva.
  5. 6.-El procedimiento según cualquiera de las reivindicaciones 1 a 5, en el que dicha al menos una función de la estimación de ruido de fondo (B) es una función cuadrática. 7.-Un procesador de voz configurado para procesar una señal de voz, que comprende
    una pluralidad de tramas, comprendiendo el procesador de voz: medios para calcular un nivel de energía de una trama de la señal de voz; medios para obtener una estimación de ruido de fondo (B) en una trama anterior de la señal de voz; medios para generar una estimación actual de ruido de fondo (B’); medios para asignar bits para la trama de la señal de voz, donde se asignan menos bits en función de si el nivel de energía es inferior a al menos una función de la estimación de ruido de fondo (B) en la trama anterior; y
    medios para codificar la señal de voz en un paquete según los bits asignados.
  6. 8.-El procesador de voz según la reivindicación 7, en el que los medios de generación comprenden medios para limitar un incremento en la estimación actual de ruido de fondo (B') sobre la estimación de ruido de fondo (B) por debajo de un valor predefinido.
  7. 9.-El procesador de voz según la reivindicación 8, en el que los medios de limitación comprenden medios para restringir la estimación actual de ruido de fondo (B’) a un valor que sea inferior o igual a la función del nivel de energía.
  8. 10.-El procesador de voz según la reivindicación 7, en el que: los medios para calcular un nivel de energía de una trama de la señal de voz es un primer circuito configurado para calcular un nivel de energía de una trama de la señal de voz; los medios para obtener una estimación de ruido de fondo (B) en una trama anterior de la señal de voz son un segundo circuito configurado para calcular una estimación de ruido de fondo (B) en una trama anterior de la señal de voz y para incrementar la estimación de ruido de fondo en una trama anterior de la señal de voz en una cantidad predefinida para generar un valor de estimación incrementado; los medios para generar una estimación actual de ruido de fondo (B’) son un primer multiplexor acoplado al primer y al segundo circuito y configurado para recibir el valor de estimación incrementado y el nivel de energía, y para seleccionar o bien el valor de estimación incrementado o bien el nivel de energía como una estimación de ruido de fondo (B’) en una trama actual de la señal de voz; y los medios para asignar bits para la trama de la señal de voz son un ensamblador de datos configurado para asignar bits para la trama de la señal de voz, donde se asignan menos bits en base a si una función del nivel de energía es inferior a al menos una función de la estimación de ruido de fondo (B). 11.-El procesador de voz según la reivindicación 10, que comprende además un primer
    limitador acoplado al segundo circuito y configurado para limitar el valor de estimación incrementado a un valor que sea inferior a un nivel predefinido.
  9. 12.-El procesador de voz según la reivindicación 11, que comprende además un segundo limitador acoplado al primer multiplexor y configurado para limitar la estimación de ruido de fondo en una trama actual de la señal de voz a un valor que sea inferior o igual al nivel de energía.
  10. 13.-El procesador de voz según cualquiera de las reivindicaciones 7 a 12, en el que el nivel de energía de una trama de la señal de voz es un primer coeficiente de autocorrelación proporcionado por una autocorrelación de muestras de voz digitalizadas en una ventana de Hamming.
  11. 14.-El procesador de voz según cualquiera de las reivindicaciones 7 a 12, en el que el nivel de energía de una trama de la señal de voz se aproxima mediante el logaritmo de un primer coeficiente de autocorrelación normalizado por una longitud de ventana de Hamming efectiva.
  12. 15.-El procesador de voz según cualquiera de las reivindicaciones 7 a 12, en el que dicha al menos una función de la estimación de ruido de fondo (B) es una función cuadrática.
ES08016577T 1991-06-11 1992-06-03 Vocodificador de velocidad variable. Expired - Lifetime ES2348319T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US71366191A 1991-06-11 1991-06-11
US713661 1991-06-11

Publications (1)

Publication Number Publication Date
ES2348319T3 true ES2348319T3 (es) 2010-12-02

Family

ID=24866989

Family Applications (4)

Application Number Title Priority Date Filing Date
ES92913505T Expired - Lifetime ES2166355T3 (es) 1991-06-11 1992-06-03 Vocodificador de velocidad variable.
ES08016577T Expired - Lifetime ES2348319T3 (es) 1991-06-11 1992-06-03 Vocodificador de velocidad variable.
ES01103640T Expired - Lifetime ES2240252T3 (es) 1991-06-11 1992-06-03 Vocodificador de velocidad variable.
ES01103641T Expired - Lifetime ES2225321T3 (es) 1991-06-11 1992-06-03 Aparaato y procedimiento para el enmascaramiento de errores en tramas de datos.

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES92913505T Expired - Lifetime ES2166355T3 (es) 1991-06-11 1992-06-03 Vocodificador de velocidad variable.

Family Applications After (2)

Application Number Title Priority Date Filing Date
ES01103640T Expired - Lifetime ES2240252T3 (es) 1991-06-11 1992-06-03 Vocodificador de velocidad variable.
ES01103641T Expired - Lifetime ES2225321T3 (es) 1991-06-11 1992-06-03 Aparaato y procedimiento para el enmascaramiento de errores en tramas de datos.

Country Status (21)

Country Link
US (3) US5414796A (es)
EP (8) EP1126437B1 (es)
JP (7) JP3432822B2 (es)
CN (8) CN1196271C (es)
AT (4) ATE294441T1 (es)
AU (3) AU671952B2 (es)
BR (1) BR9206143A (es)
CA (6) CA2483322C (es)
DE (4) DE69233794D1 (es)
DK (2) DK1126437T3 (es)
ES (4) ES2166355T3 (es)
FI (5) FI120425B (es)
HK (3) HK1014796A1 (es)
HU (1) HU215861B (es)
IL (4) IL113988A (es)
MX (1) MX9202808A (es)
NO (1) NO319559B1 (es)
RU (1) RU2107951C1 (es)
SG (1) SG70558A1 (es)
WO (1) WO1992022891A1 (es)
ZA (1) ZA924082B (es)

Families Citing this family (500)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010050943A1 (en) * 1989-08-03 2001-12-13 Mahany Ronald L. Radio frequency communication network having adaptive communication parameters
US7606575B2 (en) 1988-08-04 2009-10-20 Broadcom Corporation Remote radio data communication system with data rate switching
US6693951B1 (en) 1990-06-25 2004-02-17 Qualcomm Incorporated System and method for generating signal waveforms in a CDMA cellular telephone system
ATE294441T1 (de) * 1991-06-11 2005-05-15 Qualcomm Inc Vocoder mit veränderlicher bitrate
US5355450A (en) 1992-04-10 1994-10-11 Avid Technology, Inc. Media composer with adjustable source material compression
WO1993012613A1 (en) * 1991-12-13 1993-06-24 Avid Technology, Inc. Quantization table adjustment
SE469764B (sv) * 1992-01-27 1993-09-06 Ericsson Telefon Ab L M Saett att koda en samplad talsignalvektor
TW224191B (es) * 1992-01-28 1994-05-21 Qualcomm Inc
CA2105269C (en) * 1992-10-09 1998-08-25 Yair Shoham Time-frequency interpolation with application to low rate speech coding
FI95086C (fi) * 1992-11-26 1995-12-11 Nokia Mobile Phones Ltd Menetelmä puhesignaalin tehokkaaksi koodaamiseksi
US5864560A (en) 1993-01-08 1999-01-26 Multi-Tech Systems, Inc. Method and apparatus for mode switching in a voice over data computer-based personal communications system
US6009082A (en) 1993-01-08 1999-12-28 Multi-Tech Systems, Inc. Computer-based multifunction personal communication system with caller ID
US5546395A (en) 1993-01-08 1996-08-13 Multi-Tech Systems, Inc. Dynamic selection of compression rate for a voice compression algorithm in a voice over data modem
US5453986A (en) 1993-01-08 1995-09-26 Multi-Tech Systems, Inc. Dual port interface for a computer-based multifunction personal communication system
US5754589A (en) 1993-01-08 1998-05-19 Multi-Tech Systems, Inc. Noncompressed voice and data communication over modem for a computer-based multifunction personal communications system
US5617423A (en) 1993-01-08 1997-04-01 Multi-Tech Systems, Inc. Voice over data modem with selectable voice compression
US5812534A (en) 1993-01-08 1998-09-22 Multi-Tech Systems, Inc. Voice over data conferencing for a computer-based personal communications system
US5535204A (en) 1993-01-08 1996-07-09 Multi-Tech Systems, Inc. Ringdown and ringback signalling for a computer-based multifunction personal communications system
US5452289A (en) 1993-01-08 1995-09-19 Multi-Tech Systems, Inc. Computer-based multifunction personal communications system
US5657423A (en) * 1993-02-22 1997-08-12 Texas Instruments Incorporated Hardware filter circuit and address circuitry for MPEG encoded data
CN1065702C (zh) * 1993-04-16 2001-05-09 传播100公司 对视频数据进行自适应解码和解压缩的方法和设备
JPH08511385A (ja) * 1993-04-16 1996-11-26 データ トランスレイション,インコーポレイテッド 可変量子化を用いた適応型画像圧縮
FI96248C (fi) * 1993-05-06 1996-05-27 Nokia Mobile Phones Ltd Menetelmä pitkän aikavälin synteesisuodattimen toteuttamiseksi sekä synteesisuodatin puhekoodereihin
US5659659A (en) * 1993-07-26 1997-08-19 Alaris, Inc. Speech compressor using trellis encoding and linear prediction
ZA946674B (en) * 1993-09-08 1995-05-02 Qualcomm Inc Method and apparatus for determining the transmission data rate in a multi-user communication system
US5649299A (en) * 1993-10-27 1997-07-15 Motorola, Inc. Apparatus and method for adapting a digital radiotelephone system to increased subscriber traffic
US6094575A (en) 1993-11-01 2000-07-25 Omnipoint Corporation Communication system and method
IL111469A0 (en) 1993-11-01 1994-12-29 Omnipoint Corp Despreading/demodulating direct sequence spread spectrum signals
US6005856A (en) 1993-11-01 1999-12-21 Omnipoint Corporation Communication protocol for spread spectrum wireless communication system
US6088590A (en) 1993-11-01 2000-07-11 Omnipoint Corporation Method and system for mobile controlled handoff and link maintenance in spread spectrum communication
JP3182032B2 (ja) * 1993-12-10 2001-07-03 株式会社日立国際電気 音声符号化通信方式及びその装置
US5621852A (en) * 1993-12-14 1997-04-15 Interdigital Technology Corporation Efficient codebook structure for code excited linear prediction coding
US5784532A (en) * 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
PL175948B1 (pl) * 1994-02-17 1999-03-31 Motorola Inc Sposób i urządzenie do sterowania szybkością kodowania w systemie telekomunikacyjnym
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
CA2142391C (en) * 1994-03-14 2001-05-29 Juin-Hwey Chen Computational complexity reduction during frame erasure or packet loss
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
US5757801A (en) 1994-04-19 1998-05-26 Multi-Tech Systems, Inc. Advanced priority statistical multiplexer
US5682386A (en) 1994-04-19 1997-10-28 Multi-Tech Systems, Inc. Data/voice/fax compression multiplexer
FI98162C (fi) * 1994-05-30 1997-04-25 Tecnomen Oy HMM-malliin perustuva puheentunnistusmenetelmä
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
US5638412A (en) 1994-06-15 1997-06-10 Qualcomm Incorporated Method for providing service and rate negotiation in a mobile communication system
US5603096A (en) * 1994-07-11 1997-02-11 Qualcomm Incorporated Reverse link, closed loop power control in a code division multiple access system
TW271524B (es) * 1994-08-05 1996-03-01 Qualcomm Inc
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US5627856A (en) 1994-09-09 1997-05-06 Omnipoint Corporation Method and apparatus for receiving and despreading a continuous phase-modulated spread spectrum signal using self-synchronizing correlators
US5881100A (en) 1994-09-09 1999-03-09 Omnipoint Corporation Method and apparatus for coherent correlation of a spread spectrum signal
US5757847A (en) 1994-09-09 1998-05-26 Omnipoint Corporation Method and apparatus for decoding a phase encoded signal
US5953370A (en) 1994-09-09 1999-09-14 Omnipoint Corporation Apparatus for receiving and correlating a spread spectrum signal
US5629956A (en) 1994-09-09 1997-05-13 Omnipoint Corporation Method and apparatus for reception and noncoherent serial correlation of a continuous phase modulated signal
US5856998A (en) 1994-09-09 1999-01-05 Omnipoint Corporation Method and apparatus for correlating a continuous phase modulated spread spectrum signal
US5648982A (en) 1994-09-09 1997-07-15 Omnipoint Corporation Spread spectrum transmitter
US5963586A (en) 1994-09-09 1999-10-05 Omnipoint Corporation Method and apparatus for parallel noncoherent correlation of a spread spectrum signal
US5754585A (en) 1994-09-09 1998-05-19 Omnipoint Corporation Method and apparatus for serial noncoherent correlation of a spread spectrum signal
US5610940A (en) 1994-09-09 1997-03-11 Omnipoint Corporation Method and apparatus for noncoherent reception and correlation of a continous phase modulated signal
US5692007A (en) 1994-09-09 1997-11-25 Omnipoint Corporation Method and apparatus for differential phase encoding and decoding in spread-spectrum communication systems with continuous-phase modulation
US5680414A (en) 1994-09-09 1997-10-21 Omnipoint Corporation Synchronization apparatus and method for spread spectrum receiver
US5754584A (en) 1994-09-09 1998-05-19 Omnipoint Corporation Non-coherent spread-spectrum continuous-phase modulation communication system
US5659574A (en) 1994-09-09 1997-08-19 Omnipoint Corporation Multi-bit correlation of continuous phase modulated signals
US5832028A (en) 1994-09-09 1998-11-03 Omnipoint Corporation Method and apparatus for coherent serial correlation of a spread spectrum signal
US5537410A (en) * 1994-09-15 1996-07-16 Oki Telecom Subsequent frame variable data rate indication method
US6141353A (en) * 1994-09-15 2000-10-31 Oki Telecom, Inc. Subsequent frame variable data rate indication method for various variable data rate systems
JPH08102687A (ja) * 1994-09-29 1996-04-16 Yamaha Corp 音声送受信方式
EP0710948B1 (en) * 1994-10-05 2002-02-27 Advanced Micro Devices, Inc. Apparatus and method for analyzing speech signals to determine parameters expressive of characteristics of the speech signals
US5546448A (en) * 1994-11-10 1996-08-13 Multi-Tech Systems, Inc. Apparatus and method for a caller ID modem interface
US5781880A (en) * 1994-11-21 1998-07-14 Rockwell International Corporation Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
US5784403A (en) * 1995-02-03 1998-07-21 Omnipoint Corporation Spread spectrum correlation using saw device
JP3303580B2 (ja) * 1995-02-23 2002-07-22 日本電気株式会社 音声符号化装置
ZA961025B (en) * 1995-02-28 1996-07-16 Qualcomm Inc Method and apparatus for providing variable rate data in a communications system using non-orthogonal overflow channels
US6292476B1 (en) * 1997-04-16 2001-09-18 Qualcomm Inc. Method and apparatus for providing variable rate data in a communications system using non-orthogonal overflow channels
US5991725A (en) * 1995-03-07 1999-11-23 Advanced Micro Devices, Inc. System and method for enhanced speech quality in voice storage and retrieval systems
US5699478A (en) * 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
JPH08263099A (ja) * 1995-03-23 1996-10-11 Toshiba Corp 符号化装置
US6977967B1 (en) * 1995-03-31 2005-12-20 Qualcomm Incorporated Method and apparatus for performing fast power control in a mobile communication system
TW347616B (en) 1995-03-31 1998-12-11 Qualcomm Inc Method and apparatus for performing fast power control in a mobile communication system a method and apparatus for controlling transmission power in a mobile communication system is disclosed.
US6137840A (en) 1995-03-31 2000-10-24 Qualcomm Incorporated Method and apparatus for performing fast power control in a mobile communication system
US5548253A (en) * 1995-04-17 1996-08-20 Omnipoint Corporation Spectrally efficient quadrature amplitude modulator
US5508708A (en) * 1995-05-08 1996-04-16 Motorola, Inc. Method and apparatus for location finding in a CDMA system
JP2728122B2 (ja) * 1995-05-23 1998-03-18 日本電気株式会社 無音圧縮音声符号化復号化装置
US5959980A (en) * 1995-06-05 1999-09-28 Omnipoint Corporation Timing adjustment control for efficient time division duplex communication
US5689502A (en) * 1995-06-05 1997-11-18 Omnipoint Corporation Efficient frequency division duplex communication system with interleaved format and timing adjustment control
US5745484A (en) * 1995-06-05 1998-04-28 Omnipoint Corporation Efficient communication system using time division multiplexing and timing adjustment control
US6356607B1 (en) 1995-06-05 2002-03-12 Omnipoint Corporation Preamble code structure and detection method and apparatus
US5802046A (en) * 1995-06-05 1998-09-01 Omnipoint Corporation Efficient time division duplex communication system with interleaved format and timing adjustment control
US6526038B1 (en) * 1995-06-07 2003-02-25 Telcordia Technologies, Inc. Periodic wireless broadcast
GB9512284D0 (en) * 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
US7929498B2 (en) 1995-06-30 2011-04-19 Interdigital Technology Corporation Adaptive forward power control and adaptive reverse power control for spread-spectrum communications
US7020111B2 (en) 1996-06-27 2006-03-28 Interdigital Technology Corporation System for using rapid acquisition spreading codes for spread-spectrum communications
US6885652B1 (en) 1995-06-30 2005-04-26 Interdigital Technology Corporation Code division multiple access (CDMA) communication system
ZA965340B (en) 1995-06-30 1997-01-27 Interdigital Tech Corp Code division multiple access (cdma) communication system
FI100157B (fi) * 1995-07-12 1997-09-30 Nokia Mobile Phones Ltd Muuttuvanopeuksiset piirikytketyt siirtopalvelut TDMA-pohjaisissa solu kkojärjestelmissä
US6041046A (en) * 1995-07-14 2000-03-21 Omnipoint Corporation Cyclic time hopping in time division multiple access communication system
US5754733A (en) * 1995-08-01 1998-05-19 Qualcomm Incorporated Method and apparatus for generating and encoding line spectral square roots
FR2737948B1 (fr) * 1995-08-16 1997-10-17 Alcatel Mobile Comm France Dispositif de commande de volume sonore pour recepteur de signaux de parole codes par blocs
JP3522012B2 (ja) * 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
CA2204024C (en) * 1995-08-31 2001-10-23 Hisakazu Tsuboya Atm transmission method with mute compression control function, and system, transmitter and receiver using the same
US5950164A (en) * 1995-09-29 1999-09-07 Olympus Optical Co., Ltd. Voice recording apparatus capable of displaying remaining recording capacity of memory according to encoding bit rates
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
JP4005154B2 (ja) * 1995-10-26 2007-11-07 ソニー株式会社 音声復号化方法及び装置
JPH09152896A (ja) * 1995-11-30 1997-06-10 Oki Electric Ind Co Ltd 声道予測係数符号化・復号化回路、声道予測係数符号化回路、声道予測係数復号化回路、音声符号化装置及び音声復号化装置
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5822721A (en) * 1995-12-22 1998-10-13 Iterated Systems, Inc. Method and apparatus for fractal-excited linear predictive coding of digital signals
US5737716A (en) * 1995-12-26 1998-04-07 Motorola Method and apparatus for encoding speech using neural network technology for speech classification
US5867763A (en) * 1996-02-08 1999-02-02 Qualcomm Incorporated Method and apparatus for integration of a wireless communication system with a cable T.V. system
US5839052A (en) * 1996-02-08 1998-11-17 Qualcom Incorporated Method and apparatus for integration of a wireless communication system with a cable television system
JPH09230896A (ja) * 1996-02-28 1997-09-05 Sony Corp 音声合成装置
US5754537A (en) * 1996-03-08 1998-05-19 Telefonaktiebolaget L M Ericsson (Publ) Method and system for transmitting background noise data
EP0886927B1 (en) * 1996-03-27 2006-06-07 Motorola, Inc. Method and apparatus for providing a multi-party speech connection for use in a wireless communication system
SE506341C2 (sv) * 1996-04-10 1997-12-08 Ericsson Telefon Ab L M Metod och anordning för rekonstruktion av en mottagen talsignal
GB2312360B (en) * 1996-04-12 2001-01-24 Olympus Optical Co Voice signal coding apparatus
US5708757A (en) * 1996-04-22 1998-01-13 France Telecom Method of determining parameters of a pitch synthesis filter in a speech coder, and speech coder implementing such method
US6205190B1 (en) * 1996-04-29 2001-03-20 Qualcomm Inc. System and method for reducing interference generated by a CDMA communications device
US5937374A (en) * 1996-05-15 1999-08-10 Advanced Micro Devices, Inc. System and method for improved pitch estimation which performs first formant energy removal for a frame using coefficients from a prior frame
US6047254A (en) * 1996-05-15 2000-04-04 Advanced Micro Devices, Inc. System and method for determining a first formant analysis filter and prefiltering a speech signal for improved pitch estimation
JP3092652B2 (ja) * 1996-06-10 2000-09-25 日本電気株式会社 音声再生装置
US6766176B1 (en) 1996-07-23 2004-07-20 Qualcomm Incorporated Method and apparatus for automatically adjusting speaker and microphone gains within a mobile telephone
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
US5883927A (en) * 1996-07-31 1999-03-16 Nextwave Telecom, Inc. Digital wireless telecommunication device for reduced interference with hearing aids
JPH1049199A (ja) * 1996-08-02 1998-02-20 Nec Corp 無音圧縮音声符号化復号化装置
US5726983A (en) * 1996-08-09 1998-03-10 Motorola, Inc. Communication device with variable frame processing time
US5812968A (en) * 1996-08-28 1998-09-22 Ericsson, Inc. Vocoder apparatus using the link margin
US5881053A (en) * 1996-09-13 1999-03-09 Qualcomm Incorporated Method for a wireless communications channel
SE507370C2 (sv) * 1996-09-13 1998-05-18 Ericsson Telefon Ab L M Metod och anordning för att alstra komfortbrus i linjärprediktiv talavkodare
US6205130B1 (en) 1996-09-25 2001-03-20 Qualcomm Incorporated Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters
US7788092B2 (en) * 1996-09-25 2010-08-31 Qualcomm Incorporated Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters
CA2265640A1 (en) * 1996-09-25 1998-04-02 Qualcomm Incorporated Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
US5954834A (en) * 1996-10-09 1999-09-21 Ericsson Inc. Systems and methods for communicating desired audio information over a communications medium
US5905794A (en) * 1996-10-15 1999-05-18 Multi-Tech Systems, Inc. Caller identification interface using line reversal detection
US6496543B1 (en) * 1996-10-29 2002-12-17 Qualcomm Incorporated Method and apparatus for providing high speed data communications in a cellular environment
US5781593A (en) * 1996-11-14 1998-07-14 Omnipoint Corporation Methods and apparatus for vocoder synchronization in mobile communication network
US6141373A (en) 1996-11-15 2000-10-31 Omnipoint Corporation Preamble code structure and detection method and apparatus
FI964975A (fi) * 1996-12-12 1998-06-13 Nokia Mobile Phones Ltd Menetelmä ja laite puheen koodaamiseksi
US6172965B1 (en) * 1996-12-23 2001-01-09 Nortel Networks Limited Duplex transmission scheme
JP2856185B2 (ja) * 1997-01-21 1999-02-10 日本電気株式会社 音声符号化復号化システム
CA2247429C (en) * 1997-01-23 2002-01-01 Motorola, Inc. Apparatus and method for non-linear processing in a communication system
US6335922B1 (en) 1997-02-11 2002-01-01 Qualcomm Incorporated Method and apparatus for forward link rate scheduling
US7751370B2 (en) 2001-07-13 2010-07-06 Qualcomm Incorporated Method and apparatus for forward link rate scheduling
JP3067676B2 (ja) * 1997-02-13 2000-07-17 日本電気株式会社 Lspの予測符号化装置及び方法
US6014375A (en) * 1997-02-13 2000-01-11 Ericsson Inc. TDMA radio protocol with adaptive vocoder selection
US5832443A (en) * 1997-02-25 1998-11-03 Alaris, Inc. Method and apparatus for adaptive audio compression and decompression
US6104993A (en) * 1997-02-26 2000-08-15 Motorola, Inc. Apparatus and method for rate determination in a communication system
WO1998038764A1 (de) * 1997-02-27 1998-09-03 Siemens Aktiengesellschaft Verfahren und anordnung zur rahmenfehlerdetektion zwecks fehlerverdeckung insbesondere bei gsm übertragungen
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
US6282228B1 (en) 1997-03-20 2001-08-28 Xircom, Inc. Spread spectrum codes for use in communication
US6480521B1 (en) * 1997-03-26 2002-11-12 Qualcomm Incorporated Method and apparatus for transmitting high speed data in a spread spectrum communications system
US5907822A (en) * 1997-04-04 1999-05-25 Lincom Corporation Loss tolerant speech decoder for telecommunications
CN1140894C (zh) * 1997-04-07 2004-03-03 皇家菲利浦电子有限公司 可变位速率语音传输系统
KR100198476B1 (ko) * 1997-04-23 1999-06-15 윤종용 노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법
US6014623A (en) * 1997-06-12 2000-01-11 United Microelectronics Corp. Method of encoding synthetic speech
US6075792A (en) 1997-06-16 2000-06-13 Interdigital Technology Corporation CDMA communication system which selectively allocates bandwidth upon demand
US6003003A (en) * 1997-06-27 1999-12-14 Advanced Micro Devices, Inc. Speech recognition system having a quantizer using a single robust codebook designed at multiple signal to noise ratios
US6032116A (en) * 1997-06-27 2000-02-29 Advanced Micro Devices, Inc. Distance measure in a speech recognition system for speech recognition using frequency shifting factors to compensate for input signal frequency shifts
US6044343A (en) * 1997-06-27 2000-03-28 Advanced Micro Devices, Inc. Adaptive speech recognition with selective input data to a speech classifier
US6175590B1 (en) 1997-08-08 2001-01-16 Qualcomm Inc. Method and apparatus for determining the rate of received data in a variable rate communication system
US6097972A (en) * 1997-08-29 2000-08-01 Qualcomm Incorporated Method and apparatus for processing power control signals in CDMA mobile telephone system
US6058359A (en) * 1998-03-04 2000-05-02 Telefonaktiebolaget L M Ericsson Speech coding including soft adaptability feature
WO1999012155A1 (en) * 1997-09-30 1999-03-11 Qualcomm Incorporated Channel gain modification system and method for noise reduction in voice communication
US6049537A (en) * 1997-09-05 2000-04-11 Motorola, Inc. Method and system for controlling speech encoding in a communication system
US5898696A (en) * 1997-09-05 1999-04-27 Motorola, Inc. Method and system for controlling an encoding rate in a variable rate communication system
US6920150B1 (en) * 1997-09-30 2005-07-19 Lucent Technologies Inc. Adaptive communications transcoding and error control
US5897613A (en) * 1997-10-08 1999-04-27 Lucent Technologies Inc. Efficient transmission of voice silence intervals
US6070136A (en) * 1997-10-27 2000-05-30 Advanced Micro Devices, Inc. Matrix quantization with vector quantization error compensation for robust speech recognition
US6067515A (en) * 1997-10-27 2000-05-23 Advanced Micro Devices, Inc. Split matrix quantization with split vector quantization error compensation and selective enhanced processing for robust speech recognition
US5953695A (en) * 1997-10-29 1999-09-14 Lucent Technologies Inc. Method and apparatus for synchronizing digital speech communications
US7184426B2 (en) 2002-12-12 2007-02-27 Qualcomm, Incorporated Method and apparatus for burst pilot for a time division multiplex system
US9118387B2 (en) 1997-11-03 2015-08-25 Qualcomm Incorporated Pilot reference transmission for a wireless communication system
US6563803B1 (en) 1997-11-26 2003-05-13 Qualcomm Incorporated Acoustic echo canceller
US6044339A (en) * 1997-12-02 2000-03-28 Dspc Israel Ltd. Reduced real-time processing in stochastic celp encoding
DE19753697B4 (de) * 1997-12-03 2006-04-27 Siemens Ag Verfahren und Funkstation zur Datenübertragung in einem Kommunikationssystem
US6049765A (en) * 1997-12-22 2000-04-11 Lucent Technologies Inc. Silence compression for recorded voice messages
US6104994A (en) * 1998-01-13 2000-08-15 Conexant Systems, Inc. Method for speech coding under background noise conditions
JPH11215006A (ja) * 1998-01-29 1999-08-06 Olympus Optical Co Ltd ディジタル音声信号の送信装置及び受信装置
US6799159B2 (en) * 1998-02-02 2004-09-28 Motorola, Inc. Method and apparatus employing a vocoder for speech processing
US6381569B1 (en) * 1998-02-04 2002-04-30 Qualcomm Incorporated Noise-compensated speech recognition templates
US6603751B1 (en) * 1998-02-13 2003-08-05 Qualcomm Incorporated Method and system for performing a handoff in a wireless communication system, such as a hard handoff
US6545989B1 (en) 1998-02-19 2003-04-08 Qualcomm Incorporated Transmit gating in a wireless communication system
US6104991A (en) * 1998-02-27 2000-08-15 Lucent Technologies, Inc. Speech encoding and decoding system which modifies encoding and decoding characteristics based on an audio signal
FI113571B (fi) 1998-03-09 2004-05-14 Nokia Corp Puheenkoodaus
US6125348A (en) * 1998-03-12 2000-09-26 Liquid Audio Inc. Lossless data compression with low complexity
US6043763A (en) * 1998-03-12 2000-03-28 Liquid Audio, Inc. Lossless data compression with low complexity
US6121904A (en) * 1998-03-12 2000-09-19 Liquid Audio, Inc. Lossless data compression with low complexity
US6118392A (en) * 1998-03-12 2000-09-12 Liquid Audio Inc. Lossless data compression with low complexity
US6028541A (en) * 1998-03-12 2000-02-22 Liquid Audio Inc. Lossless data compression with low complexity
US6169906B1 (en) * 1998-03-24 2001-01-02 Motorola, Inc. Method of transmitting messages in a dispatch call
US20030194033A1 (en) 1998-05-21 2003-10-16 Tiedemann Edward G. Method and apparatus for coordinating transmission of short messages with hard handoff searches in a wireless communications system
US6577645B2 (en) 1998-06-03 2003-06-10 Siemens Aktiengesellschaft Method and radio set for transmitting messages
DE59911334D1 (de) * 1998-06-03 2005-01-27 Siemens Ag Verfahren und funkgerät zur übertragung von nachrichten
US6141639A (en) * 1998-06-05 2000-10-31 Conexant Systems, Inc. Method and apparatus for coding of signals containing speech and background noise
JP3273599B2 (ja) * 1998-06-19 2002-04-08 沖電気工業株式会社 音声符号化レート選択器と音声符号化装置
US6810377B1 (en) * 1998-06-19 2004-10-26 Comsat Corporation Lost frame recovery techniques for parametric, LPC-based speech coding systems
US6034971A (en) * 1998-06-30 2000-03-07 Motorola, Inc. Method and apparatus for controlling communication system capacity
US6081776A (en) * 1998-07-13 2000-06-27 Lockheed Martin Corp. Speech coding system and method including adaptive finite impulse response filter
DE19833318C2 (de) * 1998-07-24 2001-08-02 Bosch Gmbh Robert Verfahren zur Übertragung von digitalen Nutzdaten
US6163766A (en) * 1998-08-14 2000-12-19 Motorola, Inc. Adaptive rate system and method for wireless communications
US6173254B1 (en) * 1998-08-18 2001-01-09 Denso Corporation, Ltd. Recorded message playback system for a variable bit rate system
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
US6493665B1 (en) * 1998-08-24 2002-12-10 Conexant Systems, Inc. Speech classification and parameter weighting used in codebook search
US6385573B1 (en) * 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6260010B1 (en) * 1998-08-24 2001-07-10 Conexant Systems, Inc. Speech encoder using gain normalization that combines open and closed loop gains
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US6823303B1 (en) * 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6330533B2 (en) 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US7117146B2 (en) * 1998-08-24 2006-10-03 Mindspeed Technologies, Inc. System for improved use of pitch enhancement with subcodebooks
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
US6449590B1 (en) 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
US6798736B1 (en) 1998-09-22 2004-09-28 Qualcomm Incorporated Method and apparatus for transmitting and receiving variable rate data
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6347297B1 (en) * 1998-10-05 2002-02-12 Legerity, Inc. Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition
US6219642B1 (en) 1998-10-05 2001-04-17 Legerity, Inc. Quantization using frequency and mean compensated frequency input data for robust speech recognition
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
JP3343082B2 (ja) * 1998-10-27 2002-11-11 松下電器産業株式会社 Celp型音声符号化装置
US6754630B2 (en) 1998-11-13 2004-06-22 Qualcomm, Inc. Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation
US6463407B2 (en) 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6233549B1 (en) 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method
US6289099B1 (en) * 1998-11-30 2001-09-11 Qualcomm Inc. Ringer for satellite user terminals
US6256606B1 (en) 1998-11-30 2001-07-03 Conexant Systems, Inc. Silence description coding for multi-rate speech codecs
US6512925B1 (en) * 1998-12-03 2003-01-28 Qualcomm, Incorporated Method and apparatus for controlling transmission power while in soft handoff
US6275485B1 (en) * 1998-12-03 2001-08-14 Qualcomm Inc. Noise characterization in a wireless communication system
US6182030B1 (en) 1998-12-18 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced coding to improve coded communication signals
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6542486B1 (en) * 1998-12-22 2003-04-01 Nortel Networks Limited Multiple technology vocoder and an associated telecommunications network
US6393074B1 (en) 1998-12-31 2002-05-21 Texas Instruments Incorporated Decoding system for variable-rate convolutionally-coded data sequence
US7406098B2 (en) * 1999-01-13 2008-07-29 Qualcomm Incorporated Resource allocation in a communication system supporting application flows having quality of service requirements
US6411926B1 (en) 1999-02-08 2002-06-25 Qualcomm Incorporated Distributed voice recognition system
US6226607B1 (en) 1999-02-08 2001-05-01 Qualcomm Incorporated Method and apparatus for eighth-rate random number generation for speech coders
US6324509B1 (en) 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
US6330247B1 (en) 1999-02-08 2001-12-11 Qualcomm Incorporated Communication protocol between a communication device and an external accessory
ES2263459T3 (es) * 1999-02-08 2006-12-16 Qualcomm Incorporated Sistetizador de conversacion basado en la codificacion de conversacion de indice variable.
US6574596B2 (en) 1999-02-08 2003-06-03 Qualcomm Incorporated Voice recognition rejection scheme
US6587446B2 (en) * 1999-02-11 2003-07-01 Qualcomm Incorporated Handoff in a wireless communication system
US6260009B1 (en) 1999-02-12 2001-07-10 Qualcomm Incorporated CELP-based to CELP-based vocoder packet translation
US6449592B1 (en) 1999-02-26 2002-09-10 Qualcomm Incorporated Method and apparatus for tracking the phase of a quasi-periodic signal
US6397177B1 (en) * 1999-03-10 2002-05-28 Samsung Electronics, Co., Ltd. Speech-encoding rate decision apparatus and method in a variable rate
US6088347A (en) * 1999-03-10 2000-07-11 Massachusetts Institute Of Technology Variable chip rate code-division multiple access
US6233552B1 (en) * 1999-03-12 2001-05-15 Comsat Corporation Adaptive post-filtering technique based on the Modified Yule-Walker filter
US6519479B1 (en) 1999-03-31 2003-02-11 Qualcomm Inc. Spoken user interface for speech-enabled devices
EP1169800A4 (en) * 1999-04-12 2002-10-23 Samsung Electronics Co Ltd INTERMITTENT TRANSMISSION DEVICE AND METHOD IN CDMA TELECOMMUNICATION SYSTEM
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
US6260017B1 (en) 1999-05-07 2001-07-10 Qualcomm Inc. Multipulse interpolative coding of transition speech frames
US6766295B1 (en) 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
US6661832B1 (en) 1999-05-11 2003-12-09 Qualcomm Incorporated System and method for providing an accurate estimation of received signal interference for use in wireless communications systems
US6954727B1 (en) * 1999-05-28 2005-10-11 Koninklijke Philips Electronics N.V. Reducing artifact generation in a vocoder
US6393394B1 (en) 1999-07-19 2002-05-21 Qualcomm Incorporated Method and apparatus for interleaving line spectral information quantization methods in a speech coder
US6324503B1 (en) 1999-07-19 2001-11-27 Qualcomm Incorporated Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
US6397175B1 (en) 1999-07-19 2002-05-28 Qualcomm Incorporated Method and apparatus for subsampling phase spectrum information
US6324505B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Amplitude quantization scheme for low-bit-rate speech coders
US6330532B1 (en) 1999-07-19 2001-12-11 Qualcomm Incorporated Method and apparatus for maintaining a target bit rate in a speech coder
US6496706B1 (en) 1999-07-23 2002-12-17 Qualcomm Incorporated Method and system for transmit gating in a wireless communication system
US6704328B1 (en) * 1999-07-26 2004-03-09 Nortel Networks, Limited Signalling scheme and messaging structure to support the smoothing of large bit rate transmissions
US6603752B1 (en) 1999-07-29 2003-08-05 Ahmed Saifuddin Method and system for controlling transmission energy in a variable rate gated communication system
US6633552B1 (en) * 1999-08-06 2003-10-14 Qualcomm Incorporated Method and apparatus for determining the closed loop power control set point in a wireless packet data communication system
US6658112B1 (en) 1999-08-06 2003-12-02 General Dynamics Decision Systems, Inc. Voice decoder and method for detecting channel errors using spectral energy evolution
US6597667B1 (en) 1999-08-18 2003-07-22 Qualcomm Incorporated Network based muting of a cellular telephone
US6493329B1 (en) * 1999-08-23 2002-12-10 Qualcomm Incorporated Adaptive channel estimation in a wireless communication system
US8064409B1 (en) 1999-08-25 2011-11-22 Qualcomm Incorporated Method and apparatus using a multi-carrier forward link in a wireless communication system
US6426971B1 (en) 1999-09-13 2002-07-30 Qualcomm Incorporated System and method for accurately predicting signal to interference and noise ratio to improve communications system performance
US7054809B1 (en) * 1999-09-22 2006-05-30 Mindspeed Technologies, Inc. Rate selection method for selectable mode vocoder
AU2003262451B2 (en) * 1999-09-22 2006-01-19 Macom Technology Solutions Holdings, Inc. Multimode speech encoder
US6574593B1 (en) 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
US6581032B1 (en) 1999-09-22 2003-06-17 Conexant Systems, Inc. Bitstream protocol for transmission of encoded voice signals
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6708024B1 (en) * 1999-09-22 2004-03-16 Legerity, Inc. Method and apparatus for generating comfort noise
US6959274B1 (en) 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6604070B1 (en) 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
AU766830B2 (en) * 1999-09-22 2003-10-23 Macom Technology Solutions Holdings, Inc. Multimode speech encoder
US6496798B1 (en) * 1999-09-30 2002-12-17 Motorola, Inc. Method and apparatus for encoding and decoding frames of voice model parameters into a low bit rate digital voice message
US6772126B1 (en) * 1999-09-30 2004-08-03 Motorola, Inc. Method and apparatus for transferring low bit rate digital voice messages using incremental messages
US6621804B1 (en) * 1999-10-07 2003-09-16 Qualcomm Incorporated Method and apparatus for predicting favored supplemental channel transmission slots using transmission power measurements of a fundamental channel
US6850506B1 (en) 1999-10-07 2005-02-01 Qualcomm Incorporated Forward-link scheduling in a wireless communication system
US7522631B1 (en) * 1999-10-26 2009-04-21 Qualcomm, Incorporated Method and apparatus for efficient data transmission control in a wireless voice-over-data communication system
US6463274B1 (en) * 1999-10-26 2002-10-08 Denso Corporation Multiple class of service determination for digital cellular telephones
US6438518B1 (en) 1999-10-28 2002-08-20 Qualcomm Incorporated Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions
US6496794B1 (en) * 1999-11-22 2002-12-17 Motorola, Inc. Method and apparatus for seamless multi-rate speech coding
BR0006803A (pt) * 1999-12-10 2001-12-11 Lucent Technologies Inc Sistema e método para reduzir retardo de fala emelhorar a qualidade de fala utilizando meiosblocos
US6772112B1 (en) 1999-12-10 2004-08-03 Lucent Technologies Inc. System and method to reduce speech delay and improve voice quality using half speech blocks
US7574351B2 (en) * 1999-12-14 2009-08-11 Texas Instruments Incorporated Arranging CELP information of one frame in a second packet
US6745024B1 (en) 2000-01-10 2004-06-01 Qualcomm Incorporated System and method for preparing and sending an electronic mail communication using a wireless communications device
US6510409B1 (en) * 2000-01-18 2003-01-21 Conexant Systems, Inc. Intelligent discontinuous transmission and comfort noise generation scheme for pulse code modulation speech coders
US7127390B1 (en) 2000-02-08 2006-10-24 Mindspeed Technologies, Inc. Rate determination coding
EP1126651A1 (en) * 2000-02-16 2001-08-22 Lucent Technologies Inc. Link adaptation for RT-EGPRS
US6721368B1 (en) 2000-03-04 2004-04-13 Qualcomm Incorporated Transmitter architectures for communications systems
US6584438B1 (en) 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
EP2040253B1 (en) * 2000-04-24 2012-04-11 Qualcomm Incorporated Predictive dequantization of voiced speech
US6980527B1 (en) 2000-04-25 2005-12-27 Cwill Telecommunications, Inc. Smart antenna CDMA wireless communication system
US6285682B1 (en) * 2000-05-01 2001-09-04 Motorola, Inc. Method and apparatus for determining the frame rate of a frame
US7080009B2 (en) * 2000-05-01 2006-07-18 Motorola, Inc. Method and apparatus for reducing rate determination errors and their artifacts
FI115329B (fi) * 2000-05-08 2005-04-15 Nokia Corp Menetelmä ja järjestely lähdesignaalin kaistanleveyden vaihtamiseksi tietoliikenneyhteydessä, jossa on valmiudet useisiin kaistanleveyksiin
US7089181B2 (en) * 2001-05-30 2006-08-08 Intel Corporation Enhancing the intelligibility of received speech in a noisy environment
US7010483B2 (en) 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system
US7072833B2 (en) 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
US7035790B2 (en) 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US6954745B2 (en) 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
US6735563B1 (en) 2000-07-13 2004-05-11 Qualcomm, Inc. Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US6510142B1 (en) 2000-07-21 2003-01-21 Motorola, Inc. Method and apparatus for reduced reversed traffic in a cellular telephone system
US6856954B1 (en) * 2000-07-28 2005-02-15 Mindspeed Technologies, Inc. Flexible variable rate vocoder for wireless communication systems
US6728669B1 (en) * 2000-08-07 2004-04-27 Lucent Technologies Inc. Relative pulse position in celp vocoding
EP1308927B9 (en) * 2000-08-09 2009-02-25 Sony Corporation Voice data processing device and processing method
US6477502B1 (en) 2000-08-22 2002-11-05 Qualcomm Incorporated Method and apparatus for using non-symmetric speech coders to produce non-symmetric links in a wireless communication system
US6850884B2 (en) * 2000-09-15 2005-02-01 Mindspeed Technologies, Inc. Selection of coding parameters based on spectral content of a speech signal
US7133823B2 (en) * 2000-09-15 2006-11-07 Mindspeed Technologies, Inc. System for an adaptive excitation pattern for speech coding
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
US6842733B1 (en) 2000-09-15 2005-01-11 Mindspeed Technologies, Inc. Signal processing system for filtering spectral content of a signal for speech coding
US6760882B1 (en) 2000-09-19 2004-07-06 Intel Corporation Mode selection for data transmission in wireless communication channels based on statistical parameters
US6802035B2 (en) * 2000-09-19 2004-10-05 Intel Corporation System and method of dynamically optimizing a transmission mode of wirelessly transmitted information
US7171355B1 (en) * 2000-10-25 2007-01-30 Broadcom Corporation Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
US7068683B1 (en) 2000-10-25 2006-06-27 Qualcomm, Incorporated Method and apparatus for high rate packet data and low delay data transmissions
US6973098B1 (en) 2000-10-25 2005-12-06 Qualcomm, Incorporated Method and apparatus for determining a data rate in a high rate packet data wireless communications system
DE60029453T2 (de) * 2000-11-09 2007-04-12 Koninklijke Kpn N.V. Messen der Übertragungsqualität einer Telefonverbindung in einem Fernmeldenetz
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
US6999430B2 (en) * 2000-11-30 2006-02-14 Qualcomm Incorporated Method and apparatus for transmitting data traffic on a wireless communication channel
US6804218B2 (en) 2000-12-04 2004-10-12 Qualcomm Incorporated Method and apparatus for improved detection of rate errors in variable rate receivers
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
US7505594B2 (en) * 2000-12-19 2009-03-17 Qualcomm Incorporated Discontinuous transmission (DTX) controller system and method
SE0004818D0 (sv) * 2000-12-22 2000-12-22 Coding Technologies Sweden Ab Enhancing source coding systems by adaptive transposition
US7346918B2 (en) 2000-12-27 2008-03-18 Z-Band, Inc. Intelligent device system and method for distribution of digital signals on a wideband signal distribution system
EP1410513A4 (en) 2000-12-29 2005-06-29 Infineon Technologies Ag CHANNEL CODEC PROCESSOR CONFIGURABLE FOR MULTIPLE WIRELESS COMMUNICATION STANDARDS
US7113522B2 (en) * 2001-01-24 2006-09-26 Qualcomm, Incorporated Enhanced conversion of wideband signals to narrowband signals
US7062445B2 (en) * 2001-01-26 2006-06-13 Microsoft Corporation Quantization loop with heuristic approach
US7120134B2 (en) 2001-02-15 2006-10-10 Qualcomm, Incorporated Reverse link channel architecture for a wireless communication system
US20040204935A1 (en) * 2001-02-21 2004-10-14 Krishnasamy Anandakumar Adaptive voice playout in VOP
US6760587B2 (en) 2001-02-23 2004-07-06 Qualcomm Incorporated Forward-link scheduling in a wireless communication system during soft and softer handoff
US7289461B2 (en) 2001-03-15 2007-10-30 Qualcomm Incorporated Communications using wideband terminals
US20020181546A1 (en) * 2001-03-23 2002-12-05 Odenwalder Joseph P. Preamble channels
US6760576B2 (en) 2001-03-27 2004-07-06 Qualcomm Incorporated Method and apparatus for enhanced rate determination in high data rate wireless communication systems
US8199696B2 (en) * 2001-03-29 2012-06-12 Qualcomm Incorporated Method and apparatus for power control in a wireless communication system
US6625172B2 (en) 2001-04-26 2003-09-23 Joseph P. Odenwalder Rescheduling scheduled transmissions
US7230941B2 (en) 2001-04-26 2007-06-12 Qualcomm Incorporated Preamble channel decoding
JP4591939B2 (ja) * 2001-05-15 2010-12-01 Kddi株式会社 適応的符号化伝送装置および受信装置
US6990137B2 (en) * 2001-05-17 2006-01-24 Qualcomm, Incorporated System and method for received signal prediction in wireless communications systems
US7170924B2 (en) * 2001-05-17 2007-01-30 Qualcomm, Inc. System and method for adjusting combiner weights using an adaptive algorithm in wireless communications system
JP3859462B2 (ja) * 2001-05-18 2006-12-20 株式会社東芝 予測パラメータ分析装置および予測パラメータ分析方法
US6789059B2 (en) 2001-06-06 2004-09-07 Qualcomm Incorporated Reducing memory requirements of a codebook vector search
GB2386808B (en) 2001-06-28 2004-07-07 Samsung Electronics Co Ltd Apparatus and method for transmitting TFCI bits for a hard split mode in a CDMA mobile communication system
US7489655B2 (en) * 2001-07-06 2009-02-10 Qualcomm, Incorporated Method and apparatus for predictive scheduling in a bi-directional communication system
JP2003044098A (ja) * 2001-07-26 2003-02-14 Nec Corp 音声帯域拡張装置及び音声帯域拡張方法
US7110942B2 (en) * 2001-08-14 2006-09-19 Broadcom Corporation Efficient excitation quantization in a noise feedback coding system using correlation techniques
DE60222445T2 (de) * 2001-08-17 2008-06-12 Broadcom Corp., Irvine Verfahren zum verbergen von bitfehlern für die sprachcodierung
US7162415B2 (en) * 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US7453801B2 (en) * 2001-11-08 2008-11-18 Qualcomm Incorporated Admission control and resource allocation in a communication system supporting application flows having quality of service requirements
WO2003049353A1 (en) * 2001-12-05 2003-06-12 Qualcomm, Incorporated System and method for adjusting quality of service in a communication system
US7146313B2 (en) * 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
US7027982B2 (en) * 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
GB2383239B (en) * 2001-12-15 2004-03-17 Motorola Inc A method and apparatus for transmitting data
US7206740B2 (en) * 2002-01-04 2007-04-17 Broadcom Corporation Efficient excitation quantization in noise feedback coding with general noise shaping
JP3778087B2 (ja) * 2002-01-18 2006-05-24 富士ゼロックス株式会社 データ符号化装置及びデータ復号装置
US6957183B2 (en) * 2002-03-20 2005-10-18 Qualcomm Inc. Method for robust voice recognition by analyzing redundant features of source signal
US7313520B2 (en) * 2002-03-20 2007-12-25 The Directv Group, Inc. Adaptive variable bit rate audio compression encoding
US7321559B2 (en) * 2002-06-28 2008-01-22 Lucent Technologies Inc System and method of noise reduction in receiving wireless transmission of packetized audio signals
US6980695B2 (en) * 2002-06-28 2005-12-27 Microsoft Corporation Rate allocation for mixed content video
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
US8090577B2 (en) * 2002-08-08 2012-01-03 Qualcomm Incorported Bandwidth-adaptive quantization
JP2004151123A (ja) * 2002-10-23 2004-05-27 Nec Corp 符号変換方法、符号変換装置、プログラム及びその記憶媒体
US7602722B2 (en) * 2002-12-04 2009-10-13 Nortel Networks Limited Mobile assisted fast scheduling for the reverse link
GB2396271B (en) * 2002-12-10 2005-08-10 Motorola Inc A user terminal and method for voice communication
US7698132B2 (en) * 2002-12-17 2010-04-13 Qualcomm Incorporated Sub-sampled excitation waveform codebooks
US7120447B1 (en) * 2003-02-24 2006-10-10 Nortel Networks Limited Selectable mode vocoder management algorithm for CDMA based networks
US6965859B2 (en) * 2003-02-28 2005-11-15 Xvd Corporation Method and apparatus for audio compression
KR100480341B1 (ko) * 2003-03-13 2005-03-31 한국전자통신연구원 광대역 저전송률 음성 신호의 부호화기
US7009999B2 (en) * 2003-03-28 2006-03-07 Qualcomm Incorporated Selective variable rate encoding to regulate data frame size
KR20050007977A (ko) * 2003-07-12 2005-01-21 삼성전자주식회사 이동 통신 시스템에서의 보코더의 모드 및 전송율 제어 방법
US7577756B2 (en) 2003-07-15 2009-08-18 Special Devices, Inc. Dynamically-and continuously-variable rate, asynchronous data transfer
US7609763B2 (en) * 2003-07-18 2009-10-27 Microsoft Corporation Advanced bi-directional predictive coding of video frames
US7383180B2 (en) * 2003-07-18 2008-06-03 Microsoft Corporation Constant bitrate media encoding techniques
US7343291B2 (en) * 2003-07-18 2008-03-11 Microsoft Corporation Multi-pass variable bitrate media encoding
US7146309B1 (en) 2003-09-02 2006-12-05 Mindspeed Technologies, Inc. Deriving seed values to generate excitation values in a speech coder
US7613606B2 (en) * 2003-10-02 2009-11-03 Nokia Corporation Speech codecs
US7379875B2 (en) * 2003-10-24 2008-05-27 Microsoft Corporation Systems and methods for generating audio thumbnails
US7505764B2 (en) * 2003-10-28 2009-03-17 Motorola, Inc. Method for retransmitting a speech packet
US20050147131A1 (en) * 2003-12-29 2005-07-07 Nokia Corporation Low-rate in-band data channel using CELP codewords
US8473286B2 (en) * 2004-02-26 2013-06-25 Broadcom Corporation Noise feedback coding system and method for providing generalized noise shaping within a simple filter structure
KR100629997B1 (ko) * 2004-02-26 2006-09-27 엘지전자 주식회사 오디오 신호의 인코딩 방법
JP4744438B2 (ja) * 2004-03-05 2011-08-10 パナソニック株式会社 エラー隠蔽装置およびエラー隠蔽方法
JP2005337573A (ja) 2004-05-26 2005-12-08 Sanden Corp 熱交換器
ES2634511T3 (es) * 2004-07-23 2017-09-28 Iii Holdings 12, Llc Aparato de codificación de audio y procedimiento de codificación de audio
JP4936894B2 (ja) * 2004-08-27 2012-05-23 パナソニック株式会社 オーディオデコーダ、方法及びプログラム
MY149811A (en) 2004-08-30 2013-10-14 Qualcomm Inc Method and apparatus for an adaptive de-jitter buffer
SE0402372D0 (sv) 2004-09-30 2004-09-30 Ericsson Telefon Ab L M Signal coding
SE528213C3 (sv) * 2004-09-30 2006-10-31 Ericsson Telefon Ab L M Förfaranden och arrangemang för adaptiva trösklar vid val av kodek
US8085678B2 (en) 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
US7697480B2 (en) * 2004-11-22 2010-04-13 Motorola, Inc Method and apparatus for inter-system active handoff of a hybrid subscriber unit
US20060109819A1 (en) * 2004-11-22 2006-05-25 Marin James S Method and apparatus for inter-system active handoff of a hybrid subscriber unit
US8102872B2 (en) * 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
US20060224381A1 (en) * 2005-04-04 2006-10-05 Nokia Corporation Detecting speech frames belonging to a low energy sequence
US20060241937A1 (en) * 2005-04-21 2006-10-26 Ma Changxue C Method and apparatus for automatically discriminating information bearing audio segments and background noise audio segments
US7983301B2 (en) * 2005-06-24 2011-07-19 O2Micro International, Ltd. Method for extended transmission capabilities of short message service
WO2007003231A1 (en) * 2005-06-30 2007-01-11 Freescale Semiconductor, Inc Vector crc computation on dsp
US20070005347A1 (en) * 2005-06-30 2007-01-04 Kotzin Michael D Method and apparatus for data frame construction
JP5035816B2 (ja) * 2005-07-14 2012-09-26 一般財団法人電力中央研究所 細孔内付着液体残留量推定方法
US7542421B2 (en) * 2005-09-09 2009-06-02 Tropos Networks Adaptive control of transmission power and data rates of transmission links between access nodes of a mesh network
CN1964244B (zh) * 2005-11-08 2010-04-07 厦门致晟科技有限公司 一种用声码器收发数字信号的方法
TWI358056B (en) * 2005-12-02 2012-02-11 Qualcomm Inc Systems, methods, and apparatus for frequency-doma
WO2007120316A2 (en) * 2005-12-05 2007-10-25 Qualcomm Incorporated Systems, methods, and apparatus for detection of tonal components
KR100744542B1 (ko) * 2005-12-08 2007-08-01 한국전자통신연구원 가변대역 멀티코덱 QoS 제어 장치 및 방법
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
JP4816115B2 (ja) * 2006-02-08 2011-11-16 カシオ計算機株式会社 音声符号化装置及び音声符号化方法
US8036242B2 (en) * 2006-02-15 2011-10-11 Qualcomm Incorporated Dynamic capacity operating point management for a vocoder in an access terminal
US7720499B2 (en) * 2006-02-27 2010-05-18 Tropos Networks, Inc. Regulation of transmission power control in mitigate self interference by optimizing link transmission parameters in a wireless network
JP4771835B2 (ja) * 2006-03-06 2011-09-14 株式会社リコー トナー及び画像形成方法
FR2898443A1 (fr) * 2006-03-13 2007-09-14 France Telecom Procede de codage d'un signal audio source, dispositif de codage, procede et dispositif de decodage, signal, produits programme d'ordinateur correspondants
US7778828B2 (en) * 2006-03-15 2010-08-17 Sasken Communication Technologies Ltd. Method and system for automatic gain control of a speech signal
US8392176B2 (en) * 2006-04-10 2013-03-05 Qualcomm Incorporated Processing of excitation in audio coding and decoding
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
DE102006025042B4 (de) * 2006-05-26 2008-08-14 Infineon Technologies Ag Datenratenfehler-tolerante Synchronisation eines digitalen Empfängers
US8036186B2 (en) * 2006-07-26 2011-10-11 Tropos Networks, Inc. Adaptively setting transmission power levels of nodes within a wireless mesh network
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8135047B2 (en) 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
KR100883652B1 (ko) * 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
JP2010503881A (ja) * 2006-09-13 2010-02-04 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声・音響送信器及び受信器のための方法及び装置
US7877253B2 (en) 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
EP2074711A2 (en) 2006-10-06 2009-07-01 ViaSat, Inc. Forward and reverse calibration for ground-based beamforming
WO2008045846A1 (en) * 2006-10-10 2008-04-17 Qualcomm Incorporated Method and apparatus for encoding and decoding audio signals
KR100833499B1 (ko) * 2006-10-27 2008-05-29 한국전자통신연구원 가변 대역 멀티 코덱의 음성 품질 측정 장치 및 방법
CN100587186C (zh) * 2006-11-02 2010-02-03 邹家祥 一种保温组合墙板构筑墙体的方法
US8279889B2 (en) * 2007-01-04 2012-10-02 Qualcomm Incorporated Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate
US8254455B2 (en) * 2007-06-30 2012-08-28 Microsoft Corporation Computing collocated macroblock information for direct mode macroblocks
US8428957B2 (en) 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
US20090198500A1 (en) * 2007-08-24 2009-08-06 Qualcomm Incorporated Temporal masking in audio coding based on spectral dynamics in frequency sub-bands
US20090094026A1 (en) * 2007-10-03 2009-04-09 Binshi Cao Method of determining an estimated frame energy of a communication
US8015002B2 (en) 2007-10-24 2011-09-06 Qnx Software Systems Co. Dynamic noise reduction using linear model fitting
US8326617B2 (en) 2007-10-24 2012-12-04 Qnx Software Systems Limited Speech enhancement with minimum gating
US8606566B2 (en) * 2007-10-24 2013-12-10 Qnx Software Systems Limited Speech enhancement through partial speech reconstruction
JP5229234B2 (ja) 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
JP5449133B2 (ja) * 2008-03-14 2014-03-19 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
US8325800B2 (en) 2008-05-07 2012-12-04 Microsoft Corporation Encoding streaming media as a high bit rate layer, a low bit rate layer, and one or more intermediate bit rate layers
US8379851B2 (en) 2008-05-12 2013-02-19 Microsoft Corporation Optimized client side rate control and indexed file layout for streaming media
US7925774B2 (en) * 2008-05-30 2011-04-12 Microsoft Corporation Media streaming using an index file
US7948887B2 (en) * 2008-06-24 2011-05-24 Microsoft Corporation Network bandwidth measurement
US8144602B2 (en) * 2008-08-06 2012-03-27 Jds Uniphase Corporation Network load tester with real-time detection and recording
US8265140B2 (en) 2008-09-30 2012-09-11 Microsoft Corporation Fine-grained client-side control of scalable media delivery
US8964692B2 (en) * 2008-11-10 2015-02-24 Qualcomm Incorporated Spectrum sensing of bluetooth using a sequence of energy detection measurements
EP2211335A1 (en) * 2009-01-21 2010-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal
US8189666B2 (en) 2009-02-02 2012-05-29 Microsoft Corporation Local picture identifier and computation of co-located information
US8949114B2 (en) 2009-06-04 2015-02-03 Optis Wireless Technology, Llc Method and arrangement for estimating the quality degradation of a processed signal
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
JP5799013B2 (ja) 2009-07-27 2015-10-21 エスシーティアイ ホールディングス、インク 音声信号の処理に際して、ノイズを無視して音声を対象にすることによりノイズを低減するシステムおよび方法
US8811200B2 (en) 2009-09-22 2014-08-19 Qualcomm Incorporated Physical layer metrics to support adaptive station-dependent channel state information feedback rate in multi-user communication systems
CA2778342C (en) 2009-10-19 2017-08-22 Martin Sehlstedt Method and background estimator for voice activity detection
KR101761629B1 (ko) * 2009-11-24 2017-07-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8781822B2 (en) * 2009-12-22 2014-07-15 Qualcomm Incorporated Audio and speech processing with optimal bit-allocation for constant bit rate applications
US20110196673A1 (en) * 2010-02-11 2011-08-11 Qualcomm Incorporated Concealing lost packets in a sub-band coding decoder
US8374858B2 (en) * 2010-03-09 2013-02-12 Dts, Inc. Scalable lossless audio codec and authoring tool
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
TR201903388T4 (tr) 2011-02-14 2019-04-22 Fraunhofer Ges Forschung Bir ses sinyalinin parçalarının darbe konumlarının şifrelenmesi ve çözülmesi.
TWI483245B (zh) 2011-02-14 2015-05-01 Fraunhofer Ges Forschung 利用重疊變換之資訊信號表示技術
EP2676268B1 (en) 2011-02-14 2014-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a decoded audio signal in a spectral domain
MY165853A (en) 2011-02-14 2018-05-18 Fraunhofer Ges Forschung Linear prediction based coding scheme using spectral domain noise shaping
EP3503098B1 (en) 2011-02-14 2023-08-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method decoding an audio signal using an aligned look-ahead portion
AU2012217215B2 (en) 2011-02-14 2015-05-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for error concealment in low-delay unified speech and audio coding (USAC)
RU2586838C2 (ru) 2011-02-14 2016-06-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Аудиокодек, использующий синтез шума в течение неактивной фазы
EP2676270B1 (en) 2011-02-14 2017-02-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coding a portion of an audio signal using a transient detection and a quality result
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
US8762136B2 (en) * 2011-05-03 2014-06-24 Lsi Corporation System and method of speech compression using an inter frame parameter correlation
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
FR2977969A1 (fr) * 2011-07-12 2013-01-18 France Telecom Adaptation de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee
US9208796B2 (en) * 2011-08-22 2015-12-08 Genband Us Llc Estimation of speech energy based on code excited linear prediction (CELP) parameters extracted from a partially-decoded CELP-encoded bit stream and applications of same
CN104254886B (zh) * 2011-12-21 2018-08-14 华为技术有限公司 自适应编码浊音语音的基音周期
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
TWI591620B (zh) 2012-03-21 2017-07-11 三星電子股份有限公司 產生高頻雜訊的方法
AU2013366642B2 (en) 2012-12-21 2016-09-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals
EP2936486B1 (en) 2012-12-21 2018-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Comfort noise addition for modeling background noise at low bit-rates
KR102072365B1 (ko) 2013-04-05 2020-02-03 돌비 인터네셔널 에이비 고급 양자화기
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
US9640185B2 (en) * 2013-12-12 2017-05-02 Motorola Solutions, Inc. Method and apparatus for enhancing the modulation index of speech sounds passed through a digital vocoder
US9570095B1 (en) * 2014-01-17 2017-02-14 Marvell International Ltd. Systems and methods for instantaneous noise estimation
US9721580B2 (en) * 2014-03-31 2017-08-01 Google Inc. Situation dependent transient suppression
CN105023579A (zh) * 2014-04-30 2015-11-04 中国电信股份有限公司 语音通信中语音编码实现方法、装置和通信终端
EP2980796A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
CN104833105A (zh) * 2015-05-28 2015-08-12 芜湖美的厨卫电器制造有限公司 热水器和热水器系统
US11631421B2 (en) * 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
KR102595478B1 (ko) * 2016-01-03 2023-10-27 아우로 테크놀로지스 엔브이 예측자 모델을 이용한 신호 인코더, 디코더 및 방법
US11227214B2 (en) 2017-11-14 2022-01-18 Advanced Micro Devices, Inc. Memory bandwidth reduction techniques for low power convolutional neural network inference applications
EA038803B1 (ru) * 2017-12-25 2021-10-21 Федеральное государственное унитарное предприятие "Всероссийский научно-исследовательский институт автоматики им. Н.Л. Духова" Способ адаптивной цифровой фильтрации импульсных помех и фильтр для его реализации
US11948073B2 (en) 2018-04-20 2024-04-02 Advanced Micro Devices, Inc. Machine learning inference engine scalability
RU2691122C1 (ru) * 2018-06-13 2019-06-11 Ордена трудового Красного Знамени федеральное государственное бюджетное образовательное учреждение высшего образования "Московский технический университет связи и информатики" (МТУСИ) Способ и устройство компандирования звуковых вещательных сигналов
US11775799B2 (en) 2018-08-02 2023-10-03 Advanced Micro Devices, Inc. Runtime extension for neural network training with heterogeneous memory
US11769041B2 (en) 2018-10-31 2023-09-26 Advanced Micro Devices, Inc. Low latency long short-term memory inference with sequence interleaving
US11063645B2 (en) 2018-12-18 2021-07-13 XCOM Labs, Inc. Methods of wirelessly communicating with a group of devices
US10756795B2 (en) 2018-12-18 2020-08-25 XCOM Labs, Inc. User equipment with cellular link and peer-to-peer link
CN111338974A (zh) 2018-12-19 2020-06-26 超威半导体公司 用于矩阵数学指令集的图块化算法
CN111353575A (zh) 2018-12-20 2020-06-30 超威半导体公司 用于卷积神经网络的图块化格式
US11330649B2 (en) 2019-01-25 2022-05-10 XCOM Labs, Inc. Methods and systems of multi-link peer-to-peer communications
US10756767B1 (en) 2019-02-05 2020-08-25 XCOM Labs, Inc. User equipment for wirelessly communicating cellular signal with another user equipment
CN111723918A (zh) 2019-03-18 2020-09-29 超威半导体公司 用于卷积内核的自动生成和调谐工具
US11610142B2 (en) 2019-05-28 2023-03-21 Ati Technologies Ulc Safety monitor for image misclassification
US11210199B2 (en) 2019-05-31 2021-12-28 Ati Technologies Ulc Safety monitor for invalid image transform
US11250867B1 (en) * 2019-10-08 2022-02-15 Rockwell Collins, Inc. Incorporating data into a voice signal with zero overhead
JP7332890B2 (ja) 2019-11-19 2023-08-24 アイコム株式会社 音声通信システム、音声通信方法、および、音声通信プログラム
US11023390B1 (en) * 2020-03-27 2021-06-01 Arm Limited Resizing circuitry
CN112767953B (zh) * 2020-06-24 2024-01-23 腾讯科技(深圳)有限公司 语音编码方法、装置、计算机设备和存储介质

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US32580A (en) * 1861-06-18 Water-elevatok
US3633107A (en) * 1970-06-04 1972-01-04 Bell Telephone Labor Inc Adaptive signal processor for diversity radio receivers
JPS5017711A (es) * 1973-06-15 1975-02-25
US3988674A (en) * 1975-03-17 1976-10-26 Communications Satellite Corporation (Comsat) Frame synchronization in speech predictive encoded communication system
US4076958A (en) * 1976-09-13 1978-02-28 E-Systems, Inc. Signal synthesizer spectrum contour scaler
US4214125A (en) * 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
CA1123955A (en) * 1978-03-30 1982-05-18 Tetsu Taguchi Speech analysis and synthesis apparatus
DE3023375C1 (es) * 1980-06-23 1987-12-03 Siemens Ag, 1000 Berlin Und 8000 Muenchen, De
US4379949A (en) * 1981-08-10 1983-04-12 Motorola, Inc. Method of and means for variable-rate coding of LPC parameters
JPS6011360B2 (ja) * 1981-12-15 1985-03-25 ケイディディ株式会社 音声符号化方式
US4535472A (en) * 1982-11-05 1985-08-13 At&T Bell Laboratories Adaptive bit allocator
EP0111612B1 (fr) * 1982-11-26 1987-06-24 International Business Machines Corporation Procédé et dispositif de codage d'un signal vocal
EP0127718B1 (fr) * 1983-06-07 1987-03-18 International Business Machines Corporation Procédé de détection d'activité dans un système de transmission de la voix
US4672670A (en) * 1983-07-26 1987-06-09 Advanced Micro Devices, Inc. Apparatus and methods for coding, decoding, analyzing and synthesizing a signal
EP0163829B1 (en) * 1984-03-21 1989-08-23 Nippon Telegraph And Telephone Corporation Speech signal processing system
IT1179803B (it) * 1984-10-30 1987-09-16 Cselt Centro Studi Lab Telecom Metodo e dispositivo per la correzione di errori causati da rumore di tipo impulsivo su segnali vocali codificati con bassa velocita di ci fra e trasmessi su canali di comunicazione radio
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US4937873A (en) * 1985-03-18 1990-06-26 Massachusetts Institute Of Technology Computationally efficient sine wave synthesis for acoustic waveform processing
US4856068A (en) * 1985-03-18 1989-08-08 Massachusetts Institute Of Technology Audio pre-processing methods and apparatus
US4831636A (en) * 1985-06-28 1989-05-16 Fujitsu Limited Coding transmission equipment for carrying out coding with adaptive quantization
US4827517A (en) * 1985-12-26 1989-05-02 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
CA1299750C (en) * 1986-01-03 1992-04-28 Ira Alan Gerson Optimal method of data reduction in a speech recognition system
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
JPH0748695B2 (ja) * 1986-05-23 1995-05-24 株式会社日立製作所 音声符号化方式
US4899384A (en) * 1986-08-25 1990-02-06 Ibm Corporation Table controlled dynamic bit allocation in a variable rate sub-band speech coder
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
US4797925A (en) * 1986-09-26 1989-01-10 Bell Communications Research, Inc. Method for coding speech at low bit rates
US4903301A (en) * 1987-02-27 1990-02-20 Hitachi, Ltd. Method and system for transmitting variable rate speech signal
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US5202953A (en) * 1987-04-08 1993-04-13 Nec Corporation Multi-pulse type coding system with correlation calculation by backward-filtering operation for multi-pulse searching
US4890327A (en) * 1987-06-03 1989-12-26 Itt Corporation Multi-rate digital voice coder apparatus
US4831624A (en) * 1987-06-04 1989-05-16 Motorola, Inc. Error detection method for sub-band coding
US4802171A (en) * 1987-06-04 1989-01-31 Motorola, Inc. Method for error correction in digitally encoded speech
US4899385A (en) * 1987-06-26 1990-02-06 American Telephone And Telegraph Company Code excited linear predictive vocoder
CA1337217C (en) * 1987-08-28 1995-10-03 Daniel Kenneth Freeman Speech coding
EP0306102B1 (en) * 1987-09-02 1993-03-31 MOLTECH Invent S.A. Molten salt electrolysis with non-consumable anode
US4811404A (en) 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
US4852179A (en) * 1987-10-05 1989-07-25 Motorola, Inc. Variable frame rate, fixed bit rate vocoding method
US4896361A (en) * 1988-01-07 1990-01-23 Motorola, Inc. Digital speech coder having improved vector excitation source
DE3883519T2 (de) * 1988-03-08 1994-03-17 Ibm Verfahren und Einrichtung zur Sprachkodierung mit mehreren Datenraten.
EP0331857B1 (en) * 1988-03-08 1992-05-20 International Business Machines Corporation Improved low bit rate voice coding method and system
US5023910A (en) * 1988-04-08 1991-06-11 At&T Bell Laboratories Vector quantization in a harmonic speech coding arrangement
US4864561A (en) * 1988-06-20 1989-09-05 American Telephone And Telegraph Company Technique for improved subjective performance in a communication system using attenuated noise-fill
JPH0783315B2 (ja) * 1988-09-26 1995-09-06 富士通株式会社 可変レート音声信号符号化方式
CA1321645C (en) * 1988-09-28 1993-08-24 Akira Ichikawa Method and system for voice coding based on vector quantization
EP0364647B1 (en) * 1988-10-19 1995-02-22 International Business Machines Corporation Improvement to vector quantizing coder
NL8901032A (nl) * 1988-11-10 1990-06-01 Philips Nv Coder om extra informatie op te nemen in een digitaal audiosignaal met een tevoren bepaald formaat, een decoder om deze extra informatie uit dit digitale signaal af te leiden, een inrichting voor het opnemen van een digitaal signaal op een registratiedrager, voorzien van de coder, en een registratiedrager verkregen met deze inrichting.
JP3033060B2 (ja) * 1988-12-22 2000-04-17 国際電信電話株式会社 音声予測符号化・復号化方式
CA2005115C (en) * 1989-01-17 1997-04-22 Juin-Hwey Chen Low-delay code-excited linear predictive coder for speech or audio
US5222189A (en) * 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
EP0392126B1 (en) * 1989-04-11 1994-07-20 International Business Machines Corporation Fast pitch tracking process for LTP-based speech coders
US5060269A (en) * 1989-05-18 1991-10-22 General Electric Company Hybrid switched multi-pulse/stochastic speech coding technique
US4975956A (en) * 1989-07-26 1990-12-04 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
GB2235354A (en) * 1989-08-16 1991-02-27 Philips Electronic Associated Speech coding/encoding using celp
US5091945A (en) * 1989-09-28 1992-02-25 At&T Bell Laboratories Source dependent channel coding with error protection
WO1991005333A1 (en) * 1989-10-06 1991-04-18 Motorola, Inc. Error detection/correction scheme for vocoders
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
JPH03181232A (ja) * 1989-12-11 1991-08-07 Toshiba Corp 可変レート符号化方式
US5097507A (en) * 1989-12-22 1992-03-17 General Electric Company Fading bit error protection for digital cellular multi-pulse speech coder
CH680030A5 (es) * 1990-03-22 1992-05-29 Ascom Zelcom Ag
JP3102015B2 (ja) * 1990-05-28 2000-10-23 日本電気株式会社 音声復号化方法
US5103459B1 (en) * 1990-06-25 1999-07-06 Qualcomm Inc System and method for generating signal waveforms in a cdma cellular telephone system
US5235671A (en) * 1990-10-15 1993-08-10 Gte Laboratories Incorporated Dynamic bit allocation subband excited transform coding method and apparatus
US5187745A (en) * 1991-06-27 1993-02-16 Motorola, Inc. Efficient codebook search for CELP vocoders
ATE294441T1 (de) * 1991-06-11 2005-05-15 Qualcomm Inc Vocoder mit veränderlicher bitrate
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
US5566206A (en) * 1993-06-18 1996-10-15 Qualcomm Incorporated Method and apparatus for determining data rate of transmitted variable rate data in a communications receiver
US5537410A (en) * 1994-09-15 1996-07-16 Oki Telecom Subsequent frame variable data rate indication method

Also Published As

Publication number Publication date
AU6089396A (en) 1996-10-03
JP3955600B2 (ja) 2007-08-08
DK0588932T3 (da) 2002-03-11
ATE272883T1 (de) 2004-08-15
CN1159639A (zh) 1997-09-17
US5657420A (en) 1997-08-12
CA2483322C (en) 2008-09-23
AU693374B2 (en) 1998-06-25
EP1107231B1 (en) 2005-04-27
CA2102099C (en) 2006-04-04
CA2483324A1 (en) 1992-12-23
MX9202808A (es) 1992-12-01
EP1998319A3 (en) 2008-12-17
CN1286086C (zh) 2006-11-22
FI120425B (fi) 2009-10-15
JP3964915B2 (ja) 2007-08-22
ATE477571T1 (de) 2010-08-15
EP1162601A2 (en) 2001-12-12
CA2568984A1 (en) 1992-12-23
DE69233502D1 (de) 2005-06-02
CN1492395A (zh) 2004-04-28
CA2635914A1 (en) 1992-12-23
AU1482597A (en) 1997-05-15
IL113987A0 (en) 1995-10-31
JP2006221186A (ja) 2006-08-24
JP2005182075A (ja) 2005-07-07
JP2002202800A (ja) 2002-07-19
AU711484B2 (en) 1999-10-14
DE69233794D1 (de) 2010-09-23
ES2225321T3 (es) 2005-03-16
RU2107951C1 (ru) 1998-03-27
CA2102099A1 (en) 1992-12-12
BR9206143A (pt) 1995-01-03
JP3751957B2 (ja) 2006-03-08
HK1127152A1 (en) 2009-09-18
NO934544D0 (no) 1993-12-10
SG70558A1 (en) 2000-02-22
DE69232202T2 (de) 2002-07-25
FI935597A (fi) 1993-12-13
ATE294441T1 (de) 2005-05-15
US5778338A (en) 1998-07-07
DE69233502T2 (de) 2006-02-23
CA2483322A1 (en) 1992-12-23
FI20061122L (fi) 2006-12-15
ES2240252T3 (es) 2005-10-16
EP1107231A2 (en) 2001-06-13
FI20061121A (fi) 2006-12-15
IL113988A (en) 1996-11-14
EP1126437B1 (en) 2004-08-04
CN1398052A (zh) 2003-02-19
CA2483296A1 (en) 1992-12-23
HUT70719A (en) 1995-10-30
EP1126437A2 (en) 2001-08-22
EP1107231A3 (en) 2001-12-05
FI20011509A (fi) 2001-07-10
FI935597A0 (fi) 1993-12-13
NO934544L (no) 1993-12-10
CA2568984C (en) 2007-07-10
HU215861B (hu) 1999-03-29
EP0588932A1 (en) 1994-03-30
IL102146A (en) 1996-03-31
EP0588932B1 (en) 2001-11-14
IL113986A (en) 1996-11-14
NO319559B1 (no) 2005-08-29
CN1909059A (zh) 2007-02-07
IL113986A0 (en) 1995-10-31
EP1162601A3 (en) 2002-07-03
CN1091535C (zh) 2002-09-25
CN1119796C (zh) 2003-08-27
AU671952B2 (en) 1996-09-19
JP4191746B2 (ja) 2008-12-03
CN1220334C (zh) 2005-09-21
CA2483324C (en) 2008-05-06
DK1126437T3 (da) 2004-11-08
HK1014796A1 (en) 1999-09-30
IL113988A0 (en) 1995-10-31
JP2006079107A (ja) 2006-03-23
DE69233397D1 (de) 2004-09-09
CA2483296C (en) 2008-01-22
EP1998319A2 (en) 2008-12-03
CN1071036A (zh) 1993-04-14
JPH06511320A (ja) 1994-12-15
EP1239456A1 (en) 2002-09-11
ZA924082B (en) 1993-02-26
JP2004004897A (ja) 2004-01-08
ES2166355T3 (es) 2002-04-16
CN1196271C (zh) 2005-04-06
EP1763020A2 (en) 2007-03-14
EP1763020A3 (en) 2010-09-29
EP1675100A2 (en) 2006-06-28
CN1381956A (zh) 2002-11-27
DE69232202D1 (de) 2001-12-20
HK1064785A1 (en) 2005-02-04
CN1167309A (zh) 1997-12-10
EP1126437A3 (en) 2001-12-12
JP2002023796A (ja) 2002-01-25
EP1998319B1 (en) 2010-08-11
JP3566669B2 (ja) 2004-09-15
FI118702B (fi) 2008-02-15
CN1112673C (zh) 2003-06-25
JP3432822B2 (ja) 2003-08-04
IL113987A (en) 1996-11-14
DE69233397T2 (de) 2005-08-11
AU2186592A (en) 1993-01-12
US5414796A (en) 1995-05-09
FI20011508A (fi) 2001-07-10
ATE208945T1 (de) 2001-11-15
WO1992022891A1 (en) 1992-12-23

Similar Documents

Publication Publication Date Title
ES2348319T3 (es) Vocodificador de velocidad variable.
ES2539304T3 (es) Un aparato y un método para generar datos de salida por ampliación de ancho de banda
ES2358213T3 (es) Flujo redundante de bits de audio y métodos de procesamiento de flujo de bits de audio.
ES2269518T3 (es) Metodo y sistema para generar ruido de confort en comunicaciones de voz.
ES2266003T3 (es) Suavizador de la ganancia en un descodificador de señal de habla y audio de banda ancha.
ES2299175T3 (es) Procedimiento y aparato para realizar vocodificacion con tasa reducida y tasa variable.
US9076439B2 (en) Bit error management and mitigation for sub-band coding
PL182240B1 (pl) Koder akustyczny wielokanalowy PL PL PL PL PL PL PL PL PL