ES2257307T3

ES2257307T3 - METHOD AND SYSTEM FOR VOICE CODING IN DRAFT DELETING CONDITIONS.

Info

Publication number: ES2257307T3
Application number: ES00950440T
Authority: ES
Inventors: Sharath Manjunath; Andrew P. Dejaco
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1999-07-19
Filing date: 2000-07-19
Publication date: 2006-08-01
Anticipated expiration: 2020-07-19
Also published as: US6324503B1; EP1204967B1; HK1045398A1; HK1045398B; EP1204967A1; DE60028579D1; AU6354500A; WO2001006491A1; ATE312399T1; CN1148721C; KR20020013962A; JP2003524939A; DE60028579T2; JP4842472B2; BR0012539A; CN1361911A

Abstract

A method and apparatus for providing feedback from the decoder to the encoder to improve performance in a predictive speech coder under frame erasure conditions includes notifying an encoder in a receiving speech coder if a decoder in the receiving speech coder fails to receive a frame transmitted by an encoder in a transmitting speech coder. A modified packet is transmitted from the encoder in the receiving speech coder to a decoder in the transmitting speech coder in response to the notification. The decoder in the transmitting speech coder notifies the encoder in the transmitting speech coder when the modified packet is received. The encoder in the transmitting speech coder then encodes a packet with a modified encoding format. The modified encoding format may be either a low-memory encoding format or a memoryless encoding format. The modified packet may have an erasure indicator bit set to a digital value of one.

Description

Método y sistema para codificación de voz en condiciones de borrado de trama.Method and system for voice coding in frame erase conditions.

Background of the invention I. Field of the invention

La presente invención pertenece genéricamente al campo del procesamiento de voz, y más específicamente a métodos y aparatos para proporcionar realimentación desde el decodificador al codificador dispuesto en combinación para mejorar el rendimiento en codificadores predictivos de voz en condiciones de borrado de trama.The present invention belongs generically to voice processing field, and more specifically to methods and apparatus for providing feedback from the decoder to encoder arranged in combination to improve performance in predictive voice encoders under erase conditions plot.

II. Background

La transmisión de voz mediante técnicas digitales se ha generalizado, particularmente en aplicaciones de larga distancia y radioteléfono digital. Esto, a su vez, ha creado interés en determinar la menor cantidad de información que se puede enviar sobre un canal mientras se mantiene la calidad percibida de la voz reconstruida. Si la voz se transmite simplemente por muestreo y digitalización, se requiere una velocidad de datos del orden de sesenta y cuatro kilobits por segundo (kbps) para lograr una calidad de voz de teléfono analógico convencional. Sin embargo, mediante el uso del análisis de voz, seguido por la adecuada codificación, transmisión, y resintetización en el receptor, se puede lograr una reducción importante en la velocidad de datos.Voice transmission through digital techniques it has become widespread, particularly in long applications distance and digital radiotelephone. This, in turn, has created interest in determining the least amount of information that can be sent on a channel while maintaining the perceived quality of the voice reconstructed. If the voice is transmitted simply by sampling and digitization, a data rate of the order of sixty-four kilobits per second (kbps) to achieve quality of conventional analog telephone voice. However, through the use of voice analysis, followed by proper coding, transmission, and resynthesization in the receiver, a significant reduction in data rate.

En muchos campos de las telecomunicaciones se encuentran en uso dispositivos para comprimir voz. Un campo ejemplar es el de las comunicaciones inalámbricas. El campo de las comunicaciones inalámbricas tiene muchas aplicaciones incluyendo, p. ej., teléfonos inalámbricos, radiobúsqueda, bucles locales inalámbricos, telefonía inalámbrica como sistemas telefónicos celulares y PCS, telefonía móvil con Protocolo Internet (IP), y sistemas de comunicación por satélite. Una aplicación particularmente importante es la telefonía inalámbrica para abonados móviles.In many fields of telecommunications devices to compress voice are in use. A field Exemplary is that of wireless communications. The field of Wireless communications has many applications including, e.g. eg cordless phones, paging, local loops wireless, wireless telephony as telephone systems cell phones and PCS, mobile telephony with Internet Protocol (IP), and satellite communication systems an app particularly important is wireless telephony for subscribers mobile phones

Se han desarrollado diversas interfases en el aire para sistemas inalámbricos de comunicación incluyendo, p. ej., acceso múltiple por división de frecuencia (FDMA), acceso múltiple por división de tiempo (TDMA), y acceso múltiple por división de código (CDMA). En conexión con esto, se han establecido diversos estándares internos e internacionales incluyendo, p. ej., Servicio Telefónico Móvil Avanzado (AMPS), Sistema Global para Comunicaciones Móviles (GSM), y Estándar Provisional 95 (IS - 95). Un sistema de comunicación ejemplar de telefonía la inalámbrica es un sistema de acceso múltiple por división de código (CDMA). El estándar IS-95 y sus derivados, IS - 95A, ANSI J-STD-008, IS - 95B, propuesta de estándares de tercera generación IS - 95C e IS - 2000, etc. (aquí denominados colectivamente como IS - 95), se promulgaron por la Asociación de Industrias de Telecomunicación (TIA) y otros cuerpos de estándares bien conocidos para especificar el uso de una interfase CDMA en-el-aire para sistemas de comunicación telefónica celular o PCS. Sistemas ejemplares de comunicación inalámbrica configurados substancialmente de acuerdo con el uso del estándar IS-95 se describen en las patentes U.S. Nos. 5,103,459 y 4,901,307, que están asignadas al cesionario de la presente invención.Various interfaces have been developed in the air for wireless communication systems including, e.g. eg multiple frequency division access (FDMA), multiple access by time division (TDMA), and multiple access by division of code (CDMA). In connection with this, various internal and international standards including, p. eg, Service Advanced Mobile Telephone (AMPS), Global Communications System Mobile (GSM), and Provisional Standard 95 (IS - 95). A system of exemplary wireless telephony communication is a system of multiple code division access (CDMA). The standard IS-95 and its derivatives, IS - 95A, ANSI J-STD-008, IS - 95B, proposal for third generation standards IS - 95C and IS - 2000, etc. (here collectively referred to as IS-95), they were promulgated by the Association of Telecommunications Industries (TIA) and other bodies of well-known standards to specify the use of a CDMA in-the-air interface for Cellular or PCS telephone communication systems. Systems Substantially configured wireless communication copies According to the use of the IS-95 standard, described in U.S. Pat. Nos. 5,103,459 and 4,901,307, which are assigned to the assignee of the present invention.

Los dispositivos que emplean técnicas para comprimir voz extrayendo parámetros que la relacionan con el modelo de humano de generación de voz se llaman codificadores de voz. Un codificador de voz divide la señal de voz entrante en bloques de tiempo, o tramas de análisis. Los codificadores de voz típicamente comprenden un codificador y un decodificador. El codificador analiza la trama de voz entrante para extraer ciertos parámetros relevantes, y entonces cuantifica los parámetros en representación binaria, es decir, en un conjunto de bits o un paquete de datos binarios. Los paquetes de datos se transmiten sobre el canal de comunicación a un receptor y un decodificador. El decodificador procesa los paquetes de datos, los descuantifica para producir los parámetros, y resintetiza las tramas de voz usando los parámetros descuantificados.Devices that employ techniques to compress voice by extracting parameters that relate it to the model Human voice generation are called voice coders. A Voice encoder divides the incoming voice signal into blocks of time, or analysis frames. Voice encoders typically They comprise an encoder and a decoder. The encoder analyze the incoming voice frame to extract certain parameters relevant, and then quantifies the parameters in representation binary, that is, in a bit set or a data packet binary The data packets are transmitted over the channel of communication to a receiver and a decoder. The decoder process data packets, quantify them to produce parameters, and resynthesize the voice frames using the parameters Unquantified

La función del codificador de voz es comprimir la señal digitalizada de voz en una señal de baja velocidad de bit quitando todas las redundancias naturales inherentes a la voz. La compresión digital se logra representando la trama de voz entrante con un conjunto de parámetros y empleando cuantificación para representar los parámetros con un conjunto de bits. Si la trama de voz entrante tiene un número de bits N_{i} y los paquetes de datos producidos por el codificador de voz tienen un número de bits N_{o}, el factor de compresión logrado por el codificador de voz es C_{n} = N_{i}/N_{o}. El reto es mantener alta calidad de voz de la voz decodificada al tiempo que se logra el factor de compresión objetivo. El funcionamiento de un codificador de voz depende de (1) cuan bien funciona el modelo de voz, o la combinación del proceso de síntesis y análisis descritos arriba, y (2) cuan bien se realiza el proceso de cuantificación de parámetros a la velocidad de bit objetivo de N_{o } bits por trama. La meta del modelo de voz es por tanto capturar la esencia de la señal de voz, o la calidad de voz objetivo, con un conjunto pequeño de parámetros para cada
trama.The function of the voice encoder is to compress the digitized voice signal into a low bit rate signal by removing all natural redundancies inherent in the voice. Digital compression is achieved by representing the incoming voice frame with a set of parameters and using quantification to represent the parameters with a set of bits. If the incoming voice frame has a number of bits N_ {i} and the data packets produced by the voice encoder have a number of bits N_ {o}, the compression factor achieved by the voice encoder is C_ {n } = N_ {i} / N_ {o}. The challenge is to maintain high voice quality of the decoded voice while achieving the objective compression factor. The operation of a voice encoder depends on (1) how well the voice model works, or the combination of the synthesis and analysis process described above, and (2) how well the process of quantifying parameters at the speed of target bit of N_ {or} bits per frame. The goal of the voice model is therefore to capture the essence of the voice signal, or the objective voice quality, with a small set of parameters for each
plot.

Quizás lo más importante en el diseño de un codificador de voz es la búsqueda de un buen conjunto de parámetros (incluyendo vectores) para describir la señal de voz. Un buen conjunto de parámetros requiere un ancho de banda bajo de sistema para la reconstrucción de una señal de voz perceptivamente precisa. El tono, la potencia de señal, la envolvente espectral (o formantes), los espectros de amplitud, y de fase son ejemplos de parámetros de codificación de voz.Perhaps the most important thing in designing a Voice encoder is the search for a good set of parameters (including vectors) to describe the voice signal. A good parameter set requires low system bandwidth for the reconstruction of a perceptually accurate voice signal. The tone, the signal strength, the spectral envelope (or formants), the amplitude, and phase spectra are examples of voice coding parameters

Los codificadores de voz pueden implementarse como codificadores en el dominio temporal, que intentan captar la forma de onda de voz en el dominio del tiempo empleando procesamiento de alta resolución en el tiempo para codificar pequeños segmentos de voz (típicamente subtramas de 5 milisegundos (ms)) por vez. Para cada subtrama, se encuentra a partir de un espacio de libro de claves una forma representativa de alta precisión por medio de diversos algoritmos de búsqueda conocidos en la técnica. Alternativamente, los codificadores de voz pueden implementarse como codificadores en el dominio de frecuencia, que intentan captar el espectro de voz a corto plazo de la trama de voz entrante con un conjunto de parámetros (análisis) y emplean un proceso de síntesis correspondiente para recrear la forma de onda de voz a partir de los parámetros espectrales. El cuantificador de parámetros conserva los parámetros representándolos con representaciones almacenadas de vectores de código según conocidas técnicas de cuantificación descritas en A. Gersho & R.M. Gray, Cuantificación Vectorial y Compresión de Señal (1992).Voice encoders can be implemented as time domain encoders, which attempt to capture the voice waveform in the time domain using high resolution time processing to encode small voice segments (typically 5 milliseconds (ms) subframes ) at a time. For each subframe, a representative form of high precision is found from a key book space by means of various search algorithms known in the art. Alternatively, voice encoders can be implemented as encoders in the frequency domain, which attempt to capture the short-term speech spectrum of the incoming voice frame with a set of parameters (analysis) and employ a corresponding synthesis process to recreate the Voice waveform from the spectral parameters. The parameter quantifier preserves the parameters by representing them with stored representations of code vectors according to known quantification techniques described in A. Gersho & RM Gray, Vector Quantification and Signal Compression (1992).

Un bien conocido codificador de voz en el dominio del tiempo es el codificador Lineal Predictivo Activado por Código (CELP) descrito en L. B. Rabiner & R.W. Schafer, Procesamiento Digital de Señales de Voz 396-453 (1978). En un codificador CELP, las correlaciones a corto plazo, o redundancias, en la señal de voz son eliminadas mediante análisis predictivo lineal (LP), que encuentra los coeficientes de un filtro formante a corto plazo. Aplicando el filtro de predicción a corto plazo a la trama entrante de voz se genera una señal residuo LP, que es adicionalmente modelada y cuantificada con parámetros de filtro de predicción a largo plazo y un subsiguiente libro de claves estocástico. Por tanto, la codificación CELP divide la tarea de codificación de la forma de onda de voz en el dominio del tiempo en tareas separadas de codificar coeficientes de filtro LP a corto plazo y codificar el residuo LP. La codificación en el dominio del tiempo puede realizarse a una velocidad fija (es decir, usando el mismo número de bits, N_{o}, para cada trama) o a una velocidad variable (en que se usan distintas velocidades de bit para tipos diferentes de contenidos de trama). Los codificadores de velocidad variable intentan usar solo la cantidad de bits necesaria para codificar los parámetros del codec a un nivel adecuado para obtener una calidad objetivo. Un ejemplar de codificador CELP de velocidad variable se describe en la Patente de EE.UU. No. 5,414,796, que asignada al cesionario de la presente la invención.A well-known voice encoder in the time domain is the Linear Code Predictive Linear Encoder (CELP) described in LB Rabiner & RW Schafer, Digital Voice Signal Processing 396-453 (1978). In a CELP encoder, short-term correlations, or redundancies, in the voice signal are eliminated by linear predictive analysis (LP), which finds the coefficients of a short-term formant filter. Applying the short-term prediction filter to the incoming speech frame generates a residual LP signal, which is additionally modeled and quantified with long-term prediction filter parameters and a subsequent stochastic key book. Therefore, CELP coding divides the task of coding the voice waveform in the time domain into separate tasks of encoding LP filter coefficients in the short term and encoding the LP residue. The time domain coding can be done at a fixed rate (that is, using the same number of bits, No. for each frame) or at a variable rate (at which different bit rates are used for different types of plot contents). Variable speed encoders attempt to use only the amount of bits needed to encode codec parameters at an appropriate level to obtain objective quality. A copy of the variable speed CELP encoder is described in US Pat. No. 5,414,796, assigned to the assignee of the present invention.

Los codificadores en el dominio del tiempo como el codificador CELP típicamente se basan en un número alto de bits, N_{o}, por trama para conservar la exactitud de la forma de onda de voz del dominio del tiempo. Tales codificadores típicamente entregan voz de óptima calidad suponiendo que el número de bits, N_{o}, por la trama es relativamente grande (p. ej., 8 kbps o más). Sin embargo, a bajas velocidades de bit (4 kbps y menos), los codificadores en el dominio del tiempo fallan en mantener una calidad alta y un funcionamiento robusto debido al número limitado de bits disponibles. A baja velocidad de bit, el limitado espacio de libro de claves recorta la capacidad de emparejamiento de forma de onda de codificadores convencionales en el dominio del tiempo, que tan exitosamente se utilizan en aplicaciones comerciales de mayor velocidad. Por esto, a pesar de las mejoras en el tiempo, muchos sistemas de codificación CELP que operan a baja velocidad de bit sufren de distorsión perceptivamente importante típicamente caracterizada como ruido.Encoders in the time domain as The CELP encoder is typically based on a high number of bits, No, per frame to preserve the accuracy of the waveform of time domain voice. Such encoders typically deliver voice of optimum quality assuming that the number of bits, N o {,} per frame is relatively large (e.g., 8 kbps or plus). However, at low bit rates (4 kbps and less), encoders in the time domain fail to maintain a high quality and robust operation due to limited number of available bits. At low bit rate, the limited space of key book cuts the ability to match form wave of conventional time domain encoders, which so successfully used in commercial applications of greater speed. Therefore, despite the improvements over time, many CELP coding systems that operate at low bit rate suffer from perceptually important distortion typically characterized as noise.

La WO 96/22639 describe un método y un aparato para formatear datos para transmisión. Tras la detección de un bit indicador de borrado de trama, un dispositivo transmitente responde intensificando su señal mediante el aumento de su energía de transmisión o disminuyendo su velocidad de datos.WO 96/22639 describes a method and an apparatus to format data for transmission. After one bit detection frame erase indicator, a transmitting device responds intensifying its signal by increasing its energy of transmission or decreasing its data rate.

Hay actualmente una ola de interés investigador y una fuerte necesidad comercial de desarrollar un codificador de alta calidad operando a velocidades de bit de medias a bajas (es decir, en el rango de 2.4 a 4 kbps y menor). Las áreas de aplicación incluyen telefonía inalámbrica, comunicaciones por satélite, telefonía por Internet, diversas aplicaciones multimedia y de audio sin descarga, correo vocal, y otros sistemas de almacenamiento de voz. Las fuerzas impulsoras son la necesidad de alta capacidad y la demanda de funcionamiento robusto bajo situaciones de pérdida de paquetes. Varios esfuerzos recientes de estandarización de codificación de voz son otra fuerza impulsora directa propulsando la investigación y desarrollo de algoritmos de codificación de voz de baja velocidad. Un codificador de voz de baja velocidad crea más canales, o usuarios, por ancho de banda de aplicación admisible, y un codificador de voz de baja velocidad acoplado con una capa adicional de codificación de canal apropiada puede ajustar la cuenta total de bits de especificaciones de codificador y entregar un funcionamiento robusto bajo condiciones de error de canal.There is currently a wave of research interest and a strong commercial need to develop an encoder of high quality operating at medium to low bit rates (it is say, in the range of 2.4 to 4 kbps and less). The application areas include wireless telephony, satellite communications, Internet telephony, various multimedia and audio applications no download, voicemail, and other storage systems from voice. The driving forces are the need for high capacity and the robust operation demand under situations of loss of packages. Several recent efforts to standardize voice coding are another direct driving force propelling the research and development of voice coding algorithms of low speed. A low speed voice encoder creates more channels, or users, by allowable application bandwidth, and a low speed voice encoder coupled with a layer additional appropriate channel coding can adjust the account total bits of encoder specifications and deliver a robust operation under channel error conditions.

Los codificadores de voz convencionales predictivos de baja a media velocidad de bit tienden a funcionar pobremente bajo condiciones deficientes de canal, lo que causa borrados de tramas. La naturaleza predictiva del codificador de voz dicta que las tramas recibidas subsiguientes a un borrado de trama (es decir, de una trama que se perdió en la transmisión y por tanto no fue recibida) se sintetizará sobre la base de información anterior defectuosa, y el decodificador perderá sincronismo con el codificador asociado. Por lo tanto las tramas sintetizadas se degradarán, y la calidad de voz sufrirá. Sería deseable por lo tanto, mejorar el rendimiento de un codificador de voz bajo condiciones de canal deficientes. Por tanto hay necesidad de un codificador de voz que use un mecanismo de realimentación para mejorar el funcionamiento bajo condiciones de borrado de trama.Conventional Voice Encoders Low to medium bit rate predictors tend to work poorly under poor channel conditions, which causes frame erasures The predictive nature of the voice encoder dictates that the frames received subsequent to a frame erase (that is, of a plot that was lost in the transmission and therefore was not received) will be synthesized based on information previous defective, and the decoder will lose synchronism with the associated encoder. Therefore the synthesized frames are they will degrade, and the voice quality will suffer. It would be desirable so both improve the performance of a low voice encoder poor channel conditions. Therefore there is a need for a voice encoder that uses a feedback mechanism to improve operation under frame erase conditions.

Summary of the Invention

La presente invención va dirigida hacia un codificador de voz que emplea un mecanismo de realimentación para mejorar su funcionamiento bajo condiciones de borrado de trama. Consiguientemente, en un aspecto de la invención, un sistema de codificación de voz ventajosamente incluye un primer codificador de voz que incluye un primer codificador y un primer decodificador; y un segundo codificador de voz que incluye un segundo codificador y un segundo decodificador, donde el primer codificador se configura para codificar paquetes de tramas de voz y transmitir los paquetes a través de un canal de comunicación al segundo decodificador, el segundo decodificador se configura para recibir y decodificar paquetes y para enviar una señal al segundo codificador si una trama transmitida no es recibida por el segundo decodificador, el segundo codificador se configura para codificar y transmitir paquetes y para modificar un paquete en respuesta a la señal desde el segundo decodificador, el primer decodificador se configura para recibir y decodificar paquetes y para enviar una señal al primer codificador tras recibir un paquete modificado desde el segundo codificador, y el primer codificador está adicionalmente configurado para codificar un paquete usando un formato de codificación modificado predictivo o no predictivo en respuesta a la señal desde el primer decodificador.The present invention is directed towards a voice encoder that employs a feedback mechanism to improve its operation under frame erase conditions. Accordingly, in one aspect of the invention, a system of Voice coding advantageously includes a first encoder of voice that includes a first encoder and a first decoder; Y a second voice encoder that includes a second encoder and a second decoder, where the first encoder is configured to encode voice frame packets and transmit the packets through a communication channel to the second decoder, the second decoder is configured to receive and decode packets and to send a signal to the second encoder if a frame transmitted is not received by the second decoder, the second Encoder is configured to encode and transmit packets and to modify a packet in response to the signal from the second decoder, the first decoder is configured to receive and decode packets and to send a signal to the first encoder after receiving a modified package from the second encoder, and the first encoder is additionally configured to encode a package using a predictive modified coding format or non-predictive in response to the signal from the first decoder

En otro aspecto de la invención, se provee un método de codificación en un sistema de codificación de voz, comprendiendo el sistema de codificación de voz un primer decodificador en un primer codificador de voz y un primer codificador en un segundo codificador de voz. El método ventajosamente incluye los pasos de notificar a un segundo codificador en el primer codificador de voz si el primer decodificador falla al recibir una trama transmitida por el primer codificador; transmitir un paquete modificado desde el segundo codificador al segundo decodificador en respuesta a la notificación; notificar al primer codificador cuando el segundo decodificador recibe el paquete modificado desde el segundo codificador; y codificar un paquete en el primer codificador con un formato de codificación modificado predictivo o no predictivo.In another aspect of the invention, a coding method in a voice coding system, the voice coding system comprising a first decoder in a first voice encoder and a first Encoder in a second voice encoder. The method advantageously includes the steps of notifying a second encoder in the first voice encoder if the first decoder fails to receive a frame transmitted by the first encoder; transmit a modified packet from the second encoder to the second decoder in response to the notification; notify the first encoder when the second decoder receives the modified package from the second encoder; and encode a packet in the first encoder with a Modified predictive or non-predictive coding format.

En otro aspecto de la invención, un sistema de codificación de voz incluye un primer y un segundo codificadores de voz, incluyendo el primer codificador de voz un primer codificador y un primer decodificador, incluyendo el segundo codificador de voz un segundo codificador y un segundo decodificador. El sistema ventajosamente incluye medios para notificar al segundo codificador si el segundo decodificador fracasa al recibir una trama transmitida por el primer medio codificador para transmitir un paquete modificado desde el segundo codificador al primer decodificador en respuesta a la notificación; medios para notificar al primer codificador cuando el primer decodificador recibe el paquete modificado desde el segundo codificador; y medios para codificar un paquete en el primer codificador con un formato de codificación modificado predictivo o no predictivo.In another aspect of the invention, a system of Voice coding includes a first and second encoders of voice, including the first voice encoder a first encoder and a first decoder, including the second voice encoder a second encoder and a second decoder. The system advantageously includes means for notifying the second encoder if the second decoder fails to receive a frame transmitted by the first encoder means to transmit a modified package from the second encoder to the first decoder in response to notification; means to notify to the first encoder when the first decoder receives the package modified from the second encoder; and means for encode a packet in the first encoder with a format of Modified predictive or non-predictive coding.

Brief description of the drawings

La Fig. 1 es un diagrama de bloques de un sistema de teléfono inalámbrico.Fig. 1 is a block diagram of a system Wireless phone

La Fig. 2 es un diagrama de bloques de un canal de comunicación terminado en cada extremo por codificadores de voz.Fig. 2 is a block diagram of a channel of communication terminated at each end by encoders of voice.

La Fig. 3 es un diagrama de bloques de un codificador.Fig. 3 is a block diagram of a encoder

La Fig. 4 es un diagrama de bloques de un decodificador.Fig. 4 is a block diagram of a decoder

La Fig. 5 es un diagrama de flujo que ilustra un proceso de decisión de codificación de voz.Fig. 5 is a flow chart illustrating a voice coding decision process.

La Fig. 6A es un diagrama de amplitud de señal de voz en función del tiempo, y la Fig. 6B es un diagrama de amplitud de residuo de predicción lineal (LP) en función del tiempo.Fig. 6A is a signal amplitude diagram of voice as a function of time, and Fig. 6B is an amplitude diagram of linear prediction residue (LP) as a function of time.

La Fig. 7 es un diagrama de bloques de un sistema codificador de voz que emplea un bucle de realimentación desde el decodificador en el receptor hasta el codificador en el receptor, desde el codificador en el receptor hasta el decodificador en el transmisor, y desde el decodificador en el transmisor hasta el codificador en el transmisorFig. 7 is a block diagram of a system voice encoder that uses a feedback loop from the decoder in the receiver to the encoder in the receiver, from the encoder in the receiver to the decoder in the transmitter, and from the decoder in the transmitter to the encoder in the transmitter

Detailed description of the preferred embodiments

Las realizaciones ejemplares descritas en lo que sigue radican en un sistema inalámbrico de comunicación telefónica configurado para emplear una interfase aérea CDMA. No obstante, se entenderá por aquellos con experiencia en la técnica que un método y aparato de submuestreo que incluye los aspectos de la invención inmediata pueden incluirse en cualquiera de los diversos sistemas de comunicación que emplean una gama amplia de tecnologías conocidas por aquellos con experiencia en la técnica.The exemplary embodiments described in what continue to reside in a wireless telephone communication system configured to use a CDMA air interface. However, it understand by those with experience in the art that a method and subsampling apparatus that includes aspects of the invention immediate can be included in any of the various systems of communication employing a wide range of known technologies by those with experience in the technique.

Como se ilustra en la Fig. 1, un sistema telefónico inalámbrico CDMA genéricamente incluye una pluralidad de unidades móviles de abonado 10, una pluralidad de estaciones base 12, controladores de estación base (BSCs) 14, y un centro conmutador móvil (MSC) 16. El MSC 16 se configura para tener interfase con una red telefónica convencional pública conmutada (PSTN) 18. El MSC 16 también se configura para tener interfase con las BSCs 14. Las BSCs 14 se acoplan a las estaciones base 12 por medio de líneas de retroceso. Las líneas de retroceso pueden configurarse para soportar cualquiera de varios interfases conocidos incluyendo, p. ej., E1/T1, ATM, IP, PPP, Repetidor de Trama, HDSL, ADSL, o xDSL. Se entiende que puede haber más de dos BSCs 14 en el sistema. Cada estación base 12 incluye convenientemente por lo menos un sector (no mostrado), cada sector comprende una antena omnidireccional o una antena que apunta radialmente en una dirección particular hacia fuera de la estación base 12. Alternativamente, cada sector puede comprender dos antenas para diversidad de recepción. Cada estación base 12 puede diseñarse convenientemente para soportar una pluralidad de asignaciones de frecuencia. La intersección de un sector y de una asignación de frecuencia puede denominarse como canal CDMA. Las estaciones base 12 pueden también ser conocidas como subsistemas transceptores de estación base (BTSs) 12. Alternativamente, "estación base" puede usarse en la industria para referirse colectivamente a una BSC 14 y una o más BTSs 12. Las BTSs 12 pueden también denominarse "sitios de célula" 12. Alternativamente, los sectores individuales de una BTS determinada 12 pueden denominarse como sitios de célula. Las unidades móviles de abonado 10 son típicamente teléfonos celulares o PCS 10. El sistema se configura convenientemente para su uso según el Estándar IS-95.As illustrated in Fig. 1, a system CDMA cordless telephone generically includes a plurality of mobile subscriber units 10, a plurality of base stations 12, base station controllers (BSCs) 14, and a center mobile switch (MSC) 16. The MSC 16 is configured to have interface with a conventional public switched telephone network (PSTN) 18. MSC 16 is also configured to interface with BSCs 14. BSCs 14 are coupled to base stations 12 by middle of backward lines. Backspace lines can be configured to support any of several known interfaces including, p. e.g., E1 / T1, ATM, IP, PPP, Frame Repeater, HDSL, ADSL, or xDSL. It is understood that there may be more than two BSCs 14 in the system. Each base station 12 conveniently includes so minus one sector (not shown), each sector comprises an antenna omnidirectional or an antenna that points radially in one direction particular out of base station 12. Alternatively, each sector can comprise two antennas for diversity of reception. Each base station 12 can be conveniently designed to support a plurality of frequency assignments. The intersection of a sector and a frequency assignment can denominate as CDMA channel. Base stations 12 may also be known as base station transceiver subsystems (BTSs) 12. Alternatively, "base station" can be used in the industry to collectively refer to a BSC 14 and one or more BTSs 12. BTSs 12 may also be called "sites of cell "12. Alternatively, the individual sectors of a BTS determined 12 can be referred to as cell sites. The mobile subscriber units 10 are typically cell phones or PCS 10. The system is conveniently configured for use according to the IS-95 Standard.

Durante el funcionamiento típico del sistema telefónico celular, las estaciones base 12 reciben conjuntos de señales de enlace ascendente desde conjuntos de unidades móviles 10. Las unidades móviles 10 mantienen llamadas telefónicas u otras comunicaciones. Cada señal de enlace ascendente recibida por una determinada estación base 12 se procesa dentro de esa estación base 12. Los datos resultantes se remiten a las BSCs 14. Las BSCs 14 proporcionan asignación de recursos de llamada y funcionalidad de gestión de movilidad incluyendo la organización de traspasos suaves entre las estaciones base 12. Las BSCs 14 también encaminan los datos recibidos al MSC 16, que proporciona servicios adicionales de enrutamiento para el interfase con la PSTN 18. Igualmente, la PSTN 18 tiene interfases con el MSC 16, y el MSC 16 tiene interfases con las BSCs 14, que a su vez controlan la estaciones base 12 para transmitir conjuntos de señales de enlace descendente a conjuntos de unidades móviles 10.During typical system operation cell phone, base stations 12 receive sets of uplink signals from mobile unit sets 10. Mobile units 10 hold telephone calls or other communications Each uplink signal received by a certain base station 12 is processed within that base station 12. The resulting data is sent to the BSCs 14. The BSCs 14 provide allocation of call resources and functionality of mobility management including the organization of smooth transfers between base stations 12. BSCs 14 also route data received to MSC 16, which provides additional services of Routing for the interface with the PSTN 18. Similarly, the PSTN 18 has interfaces with MSC 16, and MSC 16 has interfaces with BSCs 14, which in turn control base stations 12 to transmit sets of downlink signals to sets of mobile units 10.

En la Fig. 2 un primer codificador 100 recibe muestras de voz digitalizada s(n) y codifica las muestras s(n) para su transmisión sobre un medio de transmisión 102, o canal de comunicación 102, a un primer decodificador 104. El decodificador 104 decodifica las muestras de voz codificadas y sintetiza una señal de voz de salida S_{SYNTH}(n). Para la transmisión en la dirección opuesta, un segundo codificador 106 codifica muestras de voz digitalizada s(n), que se transmiten sobre un canal de comunicación 108. Un segundo decodificador 110 recibe y decodifica las muestras de voz codificadas, generando una señal de salida de voz sintetizada S_{SYNTH}(n).In Fig. 2 a first encoder 100 receives digitized voice samples s (n) and encode the samples s (n) for transmission over a transmission medium 102, or communication channel 102, to a first decoder 104. The decoder 104 decodes the coded voice samples and synthesizes an output voice signal S_ {SYNTH} (n). For the transmission in the opposite direction, a second encoder 106 encodes digitized voice samples s (n), which they transmit over a communication channel 108. A second decoder 110 receives and decodes voice samples encoded, generating a synthesized voice output signal S_ {SYNTH} (n).

Las muestras de voz s(n) representan señales de voz que se han digitalizado y cuantificado de conformidad con cualquiera de los diversos métodos conocidos en la técnica incluyendo, p. ej., modulación de código de impulso (PCM), ley \mu o ley A comprimida expandida. Como es conocido en la técnica, la muestras de voz s(n) se organizan en tramas de datos entrantes donde cada trama comprende un número predeterminado de muestras de voz digitalizada s(n). En una realización ejemplar, se emplea una velocidad de muestreo de 8 kHz, comprendiendo cada trama de 20 ms 160 muestras. En las realizaciones descritas más adelante, la velocidad de transmisión de datos puede variarse convenientemente sobre una base de trama a trama desde 13.2 kbps (valor total) a 6.2 kbps (valor medio) a 2.6 kbps (valor cuarto) a 1 kbps (valor octavo). Variar la velocidad de transmisión de datos es ventajoso porque se puede emplear selectivamente una velocidad de bit inferior para tramas que contienen relativamente menos información de voz. Como se entenderá por aquellos con experiencia en la técnica, pueden usarse otras velocidades de muestreo, tamaños de trama, y velocidades de transmisión de datos.Voice samples s (n) represent voice signals that have been digitized and quantified in accordance with any of the various methods known in the art including, p. e.g., pulse code modulation (PCM), law µ or expanded A compressed law. As is known in the art, Voice samples s (n) are organized into data frames incoming where each frame comprises a predetermined number of digitized voice samples s (n). In one embodiment exemplary, a sampling rate of 8 kHz is used, each frame comprising 20 ms 160 samples. In the embodiments described below, the transmission speed of data can be conveniently varied on a raster basis to frame from 13.2 kbps (total value) to 6.2 kbps (average value) at 2.6 kbps (fourth value) at 1 kbps (eighth value). Vary the speed of data transmission is advantageous because it can be used selectively a lower bit rate for frames that They contain relatively less voice information. How will it be understood? for those with experience in the art, others may be used sampling rates, frame sizes, and speeds of data transmission.

El primer codificador 100 y el segundo decodificador 110 juntos comprenden un primer codificador de voz, o codec de voz. El codificador de voz podría usarse en cualquier dispositivo de comunicación para transmitir señales de voz, incluyendo, p. ej., las unidades de abonado, BTSs, o BSCs descritas más arriba con referencia a la Fig. 1. Igualmente, el segundo codificador 106 y el primer decodificador 104 juntos comprenden un segundo codificador de voz. Se entiende por aquellos con experiencia en la técnica que esos codificadores de voz pueden implementarse con un procesador digital de señal (DSP), un circuito integrado de aplicación específica (ASIC), lógica de puertas discretas, microprogramación, o cualquier módulo convencional de software programable y un microprocesador. El módulo de software podría radicar en memoria RAM, memoria flash, registros, o cualquier otra forma de medio grabable de almacenamiento conocido en la técnica. Alternativamente, cualquier procesador convencional, controlador, o máquina de estados podría sustituirse por el microprocesador. La patente US No. 5,727,123, asignada al cesionario de la presente invención, y la patente US No. 5,784,532, asignada al cesionario de la presente invención, describen ASICs ejemplares diseñados específicamente para codificación de voz.The first encoder 100 and the second decoder 110 together comprise a first voice encoder, or voice codec The voice encoder could be used in any communication device to transmit voice signals, including, p. eg, subscriber units, BTSs, or BSCs described above with reference to Fig. 1. Similarly, the second encoder 106 and the first decoder 104 together comprise a Second voice encoder It is understood by those with technical experience that these voice encoders can be implemented with a digital signal processor (DSP), a circuit Integrated application specific (ASIC), gate logic discrete, microprogramming, or any conventional module of Programmable software and a microprocessor. The software module it could be RAM, flash memory, records, or any another form of recordable storage medium known in the technique. Alternatively, any conventional processor, controller, or state machine could be replaced by the microprocessor. US Patent No. 5,727,123, assigned to Assignee of the present invention, and US Patent No. 5,784,532, assigned to the assignee of the present invention, describe ASICs specimens designed specifically for voice coding.

En la Fig. 3 un codificador 200 que puede usarse en un codificador de voz incluye un módulo de decisión de modo 202, un módulo de estimación de tono 204, un módulo de análisis LP 206, un filtro de análisis LP 208, un módulo de cuantificación LP 210, y un módulo de cuantificación de residuo 212. Se proporcionan tramas de voz entrantes s(n) al módulo de decisión de modo 202, al módulo de estimación de tono 204, al módulo de análisis LP 206, y al filtro de análisis LP 208. El módulo de decisión de modo 202 produce un índice de modo I_{M} y un modo M basados en la periodicidad, la energía, la relación señal - ruido (SNR), o la tasa de cruce por cero, entre otros aspectos, de cada trama de voz entrante s(n). En la patente U.S. No. 5,911,128, asignada al cesionario de la presente invención, se describen diversos métodos para clasificar tramas de voz según su periodicidad. Tales métodos se incorporan también en los Estándares Provisionales de la Asociación de Industrias de Telecomunicación TIA/EIA IS - 127 y TIA/EIA IS - 733. Un esquema ejemplar de modo de decisión se describe también en la patente U.S. No. 6,691,084.In Fig. 3 an encoder 200 that can be used in a voice encoder includes a mode 202 decision module, a tone estimation module 204, an analysis module LP 206, an LP 208 analysis filter, an LP 210 quantification module, and a residue quantification module 212. Frames are provided incoming voice s (n) to mode decision module 202, at tone estimation module 204, to the analysis module LP 206, and to the analysis filter LP 208. The mode decision module 202 produces an index of mode I_ {M} and mode M based on the periodicity, energy, signal-to-noise ratio (SNR), or rate zero crossing, among other aspects, of each voice frame incoming s (n). In U.S. Patent No. 5,911,128, assigned to Assignee of the present invention, various methods are described to classify voice frames according to their periodicity. Such methods they are also incorporated in the Provisional Standards of the Association of Telecommunications Industries TIA / EIA IS - 127 and TIA / EIA IS - 733. An exemplary decision mode scheme is also described in U.S. Pat. No. 6,691,084.

El módulo de estimación de tono 204 produce un índice de tono I_{P} y un valor de retardo P_{0} basados en cada trama de voz entrante s(n). El módulo de análisis LP 206 realiza análisis predictivo lineal sobre cada trama de voz entrante
s(n) para generar un parámetro LP a. El parámetro LP a se proporciona al módulo de cuantificación LP 210. El módulo de cuantificación LP 210 también recibe el modo M, realizando por medio de eso el proceso de cuantificación de una manera modo - dependiente. El módulo de cuantificación LP 210 produce un índice LP I_{LP} y un parámetro cuantificado LP â. El filtro de análisis LP 208 recibe el parámetro cuantificado LP â además de la trama de voz entrante s(n). El filtro de análisis LP 208 genera una señal de residuo LP R[n], que representa el error entre las tramas de voz entrantes s(n) y la voz reconstruida basándose en los parámetros pronosticados lineales cuantificados â. El residuo LP R[n], el modo M, y el parámetro cuantificado LP â se proporcionan al módulo de cuantificación de residuo 212. Basado en estos valores, el módulo de cuantificación de residuo 212 produce un índice de residuo I_{R} y una señal de residuo cuantificada \hat{R}[n].The tone estimation module 204 produces a tone index I_ {P} and a delay value P_ {0} based on each incoming voice frame s (n). The LP 206 analysis module performs linear predictive analysis on each incoming voice frame
s (n) to generate an LP parameter a. The parameter LP a is provided to the quantization module LP 210. The quantization module LP 210 also receives mode M, thereby performing the quantization process in a mode-dependent manner. The quantization module LP 210 produces an LP I_ {LP} index and a quantified parameter LP â. The analysis filter LP 208 receives the quantized parameter LP â in addition to the incoming voice frame s (n). The LP 208 analysis filter generates an LP R [n] residue signal, which represents the error between the incoming speech frames s (n) and the reconstructed voice based on the quantified linear predicted parameters â. The residue LP R [n], the mode M, and the quantified parameter LP â are provided to the residue quantification module 212. Based on these values, the residue quantification module 212 produces a residue index I_ {R} and a quantified residue signal \ hat {R} [n].

En la Fig. 4 un decodificador 300 que puede usarse en un codificador de voz incluye un módulo de decodificación de parámetro LP 302, un módulo de decodificación de residuo 304, un módulo de decodificación de modo 306, y un filtro de síntesis LP 308. El módulo de decodificación de modo 306 recibe y decodifica un índice de modo I_{M}, generando a partir del mismo un modo M. El módulo de decodificación de parámetro LP 302 recibe el modo M y un índice LP I_{LP}. El módulo de decodificación de parámetro LP 302 decodifica los valores recibidos para producir un parámetro cuantificado LP â. El módulo de decodificación de residuo 304 recibe un índice de residuo I_{R}, un índice de tono I_{P}, y el índice de modo I_{M}. El módulo de decodificación de residuo 304 decodifica los valores recibidos para generar una señal cuantificada de residuo \hat{R}[n]. La señal cuantificada de residuo \hat{R}[n] y el parámetro cuantificado LP â se proporcionan al filtro de síntesis LP 308, que a partir de ahí sintetiza una señal de voz de salida decodificada \hat{s}[n].In Fig. 4 a decoder 300 that can used in a voice encoder includes a decoding module of parameter LP 302, a residue decoding module 304, a 306 mode decoding module, and an LP synthesis filter 308. The mode decoding module 306 receives and decodes a mode index I_ {M}, generating from it a mode M. The parameter decoding module LP 302 receives mode M and a LP index I_ {LP}. The LP 302 parameter decoding module decode the values received to produce a parameter quantified LP â. Waste decoding module 304 receives a residue index I_ {R}, a tone index I_ {P}, and the mode index I_ {M}. The waste decoding module 304 decode the received values to generate a signal quantified residue \ hat {R} [n]. The quantified signal of residue \ hat {R} [n] and the quantized parameter LP â provide the LP 308 synthesis filter, which from there synthesizes a decoded output voice signal \ hat {s} [n].

El funcionamiento e implementación de los diversos módulos del codificador 200 de la Fig. 3 y del decodificador 300 de la Fig. 4 se conocen en la técnica y se describen en la antes citada patente U.S. No. 5,414,796 y en L.B. Rabiner & R.W. Schafer, Procesamiento Digital de Señales de Voz 396-453 (1978).The operation and implementation of the various modules of the encoder 200 of Fig. 3 and the decoder 300 of Fig. 4 are known in the art and are described in the aforementioned US Patent No. 5,414,796 and in LB Rabiner & RW Schafer, Digital Processing of Voice Signals 396-453 (1978).

Como se ilustra en el diagrama de flujo de la Fig. 5, un codificador de voz de acuerdo con una realización sigue un conjunto de pasos en el procesamiento de muestras de voz para transmisión. En el paso 400 el codificador de voz recibe muestras digitales de una señal de voz en tramas sucesivas. Tras recibir una trama determinada, el codificador de voz continua hasta el paso 402. En el paso 402, el codificador de voz detecta la energía de la trama. La energía es una medida de la actividad vocal de la trama. La detección de voz se realiza sumando los cuadrados de las amplitudes de las muestras digitalizadas de voz y comparando la energía resultante con un valor umbral. En una realización, el valor de umbral se adapta basándose en el nivel cambiante de ruido de fondo. Un detector de actividad de voz de umbral variable ejemplar se describe en la antes citada patente U.S. No. 5,414,796. Algunos sonidos sordos de voz pueden ser muestras de energía sumamente baja que pueden ser codificados erróneamente como ruido de fondo. Para impedir esto, la inclinación espectral de muestras de baja energía puede usarse para distinguir la voz sorda del ruido de fondo, como se describe en la antes citada patente U.S. No. 5,414,796.As illustrated in the flow chart of the Fig. 5, a voice encoder according to one embodiment follows a set of steps in the processing of voice samples to transmission. In step 400 the voice encoder receives samples digital of a voice signal in successive frames. After receiving one determined frame, the voice encoder continues until the step 402. In step 402, the voice encoder detects the power of the plot. Energy is a measure of the plot's vocal activity. Voice detection is done by adding the squares of the amplitudes of digitized voice samples and comparing the resulting energy with a threshold value. In one embodiment, the threshold value is adapted based on the changing noise level background. A variable threshold voice activity detector Exemplary is described in the aforementioned U.S. Patent. No. 5,414,796. Some deaf voice sounds can be samples of energy extremely low that can be erroneously encoded as noise background. To prevent this, the spectral inclination of samples of Low energy can be used to distinguish the dull voice from the noise of merits, as described in the aforementioned U.S. patent Do not. 5,414,796.

Después de detectar la energía de la trama, el codificador de voz continúa hasta el paso 404. En el paso 404 el codificador de voz determina si la energía detectada de trama es suficiente para clasificar la trama como de las que contienen información de voz. Si la energía detectada de trama cae por debajo de un nivel umbral predefinido, el codificador de voz continúa hasta el paso 406. En el paso 406, el codificador de voz codifica la trama como ruido de fondo (es decir, sin voz, o silencio). En una realización la trama de ruido de fondo se codifica a una velocidad 1/8, o 1 kbps. Si en el paso 404 la energía detectada de trama alcanza o excede el nivel de umbral predefinido, la trama se clasifica como voz y el codificador de voz continúa hasta el paso 408.After detecting the energy of the plot, the Voice encoder continues to step 404. In step 404 the Voice encoder determines if the detected frame energy is enough to classify the plot as containing voice information If the detected frame energy falls below at a predefined threshold level, the voice encoder continues until step 406. In step 406, the voice encoder encodes the plot as background noise (i.e. no voice, or silence). In a realization the background noise frame is encoded at a speed 1/8, or 1 kbps. If in step 404 the detected frame energy reaches or exceeds the predefined threshold level, the frame is classifies as voice and the voice encoder continues until step 408

En el paso 408 el codificador de voz determina si la trama es voz sorda, es decir, el codificador de voz examina la periodicidad de la trama. Los diversos métodos conocidos de determinación de periodicidad incluyen, p. ej., el uso de cruces por cero y el uso de funciones de autocorrelación normalizadas (NACFs). En particular, el uso de cruces por cero y de NACFs para detectar la periodicidad se describe en la antes citada patente U.S. No. 5,911,128 y en la patente U.S. No. 6,691,084. Además, los anteriores métodos usados para distinguir voz hablada de voz sorda se incorporan en los Estándares Provisionales de la Asociación de Industrias de Telecomunicación TIA/EIA IS - 127 y TIA/EIA IS -
733. Si se determina que la trama es voz sorda en el paso 408, el codificador de voz continúa hasta el paso 410. En el paso 410, el codificador de voz codifica la trama como voz sorda. En una realización, las tramas de voz sorda son codificadas a velocidad un cuarto, o 2.6 kbps. Si en el paso 408 la trama no es determinada como voz sorda, el codificador de voz continúa hasta el paso 412.In step 408, the voice encoder determines whether the frame is voiceless, that is, the voice encoder examines the periodicity of the frame. The various known methods of periodicity determination include, e.g. eg, the use of zero crossings and the use of standard autocorrelation functions (NACFs). In particular, the use of zero crossings and NACFs to detect periodicity is described in the aforementioned US Patent No. 5,911,128 and in US Patent No. 6,691,084. In addition, the above methods used to distinguish spoken voice from deaf voice are incorporated into the Provisional Standards of the Association of Telecommunications Industries TIA / EIA IS - 127 and TIA / EIA IS -
733. If it is determined that the frame is voiceless in step 408, the voice encoder continues to step 410. In step 410, the voice encoder encodes the frame as voiceless. In one embodiment, the voiceless frames are encoded at a quarter speed, or 2.6 kbps. If in frame 408 the frame is not determined as a voiceless voice, the voice encoder continues until step 412.

En el paso 412 el codificador de voz determina si la trama es voz transicional, usando los métodos de detección de periodicidad que se conocen en la técnica, como los descritos en, p. ej., la antes citada patente U.S. No. 5,911,128. Si la trama se determina que es voz transicional, el codificador de voz continúa hasta el paso 414. En el paso 414, la trama se codifica como voz de transición (es decir, transición desde voz sorda a voz hablada). En una realización, la trama de voz de transición se codifica de acuerdo con un método de codificación interpolativo multipulso descrito en la patente U.S. No. 6,260,017, asignada al cesionario de la presente invención. En otra realización la trama de voz de transición se codifica a velocidad plena, o 13.2 kbps.In step 412 the voice encoder determines if the plot is transitional voice, using the detection methods of periodicity known in the art, such as those described in, e.g. e.g., the aforementioned U.S. patent No. 5,911,128. If the plot is determines that it is transitional voice, the voice encoder continues until step 414. In step 414, the plot is encoded as the voice of transition (i.e. transition from deaf to spoken voice). In one embodiment, the transition voice frame is encoded from according to a multi-pulse interpolative coding method described in U.S. Pat. No. 6,260,017, assigned to the assignee of The present invention. In another embodiment the voice plot of Transition is encoded at full speed, or 13.2 kbps.

Si en el paso 412, el codificador de voz determina que la trama no es voz transicional, el codificador de voz continúa hasta el paso 416. En el paso 416 el codificador de voz codifica la trama como voz hablada. En una realización las tramas de voz hablada pueden ser codificadas a velocidad mitad, o 6.2 kbps. Es también posible codificar tramas de voz hablada a velocidad total, o 13.2 kbps (o velocidad total, 8 kbps, en un codificador CELP 8k). Aquellos con experiencia en la técnica apreciarán, sin embargo, que codificando las tramas habladas a velocidad mitad permite al codificador ahorrar un valioso ancho de banda explotando la naturaleza constante de las tramas habladas. Adicionalmente, sin considerar la velocidad usada para codificar la voz hablada, la voz hablada se codifica ventajosamente usando información de tramas pasadas, y de aquí se dice codificada predictivamente.If in step 412, the voice encoder determines that the plot is not transitional voice, the encoder of Voice continues to step 416. In step 416 the voice encoder encode the plot as spoken voice. In one embodiment the frames Spoken voice can be encoded at half speed, or 6.2 kbps. It is also possible to encode speech speech frames at speed total, or 13.2 kbps (or total speed, 8 kbps, in an encoder CELP 8k). Those with experience in the art will appreciate, without However, that encoding the frames spoken at half speed allows the encoder to save valuable bandwidth by exploiting the constant nature of the spoken frames. Additionally, without consider the speed used to encode the spoken voice, the voice spoken is advantageously encoded using frame information past, and from here it is said predictively coded.

Aquellos con experiencia apreciarán que la señal de voz o el correspondiente residuo LP pueden codificarse siguiendo los pasos mostrados en la Fig. 5. Las características de forma de onda de ruido, y voz sorda, de transición y hablada pueden verse como una función del tiempo en el diagrama de la Fig. 6A. Las características de forma de onda de ruido, y de residuo LP sordo, de transición, y hablado puede verse como una función del tiempo en el diagrama de la Fig. 6B.Those with experience will appreciate that the signal voice or the corresponding LP residue can be encoded following the steps shown in Fig. 5. The shape characteristics of noise wave, and voice deaf, transitional and spoken can be seen as a function of time in the diagram of Fig. 6A. The characteristics of noise waveform, and deaf LP residue, of transition, and spoken can be seen as a function of time in the diagram of Fig. 6B.

En una realización, un sistema de codificación de voz 500 se configura para proveer un bucle de realimentación desde el decodificador en el receptor al codificador en el receptor, desde el codificador en el receptor al decodificador en el transmisor, y desde el decodificador en el transmisor al codificador en el transmisor, como se muestra en la Fig. 7. El bucle de realimentación desde el decodificador receptor al codificador transmisor ventajosamente permite al sistema codificador de voz 500 mejorar el funcionamiento bajo condiciones de borrado de trama evitando la propagación de malas memorizaciones de trama, como se describe más adelante.In one embodiment, a coding system of Voice 500 is configured to provide a feedback loop from the decoder in the receiver to the encoder in the receiver, from the encoder in the receiver to the decoder in the transmitter, and from the decoder in the transmitter to the encoder in the transmitter, as shown in Fig. 7. The loop of feedback from the receiver decoder to the encoder transmitter advantageously allows the voice coding system 500 improve operation under frame erase conditions avoiding the spread of bad frame memorizations, as describe later.

El sistema de codificación de voz 500 incluye un primer y un segundo codificadores de voz 502, 504. El primer codificador de voz 502 se denomina codificador transmisor de voz y el segundo codificador de voz 504 se denomina codificador receptor de voz solo con fines de explicación. El primer el codificador de voz 502 incluye un codificador 506 y un decodificador 508. El segundo codificador de voz 504 incluye un codificador 510 y un decodificador 512. Cualquier codificador de voz 502, 504 puede implementarse ventajosamente como parte de un DSP, y puede radicar en p. ej., una unidad de abonado o estación base en un PCS o sistema celular telefónico o en una unidad de abonado o en una unidad de acceso en un sistema de satélite.The voice coding system 500 includes a first and second voice encoders 502, 504. The first 502 voice encoder is called voice transmitter encoder and the second voice encoder 504 is called the receiver encoder Voice only for explanation purposes. The first the encoder of Voice 502 includes an encoder 506 and a decoder 508. The second voice encoder 504 includes an 510 encoder and a 512 decoder. Any voice encoder 502, 504 can advantageously implemented as part of a DSP, and can be filed in P. eg, a subscriber unit or base station in a PCS or telephone cellular system or in a subscriber unit or in a Access unit in a satellite system.

El codificador 506 transmite un paquete a través de un canal de comunicación. El decodificador 512 recibe el paquete. Si una trama se perdió durante la transmisión (p. ej., debido a condiciones de canal malas o ruidosas), el decodificador 512 envía una señal al codificador 510 indicó que se recibió un borrado de trama. El codificador 510 entonces fija el valor de un bit particular, denominado bit indicador de borrado (EIB), a uno en el próximo paquete a transmitir. La codificador 510 transmite entonces el paquete. El paquete es recibido por el decodificador 508. El decodificador 508 envía una señal al codificador 506 indicando que se recibió un paquete con el EIB puesto a uno. Tras recibir la señal desde el decodificador 508, el codificador 506 envía un paquete con baja codificación de memoria como próximo paquete. En una realización particular, el codificador 506 envía un paquete sin codificación de memoria como próximo paquete.The 506 encoder transmits a packet through of a communication channel. The decoder 512 receives the package. If a frame was lost during transmission (e.g., due to bad or noisy channel conditions), the decoder 512 sends a signal to the 510 encoder indicated that a frame erase. The encoder 510 then sets the value of a particular bit, called the erase indicator bit (EIB), to one in The next package to transmit. 510 encoder transmits Then the package. The package is received by the decoder 508. Decoder 508 sends a signal to encoder 506 indicating that a package was received with the EIB set to one. After receive the signal from decoder 508, encoder 506 send a packet with low memory encoding as next package. In a particular embodiment, encoder 506 sends a Package without memory encoding as next package.

El sistema de codificación de voz 500 es beneficioso por las razones siguientes. Típicamente, en codificadores predictivos de voz se usa una cantidad de memoria relativamente grande. Consiguientemente, cada trama (en una realización particular, cada trama tiene veinte ms de duración) cuando se codifica usa información de tramas pasadas codificadas. Esto afecta al funcionamiento del codificador de voz bajo condiciones de borrado de trama. Por ejemplo, si se borra una trama (o múltiples tramas), las tramas que siguen al borrado se resienten en calidad en un codificador de voz basado en la predicción (que usa información de tramas pasadas para predecir la trama actual). Esto es especialmente cierto para codificadores de voz de baja velocidad de bit, en donde hay una fuerte predicción. Sin embargo, según las realizaciones arriba descritas, cuando el decodificador de voz del lado receptor 512 recibe una trama borrada, el decodificador 512 envía una realimentación al codificador de voz del lado transmisor 506 de que el decodificador 512 ha detectado un borrado, y por tanto pide o una codificación de baja memoria (mínimo predictiva) o una codificación sin memoria (no predictiva) para resincronizar la salida y las memorias del decodificador de voz del lado receptor 512 con las del codificador de voz del lado transmisor 506. Por tanto, como describió arriba, el decodificador de voz del lado receptor 512 notifica al codificador de voz del lado receptor 510 para enviar un EIB conjuntamente con el próximo paquete. El decodificador de voz del lado transmisor 508 informa entonces al codificador de voz del lado transmisor 506 del EIB recibido. El codificador de voz del lado transmisor 506 consiguientemente realiza una codificación de baja memoria (mínimo predictiva) o una codificación sin memoria (no predictiva), enviando el paquete correspondiente al decodificador de voz del lado receptor 512. El decodificador de voz del lado receptor 512 decodifica entonces el paquete de baja memoria o sin memoria, usando el paquete decodificado para reiniciar o resincronizar sus memorias con las del codificador de voz del lado transmisor 506. El máximo tiempo que el decodificador de voz del lado receptor 512 tendrá para esperar antes de recibir el paquete codificado de baja memoria o sin memoria es un de trama de duración (porque el codificador del lado receptor 510 puede ya haber comenzado la creación de un paquete) más otra trama de duración (porque el transmisor del lado codificador 506 puede ya haber comenzado la creación de un paquete cuando recibe el EIB) más un tiempo de retardo de transmisión unidireccional.The voice coding system 500 is beneficial for the following reasons. Typically in predictive voice encoders an amount of memory is used relatively large Consequently, each frame (in one particular realization, each frame is twenty ms long) when encoding it uses information from past frames encoded. This affects the operation of the low voice encoder frame erase conditions. For example, if a frame is deleted (or multiple frames), the frames that follow the deletion suffer in quality in a speech encoder based on prediction (which uses information of past frames to predict the current frame). This It is especially true for low speed voice encoders bit, where there is a strong prediction. However, according to embodiments described above, when the voice decoder of the receiver side 512 receives an erased frame, decoder 512 send feedback to the voice encoder on the transmitting side 506 that decoder 512 has detected an erasure, and therefore asks for or a low memory coding (minimum predictive) or a encoding without memory (non-predictive) to resynchronize the output and memories of the voice decoder on the receiving side 512 with those of the voice encoder on the transmitter side 506. Therefore, as described above, the voice decoder of the receiving side 512 notifies the voice encoder on the receiving side 510 to send a EIB together with the next package. Voice decoder on the transmitter side 508 then informs the voice encoder of the 506 transmitter side of the received EIB. The voice encoder of transmitter side 506 consequently performs an encoding of low memory (minimum predictive) or an encoding without memory (no predictive), sending the corresponding package to the decoder of voice of the receiving side 512. The voice decoder of the side receiver 512 then decodes the low memory package or without memory, using the decoded package to restart or resync your memories with those of the voice encoder on the side 506 transmitter. The maximum time that the voice decoder of the Receiver side 512 will have to wait before receiving the package encoded low memory or no memory is a frame of duration (because the encoder on the receiving side 510 may already have started the creation of a package) plus another duration frame (because the 506 encoder side transmitter may already have started creating a package when you receive the EIB) plus a Unidirectional transmission delay time.

Por tanto, se ha descrito un aparato y método novedosos para proporcionar realimentación desde el decodificador al codificador para mejorar el funcionamiento de un codificador predictivo de voz en condiciones de borrado de trama. Aquellos con experiencia en la técnica comprenderán que los diversos bloques lógicos y pasos de algoritmo ilustrativos descritos en relación con las realizaciones aquí descritas pueden implementarse o realizarse con un procesador digital de señal (DSP), un circuito integrado de aplicación específica (ASIC), lógica de puerta discreta de transistor, componentes electrónicos discretos como, p. ej., registros y FIFO, un procesador que ejecuta un conjunto de instrucciones de microprogramación, o cualquier módulo de software convencional programable y un procesador. El procesador puede ser convenientemente un microprocesador, pero en la alternativa, el procesador puede ser cualquier procesador, controlador, microcontrolador, o máquina de estados convencional. El módulo de software puede residir en memoria RAM, memoria flash, registros, o cualquier otra forma de medio de almacenamiento grabable conocido en la técnica. Aquellos con experiencia apreciarán además que los datos, instrucciones, comandos, información, señales, bits, símbolos, y chips, que pudieran referenciarse a lo largo de la anterior descripción son representados ventajosamente por voltajes, corrientes, ondas electromagnéticas, partículas o campos magnéticos, partículas o campos ópticos, o cualquier combinación de los mismos.Therefore, an apparatus and method has been described Novel to provide feedback from the decoder to the encoder to improve the operation of an encoder Voice predictive in frame erase conditions. Those with technical experience will understand that the various blocks logical and illustrative algorithm steps described in relation to the embodiments described herein can be implemented or realized with a digital signal processor (DSP), an integrated circuit of Specific application (ASIC), discrete gate logic of transistor, discrete electronic components such as, e.g. eg registers and FIFO, a processor that runs a set of microprogramming instructions, or any software module Conventional programmable and a processor. The processor can be conveniently a microprocessor, but in the alternative, the processor can be any processor, controller, microcontroller, or conventional state machine. The module of Software can reside in RAM, flash memory, registers, or any other form of known recordable storage medium in the technique Those with experience will also appreciate that data, instructions, commands, information, signals, bits, symbols, and chips, that could be referenced throughout the above description are advantageously represented by voltages, currents, electromagnetic waves, particles or fields magnetic, particles or optical fields, or any combination of the same.

Por tanto se han mostrado y descrito realizaciones preferidas de la presente invención. Resultará evidente sin embargo a aquellos con experiencia en la técnica, que pueden hacerse numerosas alteraciones a las realizaciones aquí reveladas sin apartarse del alcance de la invención tal como se define mediante las reivindicaciones.Therefore they have been shown and described Preferred embodiments of the present invention. Will result evident however to those with experience in the art, which numerous alterations to the embodiments can be made here disclosed without departing from the scope of the invention as it is defined by the claims.

Claims

1. A coding method in a system of voice coding, comprising the coding system of voice a first decoder (102,512) in a first encoder of voice (504) and a first encoder (100,505) in a second voice encoder (502), comprising the method:

: notificar a un segundo codificador (106,510) en el primer codificador de voz (504) si el primer decodificador (104,512) falla al recibir una trama transmitida por el primer codificador (100,506);notify a second encoder (106,510) in the first voice encoder (504) if the first decoder (104,512) fails to receive a frame transmitted by the first encoder (100,506);

: transmitir un paquete modificado desde el segundo codificador (106,510) a un segundo decodificador (110,508) en respuesta a la notificación; ytransmit a package modified from the second encoder (106,510) to a second decoder (110,508) in response to the notification; Y

: notificar al primer codificador (100,506) cuando el segundo decodificador (110,508) recibe el paquete modificado desde el segundo codificador (106,510), caracterizado por:Notify the first encoder (100,506) when the second decoder (110,508) receives the modified packet from the second encoder (106,510), characterized by:

: codificar un paquete en el primer codificador (100,506) con un formato de codificación modificado predictivo o no predictivo.encode a package in the first encoder (100,506) with a format of Modified predictive or non-predictive coding.

2. The method of claim 1, wherein the Modified package comprises a package with an indicator bit of deleted set to the digital value of one.

3. The method of claim 1, wherein the Modified predictive or non-predictive coding format It comprises a low memory coding scheme.

4. The method of claim 1, wherein the Modified predictive or non-predictive coding format It comprises a coding scheme without memory.

5. The method of claim 1, wherein the First voice encoder (504) lies in a subscriber unit (10) and the second voice encoder (502) lies in a station base (12) of a wireless communication system.

6. The method of claim 1, wherein the second voice encoder (502) lies in a subscriber unit (10) and:

the first voice encoder (504) lies in a base station (12) of a wireless communication system.

7. A voice coding system, which understands:

: un primer y un segundo codificadores de voz (502,504), incluyendo el primer codificador de voz (502) un primer codificador (100,506) y un primer decodificador (110,508), incluyendo el segundo codificador de voz (504) un segundo codificador (106,510) y un segundo decodificador (104, 512);a first and a second voice encoders (502,504), including the first voice encoder (502) a first encoder (100,506) and a first decoder (110,508), including the second encoder of voice (504) a second encoder (106,510) and a second decoder (104, 512);

: medios para notificar al segundo codificador (106,510) si el segundo decodificador (104,512) falla al recibir una trama transmitida por el primer codificador (100,506);means for notify the second encoder (106,510) if the second decoder (104,512) fails to receive a frame transmitted by the first encoder (100,506);

: medios para transmitir un paquete modificado desde el segundo codificador (106,510) al primer decodificador (110,508) en respuesta a la notificación; ymeans for transmit a modified packet from the second encoder (106,510) to the first decoder (110,508) in response to the notification; Y

: medios para notificar al primer codificador (100,506) cuando el primer decodificador (110,508) recibe el paquete modificado desde el segundo codificador (106,510), caracterizado por:means for notifying the first encoder (100,506) when the first decoder (110,508) receives the modified packet from the second encoder (106,510), characterized by:

: medios para codificar un paquete en el primer codificador (100,506) con un formato modificado de codificación predictivo o no predictivo.means for encode a packet in the first encoder (100,506) with a modified format of predictive coding or not predictive

8. The system of claim 7, wherein the Modified package comprises a package with an indicator bit of deleted set to the digital value of one.

9. The system of claim 7, wherein the Modified predictive or non-predictive coding format It comprises a low memory coding scheme.

10. The system of claim 7, wherein the Modified predictive or non-predictive coding format It comprises a coding scheme without memory.

11. The system of claim 7, wherein the First voice encoder (502) lies in a subscriber unit (10) and the second voice encoder (504) lies in a base station (12) of a wireless communication system.

12. The system of claim 7, wherein the second voice encoder (504) lies in a subscriber unit (10) and the first voice encoder (502) lies in a station base (12) of a wireless communication system.

13. The system of any of the claims 7 to 12, wherein:

: el primer codificador (100,506) se configura a codificar paquetes de tramas de voz y transmitir los paquetes a través de un canal de comunicación al segundo decodificador (104,512);the first Encoder (100,506) is configured to encode packet frames of voice and transmit the packets through a communication channel to the second decoder (104,512);

: el segundo decodificador (104,512) se configura para recibir y decodificar paquetes y comprende dichos medios para notificar al segundo codificador (106,510);the second decoder (104,512) is configured to receive and decode packages and comprises said means to notify the second encoder (106,510);

: el segundo codificador (106,510) se configura a codificar y transmitir paquetes y para modificar un paquete en respuesta a la notificación desde el secundo decodificador (104,512), comprendiendo el segundo codificador (106,510) dichos medios para transmitir un paquete modificado al primer decodificador (110,508);the second Encoder (106,510) is configured to encode and transmit packets and to modify a package in response to the notification from the second decoder (104,512), comprising the second encoder (106,510) said means for transmitting a packet modified to the first decoder (110,508);

: el primer decodificador (110, 508) comprende dichos medios para notificar al primer codificador (100,506) y se configura para recibir y decodificar paquetes y para enviar una señal al primer codificador (100,506) tras recibir un paquete modificado desde el segundo codificador (106,510), ythe first decoder (110, 508) comprises said means for notifying the first encoder (100,506) and is configured to receive and decode packets and to send a signal to the first encoder (100,506) after receiving a modified package from the second encoder (106,510), and

: el primer codificador (100,506) comprende los medios para codificar un paquete con un formato modificado de codificación predictivo o no predictivo en respuesta a la señal desde el primer decodificador (110,508).the first Encoder (100,506) comprises the means for encoding a packet with a modified format of predictive coding or not predictive in response to the signal from the first decoder (110,508).