ES2351935T3

ES2351935T3 - PROCEDURE AND APPARATUS FOR VECTOR QUANTIFICATION OF A SPECTRAL ENVELOPE REPRESENTATION.

Info

Publication number: ES2351935T3
Application number: ES06740351T
Authority: ES
Inventors: Koen Bernard c/o Qualcomm Incorporated VOS
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2005-04-01
Filing date: 2006-04-03
Publication date: 2011-02-14
Anticipated expiration: 2026-04-03
Also published as: CN101185120A; CN101184979B; UA95776C2; CN101185126A; UA92742C2; CN101185120B; CN101185127B; CN101185125A; CN101180677A; CN101185125B; CN101185126B; CN101180677B; ES2358125T3; CN101184979A; CN101185124A; UA93677C2; UA92341C2; CN101185124B; CN101185127A; CN101180676B

Abstract

Un procedimiento para un procesamiento de señales, comprendiendo dicho procedimiento: codificar una primera trama y una segunda trama de una señal de voz para producir vectores correspondientes primero y segundo, en el que el primer vector representa una envolvente espectral de la señal de voz durante la primera trama y el segundo vector representa una envolvente espectral de la señal de voz durante la segunda trama; generar un primer vector cuantificado, incluyendo dicha generación cuantificar un tercer vector que está basado en el primer vector, calcular un error de cuantificación del primer vector cuantificado; calcular un cuarto vector, incluyendo dicho cálculo añadir una versión a escala del error de cuantificación al segundo vector; y cuantificar el cuarto vector.A method for signal processing, said method comprising: encoding a first frame and a second frame of a voice signal to produce corresponding first and second vectors, in which the first vector represents a spectral envelope of the voice signal during the first frame and the second vector represents a spectral envelope of the voice signal during the second frame; generating a first quantified vector, including said generation quantifying a third vector that is based on the first vector, calculating a quantization error of the first quantized vector; calculate a fourth vector, said calculation including adding a scale version of the quantization error to the second vector; and quantify the fourth vector.

Description

FIELD OF THE INVENTION

La presente invención versa acerca un procesamiento de señales. The present invention is about signal processing.

BACKGROUND

Un codificador de voz envía una caracterización de la envolvente espectral de una señal de voz a un decodificador en forma de un vector de frecuencias espectrales de línea (LSF) o una representación similar. Para una transmisión eficaz, se cuantifican estas LSF. A voice encoder sends a spectral envelope characterization of a voice signal to a decoder in the form of a line spectral frequency vector (LSF) or a similar representation. For efficient transmission, these LSFs are quantified.

“Error Spectrum Shaping and Vector Quantization”, de Jon Dattorro y Christine Law, publicado en octubre de 1997, demuestra en forma de informe experimental que la información de retorno del error de truncamiento no tiene éxito en la cuantificación de imágenes fijas. "Error Spectrum Shaping and Vector Quantization," by Jon Dattorro and Christine Law, published in October 1997, demonstrates in the form of an experimental report that the return information of the truncation error is not successful in quantifying still images.

SUMMARY

En un aspecto de la invención, se proporciona un procedimiento para un procesamiento de señales como se expone en la reivindicación 1. In one aspect of the invention, there is provided a method for signal processing as set forth in claim 1.

En un aspecto adicional de la invención, se proporciona un aparato para un procesamiento de señales como se expone en la reivindicación 8. También se proporciona un medio legible por ordenador como se expone en la reivindicación 18. In a further aspect of the invention, an apparatus is provided for signal processing as set forth in claim 8. A computer-readable medium is also provided as set forth in claim 18.

Un cuantificador, según una realización, está configurado para cuantificar un valor aplanado de un valor de entrada (tal como un vector de frecuencias espectrales de línea o una porción de las mismas) para producir un valor correspondiente de salida, basándose el valor aplanado en un factor de escala y en un error de cuantificación de un valor de salida anterior. A quantifier, according to one embodiment, is configured to quantify a flattened value of an input value (such as a vector of line spectral frequencies or a portion thereof) to produce a corresponding output value, based on the flattened value on a scale factor and in a quantization error of a previous output value.

BRIEF DESCRIPTION OF THE DRAWINGS

La FIGURA 1a muestra un diagrama de bloques de un codificador E100 de voz según una realización. FIGURE 1a shows a block diagram of a voice E100 encoder according to one embodiment.

La FIGURA 1b muestra un diagrama de bloques de un codificador E200 de voz. FIGURE 1b shows a block diagram of a voice E200 encoder.

La FIGURA 2 muestra un ejemplo de una correspondencia unidimensional llevada a cabo normalmente por medio de un cuantificador escalar. FIGURE 2 shows an example of a one-dimensional correspondence normally carried out by means of a scalar quantifier.

La FIGURA 3 muestra un ejemplo sencillo de una correspondencia multidimensional según se lleva a cabo por medio de un cuantificador vectorial. FIGURE 3 shows a simple example of a multidimensional correspondence as carried out by means of a vector quantifier.

La FIGURA 4a muestra un ejemplo de una señal unidimensional, y la FIGURA 4b muestra un ejemplo de una versión de esta señal después de ser cuantificada. FIGURE 4a shows an example of a one-dimensional signal, and FIGURE 4b shows an example of a version of this signal after being quantified.

La FIGURA 4c muestra un ejemplo de la señal de la FIGURA 4a según es cuantificada por un cuantificador 230b, como se muestra en la FIGURA 6. FIGURE 4c shows an example of the signal of FIGURE 4a as quantified by a quantifier 230b, as shown in FIGURE 6.

La FIGURA 4d muestra un ejemplo de la señal de la FIGURA 4a según es cuantificada por un cuantificador 230a, como se muestra en la FIGURA 5. FIGURE 4d shows an example of the signal of FIGURE 4a as quantified by a quantifier 230a, as shown in FIGURE 5.

La FIGURA 5 muestra un diagrama de bloques de una implementación 230a de un cuantificador 230 según una realización. FIGURE 5 shows a block diagram of an implementation 230a of a quantizer 230 according to one embodiment.

La FIGURA 6 muestra un diagrama de bloques de una implementación 230b de un cuantificador 230 según una realización. FIGURE 6 shows a block diagram of an implementation 230b of a quantizer 230 according to one embodiment.

La FIGURA 7a muestra un ejemplo de un gráfico de amplitud logarítmica en función de la frecuencia para una señal de voz. FIGURE 7a shows an example of a logarithmic amplitude plot as a function of the frequency for a voice signal.

La FIGURA 7b muestra un diagrama de bloques de un sistema de codificación de predicción lineal básica. FIGURE 7b shows a block diagram of a basic linear prediction coding system.

La FIGURA 8 muestra un diagrama de bloques de una implementación A122 de un codificador A 120 de banda estrecha. FIGURE 8 shows a block diagram of an A122 implementation of a narrowband encoder A 120.

La FIGURA 9 muestra un diagrama de bloques de una implementación B112 de un decodificador B110 de banda estrecha. FIGURE 9 shows a block diagram of an implementation B112 of a narrow band decoder B110.

La FIGURA 10a es un diagrama de bloques de un codificador A100 de voz de banda ancha. FIGURE 10a is a block diagram of a broadband voice encoder A100.

La FIGURA 10b es un diagrama de bloques de una implementación A102 de un codificador A 100 de voz de banda ancha. FIGURE 10b is a block diagram of an A102 implementation of a broadband voice encoder A 100.

La FIGURA 11a es un diagrama de bloques de un decodificador B100 de voz de banda ancha correspondiente al codificador A100 de voz de banda ancha. FIGURE 11a is a block diagram of a broadband voice decoder B100 corresponding to the broadband voice encoder A100.

La FIGURA 11b es un ejemplo de un decodificador B102 de voz de banda ancha correspondiente al codificador A102 de voz de banda ancha. FIGURE 11b is an example of a broadband voice decoder B102 corresponding to the broadband voice encoder A102.

DETAILED DESCRIPTION

Debido al error de cuantificación, la envolvente espectral reconstruida en el decodificador puede exhibir fluctuaciones excesivas. Estas fluctuaciones pueden producir una calidad “vibrada” inaceptable en la señal decodificada. Las realizaciones incluyen sistemas, procedimientos, y aparatos configurados para llevar a cabo una codificación de alta calidad de voz de banda ancha utilizando una cuantificación de formación de ruido temporal de parámetros de envolvente espectral. Las características incluyen un aplanamiento fijo o adaptable de representaciones de coeficientes, tales como LSF de banda alta. Las aplicaciones particulares descritas en el presente documento incluyen un codificador de voz de banda ancha que combina una señal de banda estrecha con una señal de banda alta. Due to the quantization error, the reconstructed spectral envelope in the decoder may exhibit excessive fluctuations. These fluctuations can produce an unacceptable "vibrated" quality in the decoded signal. Embodiments include systems, procedures, and apparatus configured to perform high quality broadband voice coding using a quantification of temporal noise formation of spectral envelope parameters. Features include a fixed or adaptable flattening of coefficient representations, such as high band LSF. The particular applications described herein include a broadband voice encoder that combines a narrow band signal with a high band signal.

A no ser que se limite expresamente por su contexto, el término “calcular” se utiliza en el presente documento para indicar cualquiera de sus significados normales, tal como calcular, generar, y seleccionar de una lista de valores. Cuando se utiliza el término “comprender” en la presente invención y en las reivindicaciones, no excluye otros elementos u operaciones. Se utiliza la expresión “A está basado en B” para indicar cualquiera de sus significados normales, incluyendo los casos (i) “A es igual a B” y (ii) “A está basado al menos en B”. La expresión “Protocolo de Internet” incluye la versión 4, según se describe en el IETF (Internet Engineering Task Force) RFC (Request for Comments) 791, y versiones subsiguientes como la versión 6. Unless expressly limited by context, the term "calculate" is used herein to indicate any of its normal meanings, such as calculate, generate, and select from a list of values. When the term "understand" is used in the present invention and in the claims, it does not exclude other elements or operations. The expression "A is based on B" is used to indicate any of its normal meanings, including cases (i) "A is equal to B" and (ii) "A is based on at least B". The term "Internet Protocol" includes version 4, as described in IETF (Internet Engineering Task Force) RFC (Request for Comments) 791, and subsequent versions such as version 6.

Se puede implementar un codificador de voz según un modelo de fuente-filtro que codifica la señal de voz de entrada como un conjunto de parámetros que describen un filtro. Por ejemplo, una envolvente espectral de una señal de voz se caracteriza por un número de picos que representan resonancias del aparato vocal y son denominados formantes. La FIGURA 7a muestra un ejemplo de tal envolvente espectral. La mayoría de los codificadores de voz codifican al menos esta estructura espectral grosera como un conjunto de parámetros, tal como coeficientes del filtro. A voice encoder can be implemented according to a source-filter model that encodes the input voice signal as a set of parameters that describe a filter. For example, a spectral envelope of a voice signal is characterized by a number of peaks that represent resonances of the vocal apparatus and are called formants. FIGURE 7a shows an example of such a spectral envelope. Most voice encoders encode at least this gross spectral structure as a set of parameters, such as filter coefficients.

La FIGURA 1a muestra un diagrama de bloques de un codificador E100 de voz según una realización. Como se muestra en este ejemplo, se puede implementar el módulo de análisis como un módulo 210 de análisis de codificación de predicción lineal (LPC) que codifica la envolvente espectral de la señal S1 de voz como un conjunto de coeficientes de predicción lineal (LP) (por ejemplo, coeficientes de un filtro todo polos 1/A(z)). Normalmente, el módulo de análisis procesa la señal de entrada como una serie de tramas no solapantes, calculándose un nuevo conjunto de coeficientes para cada trama. En general, el periodo de la trama es un periodo durante el cual se puede esperar que la señal sea estacionaria localmente; un ejemplo común es de 20 milisegundos (equivalente a 160 muestras a una tasa de muestreo de 8 kHz). Un ejemplo de un módulo de análisis de la LPC de banda baja (como se muestra, por ejemplo, en la FIGURA 8 como el módulo 210 de análisis de la LPC) está configurado para calcular un conjunto de diez coeficientes de filtro de LP para caracterizar la estructura formante de cada trama de 20 milisegundos de la señal S20 de banda estrecha, y un ejemplo de un módulo de análisis de la LPC de banda alta (como se muestra, por ejemplo, en la FIGURA 10a como el codificador A200 de banda alta) está configurado para calcular un conjunto de seis (de forma alternativa, ocho) coeficientes de filtro de LP para caracterizar la estructura formante de cada trama de 20 milisegundos de la señal S30 de banda alta. También es posible implementar el módulo de análisis para procesar la señal de entrada como una serie de tramas solapantes. FIGURE 1a shows a block diagram of a voice E100 encoder according to one embodiment. As shown in this example, the analysis module can be implemented as a linear prediction coding analysis (LPC) module 210 that encodes the spectral envelope of the voice signal S1 as a set of linear prediction coefficients (LP) (for example, coefficients of an all-pole filter 1 / A (z)). Normally, the analysis module processes the input signal as a series of non-overlapping frames, calculating a new set of coefficients for each frame. In general, the frame period is a period during which the signal can be expected to be locally stationary; A common example is 20 milliseconds (equivalent to 160 samples at an 8 kHz sampling rate). An example of a low-band LPC analysis module (as shown, for example, in FIGURE 8 as the LPC analysis module 210) is configured to calculate a set of ten LP filter coefficients to characterize the formation structure of each 20 millisecond frame of the narrowband signal S20, and an example of a high-band LPC analysis module (as shown, for example, in FIGURE 10a as the high-band encoder A200 ) is configured to calculate a set of six (alternatively, eight) LP filter coefficients to characterize the formative structure of each 20 millisecond frame of the high band signal S30. It is also possible to implement the analysis module to process the input signal as a series of overlapping frames.

El módulo de análisis puede estar configurado para analizar las muestras de cada trama directamente, o se pueden ponderar las muestras en primer lugar según una función de ventanas (por ejemplo, una ventana de Hamming). También se puede llevar a cabo el análisis en una ventana que es mayor que la trama, tal como una ventana de 30 mseg. Esta ventana puede ser simétrica (por ejemplo, 5-20-5, de forma que incluya los 5 milisegundos inmediatamente antes y después de la trama de 20 milisegundos) o ser asimétrica (por ejemplo, 10-20, de forma que incluya los últimos 10 milisegundos de la trama precedente). Normalmente, hay un módulo de análisis de LPC configurado para calcular los coeficientes de filtro de LP utilizando una recursión de Levinson-Durbin o el algoritmo de Leroux-Gueguen. En otra implementación, el módulo de análisis puede estar configurado para calcular un conjunto de coeficientes cepstrales para cada trama en vez de un conjunto de coeficientes de filtro de LP. The analysis module can be configured to analyze the samples of each frame directly, or the samples can be weighted first according to a function of windows (for example, a Hamming window). The analysis can also be carried out in a window that is larger than the frame, such as a 30 msec window. This window can be symmetric (for example, 5-20-5, so that it includes the 5 milliseconds immediately before and after the 20 millisecond frame) or be asymmetric (for example, 10-20, so that it includes the last 10 milliseconds of the previous plot). Normally, there is an LPC analysis module configured to calculate the LP filter coefficients using a Levinson-Durbin recursion or the Leroux-Gueguen algorithm. In another implementation, the analysis module may be configured to calculate a set of cepstral coefficients for each frame instead of a set of LP filter coefficients.

Se puede reducir de forma significativa la tasa de transmisión de bits de salida de un codificador de voz, con un efecto relativamente pequeño sobre la calidad de reproducción, al cuantificar los parámetros del filtro. Los coeficientes del filtro de predicción lineal son difíciles de cuantificar de forma eficaz y normalmente el codificador de voz establece una correspondencia entre ellos y otra representación, tal como pares espectrales de línea (LSP) o frecuencias espectrales de línea (LSF), para la cuantificación y/o la codificación entrópica. El codificador E100 de voz, según se muestra en la FIGURA 1a incluye una transformada 220 del coeficiente del filtro de LP a LSF configurado para transformar el conjunto de coeficientes de filtro de LP en un vector correspondiente de LSF S3. Otras representaciones de uno a uno de coeficientes de filtro de LP incluyen coeficientes parcor; valores de la relación logaritmo-área; pares espectrales de inmitancia (ISP); y frecuencias espectrales de inmitancia (ISF), que son utilizadas en el códec GSM (Sistema global para comunicaciones móviles) AMR-WB (Ancho de banda multitasa adaptable). Normalmente, se puede invertir una transformada entre un conjunto de coeficientes de filtro de LP y un conjunto correspondiente de LSF, pero las realizaciones también incluyen implementaciones de un codificador de voz en las que la transformada no es reversible sin error. The rate of transmission of output bits of a speech encoder can be significantly reduced, with a relatively small effect on playback quality, by quantifying the filter parameters. Linear prediction filter coefficients are difficult to quantify effectively and normally the voice encoder establishes a correspondence between them and another representation, such as line spectral pairs (LSP) or line spectral frequencies (LSF), for quantification and / or entropic coding. The voice encoder E100, as shown in FIGURE 1a includes a transform 220 of the LP to LSF filter coefficient configured to transform the set of LP filter coefficients into a corresponding vector of LSF S3. Other one-to-one representations of LP filter coefficients include parcor coefficients; logarithm-area relationship values; immitance spectral pairs (ISP); and immitance spectral frequencies (ISF), which are used in the GSM codec (Global System for Mobile Communications) AMR-WB (Adaptive Multitasking Bandwidth). Normally, a transform between a set of LP filter coefficients and a corresponding set of LSF can be reversed, but the embodiments also include implementations of a speech encoder in which the transform is not reversible without error.

Normalmente, un codificador de voz incluye un cuantificador configurado para cuantificar el conjunto de LSF de banda estrecha (u otra representación de coeficientes) y para dar salida al resultado de esta cuantificación como los parámetros del filtro. Normalmente, la cuantificación se lleva a cabo utilizando un cuantificador vectorial que codifica el vector de entrada como un índice a una entrada de vector correspondiente en una tabla o en una lista de claves. También se puede configurar dicho cuantificador para llevar a cabo una cuantificación vectorial clasificada. Por ejemplo, se puede configurar tal cuantificador para seleccionar uno de un conjunto de códigos en base a la información que ya ha sido codificada dentro de la misma trama (por ejemplo, en el canal de banda baja y/o en el canal de banda alta). Normalmente, tal técnica proporciona una mayor eficacia de codificación a expensas de un almacenamiento adicional de códigos. Normally, a voice encoder includes a quantifier configured to quantify the narrowband LSF set (or other coefficient representation) and to output the result of this quantification as the filter parameters. Normally, quantification is carried out using a vector quantifier that encodes the input vector as an index to a corresponding vector entry in a table or in a list of keys. This quantifier can also be configured to perform a classified vector quantification. For example, such a quantifier can be configured to select one of a set of codes based on information that has already been encoded within the same frame (for example, in the low band channel and / or in the high band channel ). Typically, such a technique provides greater coding efficiency at the expense of additional code storage.

La FIGURA 1b muestra un diagrama de bloques de un decodificador correspondiente E200 de voz que incluye un cuantificador inverso 310 configurado para descuantificar las LSF cuantificadas S3, y una transformada 320 del coeficiente de filtro de LSF a LP configurada para transformar el vector LSF descuantificado en un conjunto de coeficientes de filtro de LP. Normalmente, se activa un filtro 330 de síntesis, configurado según los coeficientes de filtro de LP, por medio de una señal de excitación para producir una reproducción sintetizada, es decir, una señal decodificada S5 de voz, de la señal de entrada de voz. La señal de excitación puede estar basada en una señal aleatoria de ruido y/o en una representación cuantificada de la señal residual según es enviada por el codificador. En algunos codificadores multibanda, tal como un codificador A100 de voz de banda ancha y un decodificador B 100 (según se describe en el presente documento con referencia, por ejemplo, a las FIGURAS 10a, b y 11a, b), la señal de excitación para una banda está derivada de la señal de excitación para otra banda. FIGURE 1b shows a block diagram of a corresponding voice decoder E200 that includes a reverse quantizer 310 configured to quantify the quantified LSF S3, and a transform 320 of the LSF to LP filter coefficient configured to transform the quantified LSF vector into a set of LP filter coefficients. Normally, a synthesis filter 330 is activated, configured according to the LP filter coefficients, by means of an excitation signal to produce a synthesized reproduction, that is, a decoded voice signal S5, of the voice input signal. The excitation signal may be based on a random noise signal and / or a quantized representation of the residual signal as it is sent by the encoder. In some multiband encoders, such as a broadband voice encoder A100 and a decoder B 100 (as described herein with reference, for example, to FIGURES 10a, b and 11a, b), the excitation signal for One band is derived from the excitation signal for another band.

La cuantificación de las LSF introduce un error aleatorio que no está correlacionado normalmente de una trama a la siguiente. Este error puede provocar que las LSF cuantificadas sean menos planas que las LSF no cuantificadas y puede reducir la calidad perceptual de la señal decodificada. La cuantificación independiente de los vectores LSF aumenta en general la cantidad de fluctuación espectral de trama a trama en comparación con los vectores LSF no cuantificados, y estas fluctuaciones espectrales pueden provocar que la señal decodificada suene antinatural. The quantification of the LSF introduces a random error that is not normally correlated from one frame to the next. This error can cause quantified LSFs to be less flat than unquantified LSFs and can reduce the perceptual quality of the decoded signal. Independent quantification of LSF vectors generally increases the amount of frame-to-frame spectral fluctuation compared to unquantified LSF vectors, and these spectral fluctuations can cause the decoded signal to sound unnatural.

Knagenhjelm y Kleijn propusieron una solución complicada, en la que se lleva a cabo un aplanamiento de los parámetros LSF descuantificados en el decodificador. Esto reduce las fluctuaciones espectrales, pero a expensas de un retraso adicional. La presente solicitud describe procedimientos que utilizan una formación de ruido temporal en el lado del codificador, de forma que se pueden reducir las fluctuaciones espectrales sin un retraso adicional. Knagenhjelm and Kleijn proposed a complicated solution, in which a flattening of the unquantified LSF parameters is carried out in the decoder. This reduces spectral fluctuations, but at the expense of an additional delay. The present application describes procedures that use a temporary noise formation on the encoder side, so that spectral fluctuations can be reduced without further delay.

Típicamente, un cuantificador está configurado para establecer una correspondencia entre un valor de entrada y uno de un conjunto de valores diferenciados de salida. Hay disponible un número de valores de salida, de forma que se establece una correspondencia entre un intervalo de valores de entrada y un único valor de salida. La cuantificación aumenta la eficacia de codificación porque se puede transmitir un índice que indica el valor correspondiente de salida en menos bits que el valor original de entrada. La FIGURA 2 muestra un ejemplo de una correspondencia unidimensional realizada típicamente por un cuantificador escalar. Typically, a quantifier is configured to correspond between an input value and one of a set of differentiated output values. A number of output values are available, so that a correspondence between a range of input values and a single output value is established. Quantification increases the coding efficiency because an index indicating the corresponding output value can be transmitted in fewer bits than the original input value. FIGURE 2 shows an example of a one-dimensional correspondence typically performed by a scalar quantifier.

El cuantificador podría ser igualmente bien un cuantificador vectorial, y las LSF están cuantificadas normalmente utilizando un cuantificador vectorial. La FIGURA 3 muestra un ejemplo sencillo de una correspondencia multidimensional según se lleva a cabo por un cuantificador vectorial. En este ejemplo, se divide el espacio de entrada en un número de regiones de Voronoi (por ejemplo, según un criterio del vecino más cercano). La cuantificación establece una correspondencia entre cada valor de entrada y un valor que representa la región de Voronoi correspondiente (normalmente, el centroide), mostrado aquí como un punto. En este ejemplo, se divide el espacio de entrada en seis regiones, de forma que se puede representar cualquier valor de entrada por medio de un índice que únicamente tiene seis estados distintos. The quantifier could equally well be a vector quantifier, and LSFs are normally quantified using a vector quantifier. FIGURE 3 shows a simple example of a multidimensional correspondence as carried out by a vector quantifier. In this example, the input space is divided into a number of Voronoi regions (for example, according to a criterion of the nearest neighbor). The quantification establishes a correspondence between each input value and a value that represents the corresponding Voronoi region (usually, the centroid), shown here as a point. In this example, the input space is divided into six regions, so that any input value can be represented by an index that has only six different states.

Si la señal de entrada es muy plana, a veces puede producirse que la salida cuantificada es mucho menos plana, según un paso mínimo entre valores en el espacio de salida de la cuantificación. La FIGURA 4a muestra un ejemplo de una señal unidimensional plana que varía únicamente dentro de un nivel de cuantificación (solamente se muestra aquí un nivel tal), y la FIGURA 4b muestra un ejemplo de esta señal después de la cuantificación. Aunque la entrada de la FIGURA 4a varía únicamente en un pequeño intervalo, la salida resultante en la FIGURA 4b contiene más transiciones bruscas y es mucho menos plana. Tal efecto puede dar lugar a desperfectos audibles, y puede ser deseable reducir este efecto para las LSF (u otras representaciones de la envolvente espectral que va a ser cuantificada). Por ejemplo, se puede mejorar el rendimiento de cuantificación de las LSF al incorporar una formación de ruido temporal. If the input signal is very flat, it can sometimes occur that the quantized output is much less flat, according to a minimum step between values in the quantization output space. FIGURE 4a shows an example of a flat one-dimensional signal that varies only within a quantification level (only one such level is shown here), and FIGURE 4b shows an example of this signal after quantification. Although the input of FIGURE 4a varies only in a small range, the resulting output in FIGURE 4b contains more abrupt transitions and is much less flat. Such an effect may result in audible damage, and it may be desirable to reduce this effect for LSFs (or other representations of the spectral envelope to be quantified). For example, the quantification performance of LSFs can be improved by incorporating a temporary noise formation.

En un procedimiento según una realización, se estima un vector de parámetros de envolvente espectral una vez para cada trama (u otro bloque) de voz en el codificador. Se cuantifica el vector de parámetros para una transmisión eficaz al decodificador. Después de la cuantificación, se almacena el error de cuantificación (definido como la diferencia entre un vector de parámetros cuantificado y descuantificado). Se reduce el error de cuantificación de la trama N-1 por medio de un factor de escala y se añade al vector de parámetros de la trama N, antes de cuantificar el vector de parámetros de la trama N. Puede ser deseable para el valor del factor de escala ser menor cuando la diferencia entre las envolventes espectrales estimadas actuales y las anteriores es relativamente grande. In a method according to one embodiment, a spectral envelope parameter vector is estimated once for each voice frame (or other block) in the encoder. The parameter vector is quantified for efficient transmission to the decoder. After quantification, the quantization error is stored (defined as the difference between a quantized and unquantified parameter vector). The quantization error of the N-1 frame is reduced by means of a scale factor and added to the frame vector of frame N, before quantifying the parameter vector of the frame N. It may be desirable for the value of the Scaling factor be smaller when the difference between current and previous estimated spectral envelopes is relatively large.

En un procedimiento según una realización, se calcula el vector de errores de cuantificación de LSF para cada trama y se multiplica por un factor de escala b que tiene un valor inferior a 1,0. Antes de la cuantificación, se añade el error de cuantificación a escala para la anterior trama al vector LSF (valor de entrada V10). Se puede describir una operación de cuantificación In a procedure according to one embodiment, the LSF quantization error vector for each frame is calculated and multiplied by a scale factor b having a value less than 1.0. Before quantification, the scale quantification error for the previous frame is added to the LSF vector (input value V10). A quantification operation can be described

5 5

10 10

15 fifteen

20 twenty

25 25

30 30

7 7

de tal procedimiento por medio de una expresión, tal como la siguiente: of such a procedure by means of an expression, such as the following:

() = Q(() n + by n −1) − s(n −1)]), () = Q (() n + by n −1) - s (n −1)]),

yn s [( yn s [(

en la que s(n) es el vector LSF aplanado que pertenece a la trama n, y(n) es el vector LSF cuantificado que pertenece a la trama n, Q (⋅) es una operación de cuantificación de vecino más cercano, y b es el factor de escala. in which s (n) is the flattened LSF vector belonging to frame n, and (n) is the quantified LSF vector belonging to frame n, Q (⋅) is a nearest neighbor quantification operation, and b It is the scale factor.

Un cuantificador 230 según una realización está configurado para producir un valor cuantificado de salida V30 de un valor aplanado V20 de un valor de entrada V10 (por ejemplo, un vector LSF), basándose el valor aplanado V20 en un factor de escala V40 y un error de cuantificación de un valor anterior de salida V30. Se puede aplicar tal cuantificador para reducir las fluctuaciones espectrales sin un retraso adicional. La FIGURA 5 muestra un diagrama de bloques de una implementación 230a del cuantificador 230, en el cual los valores que pueden ser particulares a esta implementación están indicados por el índice a. En este ejemplo, se calcula un error de cuantificación al restar el valor actual de entrada V10 del valor actual de salida V30a según es descuantificado por el cuantificador inverso Q20. Se almacena el error en un elemento DE10 de retraso. El valor aplanado V20a es una suma del valor actual de entrada V10 y del error de cuantificación de la trama anterior según cambia su escala (por ejemplo, multiplicado) por medio del factor de escala V40. También se puede implementar el cuantificador 230a de forma que se aplica el factor de escala V40 antes del almacenamiento del error de cuantificación en el elemento DE10 de retraso en su lugar. A quantizer 230 according to one embodiment is configured to produce a quantized output value V30 of a flattened value V20 of an input value V10 (for example, an LSF vector), the flattened value V20 based on a scale factor V40 and an error of quantification of a previous output value V30. Such a quantifier can be applied to reduce spectral fluctuations without additional delay. FIGURE 5 shows a block diagram of an implementation 230a of quantizer 230, in which the values that may be particular to this implementation are indicated by index a. In this example, a quantization error is calculated by subtracting the current input value V10 from the current output value V30a as quantified by the inverse quantizer Q20. The error is stored in a delay element DE10. The flattened value V20a is a sum of the current input value V10 and the quantization error of the previous frame as its scale changes (for example, multiplied) by means of the scale factor V40. The quantifier 230a can also be implemented so that the scale factor V40 is applied before storing the quantization error in the delay element DE10 instead.

La FIGURA 4d muestra un ejemplo de una secuencia (descuantificada) de valores de salida V30a según son producidos por el cuantificador 230a en respuesta a la señal de entrada de la FIGURA 4a. En este ejemplo, el valor del factor de escala V40 está fijado en 0,5. Se puede ver que la señal de la FIGURA 4d es más plana que la señal fluctuante de la FIGURA 4a. FIGURE 4d shows an example of a (unquantified) sequence of output values V30a as produced by quantizer 230a in response to the input signal of FIGURE 4a. In this example, the value of the scale factor V40 is set to 0.5. It can be seen that the signal of FIGURE 4d is flatter than the fluctuating signal of FIGURE 4a.

Puede ser deseable utilizar una función recursiva para calcular la cantidad reintroducida. Por ejemplo, se puede calcular el error de cuantificación con respecto al valor actual de entrada en vez de con respecto al valor actual aplanado. Se puede describir dicho procedimiento por medio de una expresión tal como la siguiente: It may be desirable to use a recursive function to calculate the amount reintroduced. For example, the quantization error can be calculated with respect to the current input value instead of with respect to the current flattened value. Such a procedure can be described by means of an expression such as the following:

n Qs () n [n Qs () n [

y() = [ ( )], n sn = x() + by (n −1) − s(n −1)], y () = [()], n sn = x () + by (n −1) - s (n −1)],

en la que x(n) es el vector LSF de entrada que pertenece a la trama n. where x (n) is the input LSF vector belonging to frame n.

La FIGURA 6 muestra un diagrama de bloques de una implementación 230b del cuantificador 230, en la que los valores que pueden ser particulares a esta implementación están indicados por el índice b. En este ejemplo, se calcula un error de cuantificación al restar el valor actual del valor aplanado V20b del valor actual de salida V30b según es descuantificado por el cuantificador inverso Q20. Se almacena el error en el elemento DE10 de retraso. El valor aplanado V20b es una suma del valor actual de entrada V10 y del error de cuantificación de la trama anterior según cambia su escala (por ejemplo, multiplicado) por medio del factor de escala V40. También se puede implementar el cuantificador 230b de forma que se aplique el factor de escala V40 antes del almacenamiento del error de cuantificación en el elemento DE10 de retraso en su lugar. También es posible utilizar distintos valores de factor de escala V40 en la implementación 230a a diferencia de la implementación 230b. FIGURE 6 shows a block diagram of an implementation 230b of quantizer 230, in which the values that may be particular to this implementation are indicated by index b. In this example, a quantization error is calculated by subtracting the current value of the flattened value V20b from the current output value V30b as quantified by the inverse quantizer Q20. The error is stored in delay element DE10. The flattened value V20b is a sum of the current input value V10 and the quantization error of the previous frame as its scale changes (for example, multiplied) by means of the scale factor V40. Quantifier 230b can also be implemented so that the scale factor V40 is applied before storing the quantization error in the delay element DE10 instead. It is also possible to use different V40 scale factor values in implementation 230a as opposed to implementation 230b.

La FIGURA 4c muestra un ejemplo de una secuencia (descuantificada) de valores de salida V30b tal como es producida por el cuantificador 230b en respuesta a la señal de entrada de la FIGURA 4a. En este ejemplo, el valor del factor de escala V40 está fijado en 0,5. Puede verse que la señal de la FIGURA 4c es más plana que la señal fluctuante de la FIGURA 4a. FIGURE 4c shows an example of a (unquantified) sequence of output values V30b as produced by quantizer 230b in response to the input signal of FIGURE 4a. In this example, the value of the scale factor V40 is set to 0.5. It can be seen that the signal of FIGURE 4c is flatter than the fluctuating signal of FIGURE 4a.

Se hace notar que se pueden implementar las realizaciones según son mostradas en el presente documento al sustituir o aumentar un cuantificador existente Q10 según una disposición como se muestra en la FIGURA 5 o 6. Por ejemplo, se puede implementar el cuantificador Q10 como un cuantificador vectorial predictivo, un cuantificador de múltiples etapas, un cuantificador del vector de separadores, o según cualquier otro modelo de cuantificación LSF. It is noted that embodiments can be implemented as shown herein by replacing or augmenting an existing quantifier Q10 according to an arrangement as shown in FIGURE 5 or 6. For example, quantifier Q10 can be implemented as a vector quantifier. predictive, a multistage quantifier, a quantifier of the separator vector, or according to any other LSF quantification model.

En un ejemplo, el valor del factor de escala está fijado en un valor deseado entre 0 y 1. De forma alternativa, puede ser deseable ajustar el valor del factor de escala de forma dinámica. Por ejemplo, puede ser deseable ajustar el valor del factor de escala dependiendo del grado de fluctuación ya presente en los vectores LSF no cuantificados. Cuando la diferencia entre los vectores LSF actual y previo es grande, el factor de escala es cercano a cero y, como resultado, casi no se forma ruido. Cuando el vector LSF actual difiere poco del anterior, el factor de escala es cercano a 1,0. De tal forma, se pueden retener las transiciones en la envolvente espectral en el tiempo, minimizando la distorsión espectral cuando la señal de voz cambia, mientras que se pueden reducir las fluctuaciones espectrales cuando la señal de voz es relativamente constante de una trama a la siguiente. In one example, the scale factor value is set to a desired value between 0 and 1. Alternatively, it may be desirable to adjust the scale factor value dynamically. For example, it may be desirable to adjust the value of the scale factor depending on the degree of fluctuation already present in the unquantified LSF vectors. When the difference between the current and previous LSF vectors is large, the scale factor is close to zero and, as a result, almost no noise is formed. When the current LSF vector differs little from the previous one, the scale factor is close to 1.0. Thus, transitions in the spectral envelope can be retained over time, minimizing spectral distortion when the voice signal changes, while spectral fluctuations can be reduced when the voice signal is relatively constant from one frame to the next. .

Se puede hacer que el valor del factor de escala sea proporcional a la distancia entre LSF consecutivas, y se puede utilizar cualquiera de diversas distancias entre vectores para determinar el cambio entre LSF. Normalmente, se utiliza la norma euclídea, pero otras que pueden utilizarse incluyen la distancia de Manhattan (norma 1), la distancia de Chebyshev (norma infinita), la distancia de Mahalanobis, la distancia de Hamming. The scale factor value can be made proportional to the distance between consecutive LSFs, and any of several distances between vectors can be used to determine the change between LSF. Normally, the Euclidean norm is used, but others that can be used include the distance of Manhattan (norm 1), the distance of Chebyshev (infinite norm), the distance of Mahalanobis, the distance of Hamming.

Puede ser deseable utilizar una medición ponderada de distancia para determinar un cambio entre vectores LSF consecutivos. Por ejemplo, se puede calcular la distancia d según una expresión tal como la siguiente: It may be desirable to use a weighted distance measurement to determine a change between consecutive LSF vectors. For example, distance d can be calculated according to an expression such as the following:

P ) P)

22

d = ∑ci (li − li ), d = ∑ci (li-li),

i=1 i = 1

) )

en la que l indica el vector LSF actual, l indica el vector LSF anterior, P indica el número de in which l indicates the current LSF vector, l indicates the previous LSF vector, P indicates the number of

5 elementos en cada vector LSF, el índice i indica el elemento vectorial LSF, y c indica un vector de factores de ponderación. Se pueden seleccionar los valores de c para resaltar los componentes de menor frecuencia que son más significativos perceptualmente. En un ejemplo, ci tiene el valor de 1,0 para i entre 1 y 8, de 0,8 para i = 9, y de 0,4 para i = 10. En otro ejemplo, se puede calcular la distancia d entre vectores LSF consecutivos según una 5 elements in each LSF vector, the index i indicates the vector element LSF, and c indicates a vector of weighting factors. The values of c can be selected to highlight the less frequent components that are significantly more significant. In one example, ci has the value of 1.0 for i between 1 and 8, 0.8 for i = 9, and 0.4 for i = 10. In another example, the distance d between vectors can be calculated Consecutive LSF according to a

10 expresión tal como la siguiente: 10 expression such as the following:

P ) P)

22

d = cw (l − l ), d = cw (l - l),

∑ iii i i=1 ∑ iii i i = 1

En la que w indica un vector de factores variables de ponderación. En un ejemplo tal, wi tiene el valor P(fi)r , en la que P denota la LPC espectro de potencia evaluada en la frecuencia correspondiente f,y r es una constante que tiene un valor típico, por ejemplo, de 0,15 o 0,3. En In which w indicates a vector of variable weighting factors. In such an example, wi has the value P (fi) r, in which P denotes the LPC power spectrum evaluated at the corresponding frequency f, and r is a constant that has a typical value, for example, of 0.15 or 0.3. In

15 otro ejemplo, los valores de w están seleccionados según una función ponderada utilizada en el estándar ITU-T G.729: In another example, the values of w are selected according to a weighted function used in the ITU-T G.729 standard:

1.0 if (2 (l −l) −1)> 0

⎧ π ⎧ π

i+1 i−1 i + 1 i − 1

w = ,w =,

i ⎨ π 2i ⎨ π 2

10 (2 (l −l) −1) +1 otherwise

⎩ i+1 i−1 ⎩ i + 1 i − 1

Estando seleccionados los valores límite cercanos a 0 y 0,5 en lugar de li-1 y li+1 para los elementos más bajo y más alto de w, respectivamente. En tales casos, ci puede tener los 20 valores indicados anteriormente. En otro ejemplo, ci tiene el valor de 1,0, salvo para c4 y c5 que The limit values close to 0 and 0.5 are selected instead of li-1 and li + 1 for the lowest and highest elements of w, respectively. In such cases, ci can have the 20 values indicated above. In another example, ci has the value of 1.0, except for c4 and c5 that

tienen el valor de 1,2. They have the value of 1.2.

Se puede apreciar en las FIGURAS 4a-d que, trama a trama, un procedimiento de formación de ruido temporal, según se describe en el presente documento, puede aumentar el error de cuantificación. Sin embargo, aunque el error absoluto cuadrado de la operación de It can be seen in FIGURES 4a-d that, frame by frame, a temporary noise formation procedure, as described herein, can increase the quantization error. However, although the absolute square error of the operation of

25 cuantificación puede aumentar, una ventaja potencial es que se puede mover el error de cuantificación a una parte distinta del espectro. Por ejemplo, se puede mover el error de cuantificación a las frecuencias más bajas, volviéndose de esta manera más plano. Dado que la señal de entrada también es plana, se puede obtener una señal de salida más plana como una suma de la señal de entrada y del error aplanado de cuantificación. Quantification can increase, a potential advantage is that the quantization error can be moved to a different part of the spectrum. For example, the quantization error can be moved to the lower frequencies, thus becoming more flat. Since the input signal is also flat, a flatter output signal can be obtained as a sum of the input signal and the flattened quantization error.

La FIGURA 7b muestra un ejemplo de una disposición básica de fuente-filtro según es aplicada a la codificación de la envolvente espectral de una señal S20 de banda estrecha. Un módulo de análisis calcula un conjunto de parámetros que caracterizan un filtro correspondiente al sonido de voz en un periodo de tiempo (normalmente 20 mseg). Un filtro de blanqueo (también denominado un filtro de error de análisis o predicción) configurado según aquellos parámetros del filtro que eliminan la envolvente espectral para aplanar espectralmente la señal. La señal blanqueada resultante (también denominada residual) tiene menos energía y, por lo tanto, menos variación y es más sencilla de codificar que la señal original de voz. También se pueden difundir de manera más uniforme los errores resultantes de la codificación de la señal residual por el espectro. Normalmente, se cuantifican los parámetros del filtro y residuales para una transmisión eficaz por el canal. En el decodificador, se excita un filtro de síntesis configurado según los parámetros del filtro por medio de una señal en base a la señal residual para producir una versión sintetizada del sonido original de voz. Normalmente, el filtro de síntesis está configurado para tener una función de transferencia que es el inverso de la función de transferencia del filtro de blanqueo. La FIGURA 8 muestra un diagrama de bloques de una implementación básica A122 de un codificador A120 de banda estrecha como se muestra en la FIGURA 10a. FIGURE 7b shows an example of a basic source-filter arrangement as applied to the coding of the spectral envelope of a narrow band signal S20. An analysis module calculates a set of parameters that characterize a filter corresponding to the voice sound over a period of time (usually 20 msec). A bleach filter (also called an analysis or prediction error filter) configured according to those filter parameters that eliminate the spectral envelope to spectrally flatten the signal. The resulting bleached signal (also called residual) has less energy and, therefore, less variation and is easier to encode than the original voice signal. The errors resulting from the coding of the residual signal by the spectrum can also be spread more evenly. Normally, the filter and residual parameters are quantified for efficient transmission through the channel. In the decoder, a synthesis filter configured according to the filter parameters is excited by means of a signal based on the residual signal to produce a synthesized version of the original voice sound. Normally, the synthesis filter is configured to have a transfer function that is the inverse of the transfer function of the bleach filter. FIGURE 8 shows a block diagram of a basic implementation A122 of a narrow band A120 encoder as shown in FIGURE 10a.

Como se muestra en la FIGURA 8, un codificador A122 de banda estrecha también genera una señal residual al pasar la señal S20 de banda estrecha a través de un filtro 260 de blanqueo (también denominado un filtro de error de análisis o predicción) que está configurado según el conjunto de coeficientes del filtro. En este ejemplo particular, el filtro 260 de blanqueo está implementado como un filtro FIR, aunque también se pueden utilizar las implementaciones IIR. Normalmente, esta señal residual contendrá información importante perceptualmente de la trama de voz, tal como una estructura de gran duración relacionada con la frecuencia fundamental, que no está representada en los parámetros S40 del filtro de banda estrecha. El cuantificador 270 está configurado para calcular una representación cuantificada de esta señal residual para darle salida como la señal codificada S50 de excitación de banda estrecha. Normalmente, tal cuantificador incluye un cuantificador vectorial que codifica el vector de entrada como un índice a una entrada de vector correspondiente en una tabla o una lista de códigos. De forma alternativa, tal cuantificador puede estar configurado para enviar uno o más parámetros a partir de los cuales se puede generar el vector de forma dinámica en el decodificador, en vez de ser recuperado del almacenamiento, como en un procedimiento de códigos pobres. Se utiliza dicho procedimiento en modelos de codificación tal como CELP algebraico (predicción lineal con excitación por código) y en códecs tales como el 3GPP2 (2º Proyecto de Tercera Generación) EVRC (Códec mejorado de tasa variable de transmisión). As shown in FIGURE 8, a narrowband encoder A122 also generates a residual signal by passing the narrowband signal S20 through a bleach filter 260 (also called an analysis or prediction error filter) that is configured according to the set of filter coefficients. In this particular example, bleach filter 260 is implemented as an FIR filter, although IIR implementations can also be used. Normally, this residual signal will contain perceptually important information of the speech frame, such as a long duration structure related to the fundamental frequency, which is not represented in the S40 parameters of the narrowband filter. The quantizer 270 is configured to calculate a quantized representation of this residual signal to output it as the encoded signal S50 of narrow band excitation. Typically, such a quantifier includes a vector quantifier that encodes the input vector as an index to a corresponding vector entry in a table or code list. Alternatively, such a quantifier may be configured to send one or more parameters from which the vector can be generated dynamically in the decoder, instead of being recovered from storage, as in a poor code procedure. This procedure is used in coding models such as algebraic CELP (linear prediction with code excitation) and in codecs such as 3GPP2 (2nd Third Generation Project) EVRC (Enhanced Variable Transmission Rate Codec).

Es deseable que un codificador A120 de banda estrecha genere la señal codificada de excitación de banda estrecha según los mismos valores de los parámetros del filtro que estarán disponibles para el decodificador correspondiente de banda estrecha. De esta forma, la señal codificada resultante de la excitación de banda estrecha puede explicar ya en cierta medida la falta de correspondencia con el ideal en aquellos valores de los parámetros, tal como un error de cuantificación. En consecuencia, es deseable configurar el filtro de blanqueo utilizando los mismos valores de coeficientes que estarán disponibles en el decodificador. En el ejemplo básico del codificador A122, como se muestra en la FIGURA 8, el cuantificador inverso 240 descuantifica los parámetros S40 del filtro de banda estrecha, la transformada 250 del coeficiente del filtro de LSF a LP vuelve a establecer una correspondencia entre los valores resultantes y un conjunto correspondiente de coeficientes de filtro de LP, y se utiliza este conjunto de coeficientes para configurar el filtro 260 de blanqueo para generar la señal residual que es cuantificada por el cuantificador 270. It is desirable that a narrowband A120 encoder generates the encoded narrowband excitation signal according to the same values of the filter parameters that will be available for the corresponding narrowband decoder. In this way, the encoded signal resulting from narrowband excitation can already explain to some extent the lack of correspondence with the ideal in those parameter values, such as a quantization error. Consequently, it is desirable to configure the bleach filter using the same coefficient values that will be available in the decoder. In the basic example of the encoder A122, as shown in FIGURE 8, the inverse quantizer 240 decrypts the parameters S40 of the narrowband filter, the transform 250 of the filter coefficient from LSF to LP re-establishes a correspondence between the resulting values and a corresponding set of LP filter coefficients, and this set of coefficients is used to configure bleach filter 260 to generate the residual signal that is quantified by quantifier 270.

Algunas implementaciones de codificador A120 de banda estrecha están configuradas para calcular la señal codificada S50 de excitación de banda estrecha para identificar uno entre un conjunto de vectores de códigos que se corresponda mejor con la señal residual. Sin embargo, se debe hacer notar que también se puede implementar el codificador A120 de banda estrecha para calcular una representación cuantificada de la señal residual sin generar realmente la señal residual. Por ejemplo, el codificador A120 de banda estrecha puede estar configurado para utilizar un número de vectores de códigos para generar señales sintetizadas correspondientes (por ejemplo, según un conjunto actual de parámetros del filtro), y para seleccionar el vector de códigos asociado con la señal generada que se corresponda mejor con la señal original S20 de banda estrecha en un dominio ponderado perceptualmente. Some implementations of narrowband A120 encoder are configured to calculate the encoded signal S50 of narrowband excitation to identify one among a set of code vectors that best corresponds to the residual signal. However, it should be noted that the narrowband A120 encoder can also be implemented to calculate a quantified representation of the residual signal without actually generating the residual signal. For example, the narrowband A120 encoder may be configured to use a number of code vectors to generate corresponding synthesized signals (for example, according to a current set of filter parameters), and to select the code vector associated with the signal. generated that best corresponds to the original narrow band signal S20 in a perceptually weighted domain.

La FIGURA 9 muestra un diagrama de bloques de una implementación B 112 del decodificador B110 de banda estrecha. Un cuantificador inverso 310 descuantifica los parámetros S40 del filtro de banda estrecha (en este caso, a un conjunto de LSF), y una transformada 320 del coeficiente del filtro de LSF a LP transforma las LSF en un conjunto de coeficientes del filtro (por ejemplo, como se ha descrito anteriormente con referencia al cuantificador inverso 240 y a la transformada 250 del codificador A122 de banda estrecha). El cuantificador inverso 340 descuantifica la señal codificada S50 de excitación de banda estrecha para producir una señal S80 de excitación de banda estrecha. En base a los coeficientes del filtro y a la señal S80 de excitación de la banda estrecha, el filtro 330 de síntesis de banda estrecha sintetiza la señal S90 de banda estrecha. En otras palabras, el filtro 330 de síntesis de banda estrecha está configurado para dar forma espectralmente a la señal S80 de excitación de banda estrecha según los coeficientes descuantificados del filtro para producir la señal S90 de banda estrecha. Como se muestra en la FIGURA 11a, el decodificador B112 de banda estrecha (en forma del decodificador B110 de banda estrecha) también proporciona una señal S80 de excitación de banda estrecha al decodificador B200 de banda alta, que la utiliza para derivar una señal de excitación de banda alta. En algunas implementaciones, el decodificador B110 de banda estrecha puede estar configurado para proporcionar información adicional al decodificador B200 de banda alta que se relaciona con la señal de banda estrecha, tal como la división espectral, la ganancia y el retraso de la frecuencia fundamental, y el modo de voz. El sistema de codificador A122 de banda estrecha y de decodificador B112 de banda estrecha es un ejemplo básico de un códec de voz de análisis por síntesis. FIGURE 9 shows a block diagram of an implementation B 112 of the narrowband decoder B110. An inverse quantizer 310 decrypts the parameters S40 of the narrowband filter (in this case, to a set of LSF), and a transform 320 of the filter coefficient from LSF to LP transforms the LSFs into a set of filter coefficients (for example , as described above with reference to reverse quantifier 240 and transform 250 of narrowband encoder A122). Inverse quantizer 340 decrypts the encoded narrowband excitation signal S50 to produce a narrowband excitation signal S80. Based on the coefficients of the filter and the narrowband excitation signal S80, the narrowband synthesis filter 330 synthesizes the narrowband signal S90. In other words, the narrowband synthesis filter 330 is configured to spectrally shape the narrowband excitation signal S80 according to the quantified coefficients of the filter to produce the narrowband signal S90. As shown in FIGURE 11a, the narrowband decoder B112 (in the form of the narrowband decoder B110) also provides a narrowband excitation signal S80 to the highband decoder B200, which uses it to derive an excitation signal high band In some implementations, the narrowband decoder B110 may be configured to provide additional information to the highband decoder B200 that relates to the narrowband signal, such as spectral division, gain and delay of the fundamental frequency, and Voice mode The A122 narrowband encoder and B112 narrowband decoder system is a basic example of a speech analysis codec by synthesis.

Tradicionalmente, las comunicaciones de voz por la red pública conmutada de teléfonos (PSTN) han estado limitadas en ancho de banda al intervalo de frecuencias de 300-400 kHz. Las redes nuevas para las comunicaciones de voz, tal como la telefonía celular y voz sobre IP (VoIP), pueden no tener los mismos límites de ancho de banda, y puede ser deseable transmitir y recibir comunicaciones de voz que incluyen un intervalo de frecuencias de banda ancha en tales redes. Por ejemplo, puede ser deseable soportar un intervalo de frecuencias de audio que se extiende hasta 50 Hz y/o hasta 7 u 8 kHz. También puede ser deseable soportar otras aplicaciones, tal como audio de alta calidad o el establecimiento de conferencias de audio/vídeo, que pueden tener un contenido de voz de audio en intervalos fuera de los límites tradicionales de la PSTN. Traditionally, voice communications over the public switched telephone network (PSTN) have been limited in bandwidth to the frequency range of 300-400 kHz. New networks for voice communications, such as cell phone and voice over IP (VoIP), may not have the same bandwidth limits, and it may be desirable to transmit and receive voice communications that include a frequency range of broadband in such networks. For example, it may be desirable to support an audio frequency range that extends up to 50 Hz and / or up to 7 or 8 kHz. It may also be desirable to support other applications, such as high quality audio or the establishment of audio / video conferences, which may have audio voice content at intervals outside the traditional limits of the PSTN.

Un enfoque a la codificación de voz de banda ancha implica ajustar a escala una técnica de codificación de voz de banda estrecha (por ejemplo, una configurada para codificar el intervalo de 0-4 kHz) para cubrir el espectro de banda ancha. Por ejemplo, se puede muestrear una señal de voz a una tasa de transmisión más alta para incluir componentes a frecuencias más elevadas, y un se puede reconfigurar una técnica de codificación de banda estrecha para utilizar más coeficientes del filtro para representar esta señal de banda ancha. Sin embargo, las técnicas de codificación de banda estrecha, tal como CELP (predicción lineal con excitación de código), son intensivas en cuanto a cálculo, y un codificador CELP de banda ancha puede consumir demasiados ciclos de procedimientos como para ser práctico para muchas aplicaciones móviles y otras aplicaciones incorporadas. La codificación de todo el espectro de una señal de banda ancha con una calidad deseada utilizando dicha técnica también puede dar lugar a un aumento inaceptablemente grande del ancho de banda. Además, se necesitaría una transcodificación de dicha señal codificada antes de que se pudiese transmitir incluso su porción de banda estrecha en un sistema, o que fuese decodificada por el mismo, que solo soporte una codificación de banda estrecha. An approach to broadband voice coding involves scaling a narrowband voice coding technique (for example, one configured to encode the 0-4 kHz range) to cover the broadband spectrum. For example, a voice signal can be sampled at a higher transmission rate to include components at higher frequencies, and a narrowband coding technique can be reconfigured to use more filter coefficients to represent this broadband signal. . However, narrowband coding techniques, such as CELP (linear prediction with code excitation), are computationally intensive, and a broadband CELP encoder can consume too many cycles of procedures to be practical for many applications. mobile and other built-in applications. The coding of the entire spectrum of a broadband signal with a desired quality using said technique can also result in an unacceptably large increase in bandwidth. In addition, a transcoding of said encoded signal would be required before even its narrowband portion could be transmitted in a system, or was decoded by it, that only supports a narrowband coding.

La FIGURA 10a muestra un diagrama de bloques de un codificador A100 de voz de banda ancha que incluye codificadores separados A120 y A200 de voz de banda estrecha y de banda alta, respectivamente. Se pueden configurar cualquiera de los dos o ambos para llevar a cabo la cuantificación de LSF (u otra representación de coeficientes) utilizando una implementación del cuantificador 230, según se da a conocer en el presente documento. La FIGURA 11a muestra un diagrama de bloques de un decodificador correspondiente B100 de voz de banda ancha. En la FIGURA 10a, se puede implementar el banco A110 de filtros para producir la señal S20 de banda estrecha y la señal S30 de banda alta de una señal S10 de voz de banda ancha según las implementaciones y a los principios dados a conocer en la solicitud de patente FIGURE 10a shows a block diagram of a broadband voice A100 encoder that includes separate A120 and A200 narrowband and high band voice encoders, respectively. Either or both can be configured to perform the quantification of LSF (or other coefficient representation) using an implementation of quantizer 230, as disclosed herein. FIGURE 11a shows a block diagram of a corresponding broadband voice decoder B100. In FIGURE 10a, the filter bank A110 can be implemented to produce the narrowband signal S20 and the highband signal S30 of a broadband voice signal S10 according to the implementations and principles disclosed in the request for patent

U.S. “SYSTEMS, METHODS, AND APPARATUS FOR SPEECH SIGNAL FILTERING”, presentada con la presente, que es ahora la publicación U.S. nº 2007/0088558. U.S. "SYSTEMS, METHODS, AND APPARATUS FOR SPEECH SIGNAL FILTERING", presented here, which is now U.S. No. 2007/0088558.

Puede ser deseable implementar una codificación de voz de banda ancha, de forma que se pueda enviar al menos la porción de banda estrecha de la señal codificada a través de un canal de banda estrecha (tal como un canal de la PSTN) sin una transcodificación u otra modificación significativa. También puede ser deseable la eficacia de la extensión de codificación de banda ancha, por ejemplo, para evitar una reducción significativa en el número de usuarios que pueden ser atendidos en aplicaciones tales como la telefonía celular inalámbrica y la difusión por canales alámbricos e inalámbricos. It may be desirable to implement a broadband voice coding, so that at least the narrowband portion of the encoded signal can be sent through a narrowband channel (such as a PSTN channel) without a transcoding or Another significant modification. The effectiveness of the broadband coding extension may also be desirable, for example, to avoid a significant reduction in the number of users that can be served in applications such as wireless cellular telephony and broadcast by wired and wireless channels.

Un enfoque a la codificación de voz de banda ancha implica extrapolar la envolvente espectral de banda alta de la envolvente espectral codificada de banda estrecha. Sin embargo, aunque se puede implementar tal enfoque sin ningún aumento en el ancho de banda y sin una necesidad de transcodificar, en general no se puede predecir de forma precisa la envolvente espectral grosera ni la estructura formante de la porción de banda alta de una señal de voz a partir de la envolvente espectral de la porción de banda estrecha. An approach to broadband voice coding involves extrapolating the high band spectral envelope from the narrow band coded spectral envelope. However, although such an approach can be implemented without any increase in bandwidth and without a need for transcoding, in general the gross spectral envelope or the structure of the high band portion of a signal cannot be accurately predicted. of voice from the spectral envelope of the narrow band portion.

Un ejemplo particular del codificador A100 de voz de banda ancha está configurado para codificar la señal S 10 de voz de banda ancha a un tasa de transmisión de aproximadamente 8,55 kbps (kilobits por segundo), utilizándose aproximadamente 7,55 kbps para parámetros S40 del filtro de banda estrecha y la señal codificada S50 de excitación de banda estrecha, y utilizándose aproximadamente 1 kbps para los parámetros S60 de codificación de banda alta (por ejemplo, los parámetros del filtro y/o los parámetros de ganancia). A particular example of the A100 broadband voice encoder is configured to encode the broadband voice signal S 10 at a transmission rate of approximately 8.55 kbps (kilobits per second), using approximately 7.55 kbps for S40 parameters of the narrowband filter and the encoded signal S50 of narrowband excitation, and approximately 1 kbps being used for the high-band coding parameters S60 (for example, the filter parameters and / or the gain parameters).

Puede ser deseable combinar las señales codificadas de banda baja y de banda alta en una única corriente de bits. Por ejemplo, puede ser deseable multiplexar las señales codificadas juntas para ser transmitidas (por ejemplo, por un canal alámbrico, óptico o inalámbrico de transmisión), o para ser almacenadas, como una señal codificada de voz de banda ancha. La FIGURA 10b muestra un diagrama de bloques de un codificador A102 de voz de banda ancha que incluye un multiplexor A130 configurado para combinar parámetros S40 del filtro de banda estrecha, una señal codificada S50 de excitación de banda estrecha, y parámetros S60 de codificación de banda alta en una señal multiplexada S70. La FIGURA 11b muestra un diagrama de bloques de una implementación correspondiente B 102 del decodificador B100 de voz de banda ancha. It may be desirable to combine the low band and high band encoded signals into a single bit stream. For example, it may be desirable to multiplex the coded signals together to be transmitted (for example, by a wired, optical or wireless transmission channel), or to be stored, as a coded broadband voice signal. FIGURE 10b shows a block diagram of a broadband voice encoder A102 that includes an A130 multiplexer configured to combine parameters S40 of the narrowband filter, an encoded signal S50 of narrowband excitation, and parameters S60 of band coding high on an S70 multiplexed signal. FIGURE 11b shows a block diagram of a corresponding implementation B 102 of the broadband voice decoder B100.

Puede ser deseable que el multiplexor A130 esté configurado para incrustar la señal codificada de banda baja (incluyendo los parámetros S40 del filtro de banda estrecha y la señal codificada S50 de excitación de banda estrecha) como una subcorriente separable de la señal multiplexada S70, de forma que se pueda recuperar la señal codificada de banda baja y decodificar de forma independiente de otra porción de la señal multiplexada S70, tal como una señal de banda alta y/o de banda muy baja. Por ejemplo, la señal multiplexada S70 puede estar dispuesta de forma que se pueda recuperar la señal codificada de banda baja al eliminar los parámetros S60 de codificación de banda alta. Una ventaja potencial de tal característica es que se evita la necesidad de transcodificar la señal codificada de banda ancha antes de pasarla a un sistema que soporta la decodificación de la señal de banda baja pero no soporta la decodificación de la porción de banda alta. It may be desirable that the A130 multiplexer is configured to embed the low-band coded signal (including parameters S40 of the narrowband filter and the coded signal S50 of narrow-band excitation) as a detachable undercurrent of the multiplexed signal S70, so that the encoded low band signal can be recovered and decoded independently of another portion of the multiplexed signal S70, such as a high band and / or very low band signal. For example, the multiplexed signal S70 may be arranged so that the low band encoded signal can be recovered by eliminating the high band coding parameters S60. A potential advantage of such a feature is that the need to transcode the encoded broadband signal before passing it to a system that supports decoding the low band signal but does not support decoding the high band portion is avoided.

Un aparato que incluye un cuantificador de formación de ruido y/o un codificador de voz de banda baja, de banda alta y/o de banda ancha según se describe en el presente documento también puede incluir circuitería configurada para transmitir la señal codificada en un canal de transmisión tal como un canal alámbrico, óptico o inalámbrico. Tal aparato también puede estar configurado para llevar a cabo una o más operaciones de codificación del canal en la señal, tal como una codificación de corrección de errores (por ejemplo, una codificación convolucional de tasa compatible) y/o una codificación de detección de errores (por ejemplo, una codificación de redundancia cíclica), y/o una o más capas de codificación del protocolo de la red (por ejemplo, Ethernet, TCP/IP, cdma2000). An apparatus that includes a noise formation quantifier and / or a low band, high band and / or broadband voice encoder as described herein may also include circuitry configured to transmit the encoded signal on a channel of transmission such as a wired, optical or wireless channel. Such an apparatus may also be configured to carry out one or more channel coding operations in the signal, such as an error correction coding (for example, a convolutional compatible rate coding) and / or an error detection coding. (for example, a cyclic redundancy coding), and / or one or more layers of the network protocol coding (eg, Ethernet, TCP / IP, cdma2000).

Puede ser deseable implementar un codificador A120 de voz de banda baja como un codificador de voz de análisis por síntesis. La codificación de Predicción lineal con excitación por código (CELP) es una familia popular de codificación de análisis por síntesis, y las implementaciones de tales codificadores pueden llevar a cabo una codificación de la forma de onda de la señal residual, incluyendo tales operaciones como la selección de las entradas de códigos fijos y adaptables, operaciones de minimización de errores, y/u operaciones perceptuales ponderadas. Otras implementaciones de la codificación de análisis por síntesis incluyen la codificación de predicción lineal de la excitación mezclada (MELP), de CELP algebraico (ACELP), de CELP de relajación (RCELP), de excitación por impulsos regulares (RPE), de CELP de impulsos múltiples (MPE), y de predicción lineal con excitación por suma vectorial (VSELP). Los procedimientos de codificación relacionados incluyen la codificación de excitación multibanda (MBE) y de interpolación del prototipo de forma de onda (PWI). Los ejemplos de códecs normalizados de voz de análisis por síntesis incluyen el códec de tasa completa ETSI (Instituto Europeo de Estándares de Telecomunicaciones)-GSM (GSM 06.10), que utiliza una predicción lineal excitada por señal residual (RELP); el códec mejorado de GSM de tasa completa (ETSI-GSM 06.60); el codificador ITU (Unión Internacional de Telecomunicaciones) estándar de 11,8 kb/s G.729 Annex E; los códecs IS (Estándar Interino)641 para IS-136 (un sistema de acceso múltiple por división de tiempo); los códecs GSM de multitasa adaptable (GSM-AMR); y el códec 4GV ™ (Vocoder ™ de Cuarta Generación) (QUALCOMM Incorporated, San Diego, California, EE. UU.). Las implementaciones existentes de los codificadores de RCELP incluyen el Códec mejorado de tasa variable de transmisión (EVRC), según se describe en la Asociación de la Industria de Telecomunicaciones (TIA) IS127, y el Segundo Proyecto Conjunto de Tercera Generación (3GPP2) Vocodificador de modo seleccionable (SMV). Se pueden implementar los diversos codificadores de banda baja, de banda alta, y de banda ancha descritos en el presente documento según cualquiera de estas tecnologías, o cualquier otra tecnología de codificación de voz (ya sea conocida o esté aún sin desarrollar) que representa una señal de voz como (A) un conjunto de parámetros que describen un filtro y (B) una representación cuantificada de una señal residual que proporciona al menos parte de una excitación utilizada para activar el filtro descrito para reproducir la señal de voz. It may be desirable to implement a low band voice A120 encoder as a synthesis analysis speech encoder. Linear Prediction coding with code excitation (CELP) is a popular family of synthesis analysis coding, and implementations of such encoders can perform a coding of the residual signal waveform, including such operations as selection of fixed and adaptable code entries, error minimization operations, and / or weighted perceptual operations. Other implementations of the synthesis analysis coding include the linear prediction coding of mixed excitation (MELP), of algebraic CELP (ACELP), of relaxation CELP (RCELP), of regular pulse excitation (RPE), of CELP of multiple pulses (MPE), and linear prediction with vector sum excitation (VSELP). Related coding procedures include multiband excitation (MBE) and waveform prototype (PWI) interpolation coding. Examples of standardized speech analysis codecs by synthesis include the full rate codec ETSI (European Telecommunications Standards Institute) -GSM (GSM 06.10), which uses a linear prediction excited by residual signal (RELP); the enhanced full rate GSM codec (ETSI-GSM 06.60); the standard ITU (International Telecommunications Union) 11.8 kb / s G.729 Annex E encoder; IS codecs (Interim Standard) 641 for IS-136 (a time division multiple access system); GSM adaptable multitasking (GSM-AMR) codecs; and the 4GV ™ codec (Fourth Generation Vocoder ™) (QUALCOMM Incorporated, San Diego, California, USA). Existing implementations of the RCELP encoders include the Enhanced Variable Rate Transmission Codec (EVRC), as described in the Telecommunications Industry Association (TIA) IS127, and the Second Joint Third Generation Project (3GPP2) Vocoder selectable mode (SMV). The various low band, high band, and broadband encoders described herein may be implemented according to any of these technologies, or any other voice coding technology (whether known or still undeveloped) that represents a voice signal such as (A) a set of parameters that describe a filter and (B) a quantified representation of a residual signal that provides at least part of an excitation used to activate the described filter to reproduce the voice signal.

Como se ha mencionado anteriormente, las realizaciones según están descritas en el presente documento incluyen implementaciones que pueden ser utilizadas para llevar a cabo una codificación incrustada, soportando la compatibilidad con sistemas de banda estrecha y evitando la necesidad de transcodificar. El soporte para una codificación de banda alta también puede servir para diferenciar en base al coste entre chips, conjuntos de chips, dispositivos, y/o redes que tienen un soporte de banda ancha con una retrocompatibilidad, y los que tienen únicamente un soporte de banda estrecha. También se puede utilizar un soporte para una codificación según se describe en el presente documento junto con una técnica para soportar una codificación de banda baja, y un sistema, procedimiento o aparato según tal realización puede soportar una codificación de componentes de frecuencia desde, por ejemplo, aproximadamente 50 o 100 Hz hasta aproximadamente 7 u 8 kHz. As mentioned above, the embodiments as described herein include implementations that can be used to perform embedded coding, supporting compatibility with narrowband systems and avoiding the need for transcoding. Support for high band coding can also serve to differentiate based on cost between chips, chipsets, devices, and / or networks that have broadband support with a backward compatibility, and those that have only one band support narrow. A support for an encoding as described herein can also be used in conjunction with a technique to support a low band encoding, and a system, method or apparatus according to such an embodiment can support an encoding of frequency components from, for example , about 50 or 100 Hz to about 7 or 8 kHz.

Como se ha mencionado anteriormente, añadir un soporte de banda alta a un codificador de voz puede mejorar la inteligibilidad, especialmente con respecto a la diferenciación de las fricativas. Aunque un oyente humano normalmente puede derivar dicha diferenciación del contexto particular, un soporte de banda alta puede servir como una característica habilitante en el reconocimiento de voz y otras aplicaciones de interpretación por máquinas, tal como los sistemas para la navegación automatizada de menús por voz y/o un procesamiento automático de llamadas. As mentioned above, adding a high band support to a voice encoder can improve intelligibility, especially with regard to the differentiation of fricatives. Although a human listener can usually derive such differentiation from the particular context, a high band support can serve as an enabling feature in speech recognition and other machine interpretation applications, such as systems for automated navigation of menus by voice and / or automatic call processing.

Un aparato según una realización puede estar incorporado en un dispositivo portátil para comunicaciones inalámbricas, tal como un teléfono celular o una agenda personal (PDA). De forma alternativa, se puede incluir tal aparato en otro dispositivo de comunicaciones, tal como en un microteléfono de VoIP, en un ordenador personal configurado para soportar comunicaciones VoIP, o en un dispositivo de red configurado para encaminar comunicaciones telefónicas o de VoIP. Por ejemplo, se puede implementar un aparato según una realización en un chip o conjunto de chips para un dispositivo de comunicaciones. Dependiendo de la aplicación particular, dicho dispositivo también puede incluir tales características como una conversión de analógico a digital y/o de digital a analógico de una señal de voz, circuitería para llevar a cabo la amplificación y/u otras operaciones de procesamiento de señales en una señal de voz, y/o circuitería de radiofrecuencia para la transmisión y/o recepción de la señal codificada de voz. An apparatus according to one embodiment may be incorporated in a portable device for wireless communications, such as a cell phone or a personal address book (PDA). Alternatively, such an apparatus may be included in another communications device, such as in a VoIP handset, in a personal computer configured to support VoIP communications, or in a network device configured to route telephone or VoIP communications. For example, an apparatus can be implemented according to an embodiment on a chip or chipset for a communication device. Depending on the particular application, said device may also include such features as an analog to digital and / or digital to analog conversion of a voice signal, circuitry to carry out the amplification and / or other signal processing operations in a voice signal, and / or radiofrequency circuitry for the transmission and / or reception of the encoded voice signal.

Se contempla y se da a conocer explícitamente que las realizaciones pueden incluir y/o ser utilizadas con una cualquiera o más de las otras características dadas a conocer en la solicitud provisional de patente U.S. nº 60/667.901, ahora la publicación U.S. nº 2007/0088542. Tales características incluyen el desplazamiento de la señal S30 de banda alta y/o de la señal S120 de excitación de banda alta según una regularización u otro desplazamiento de la señal S80 de excitación de banda estrecha o de la señal residual S50 de banda estrecha. Tales características incluyen un aplanamiento adaptable de las LSF, que puede llevarse a cabo antes de una cuantificación como se describe en el presente documento. Tales características también incluyen un aplanamiento fijo o adaptable de una ganancia de la envolvente, y una atenuación adaptable de una ganancia de la envolvente. It is contemplated and explicitly disclosed that the embodiments may include and / or be used with any one or more of the other features disclosed in the provisional U.S. patent application. No. 60 / 667,901, now U.S. No. 2007/0088542. Such features include the displacement of the high-band signal S30 and / or the high-band excitation signal S120 according to a regularization or other displacement of the narrow-band excitation signal S80 or the narrow-band residual signal S50. Such features include an adaptive flattening of LSFs, which can be carried out before quantification as described herein. Such features also include a fixed or adaptable flattening of a gain of the envelope, and an adaptable attenuation of a gain of the envelope.

Se proporciona la anterior presentación de las realizaciones descritas para permitir a cualquier experto en la técnica realizar o utilizar la presente invención. Son posibles diversas modificaciones a estas realizaciones, y también se pueden aplicar los principios genéricos presentados en el presente documento a otras realizaciones. Por ejemplo, se puede implementar una realización en parte o en todo como un circuito cableado, como una configuración de circuito fabricada en un circuito integrado de aplicación específica, o como un programa de soporte lógico inalterable cargado en un almacenamiento no volátil o un programa de software cargado de o en un medio de almacenamiento de datos como código legible por máquina, siendo dicho código instrucciones que pueden ser ejecutadas por un conjunto de elementos lógicos tales como un microprocesador u otra unidad de procesamiento de señales digitales. El medio de almacenamiento de datos puede ser un conjunto de elementos de almacenamiento tal como una memoria de semiconductores (que puede incluir sin limitación RAM dinámica o estática (memoria de acceso aleatorio), ROM (memoria de solo lectura), y/o RAM flash), o memoria ferroeléctrica, magnetorresistiva, ovónica, polimérica, o de cambio de fase; o un medio de disco tal como un disco magnético u óptico. Se debería comprender que el término “software” incluye código fuente, código de lenguaje ensamblador, código máquina, código binario, soporte lógico inalterable, macrocódigo, microcódigo, uno cualquiera o más de conjuntos o secuencias de instrucciones que pueden ser ejecutados por un conjunto de elementos lógicos, y cualquier combinación de tales ejemplos. The above presentation of the described embodiments is provided to allow any person skilled in the art to make or use the present invention. Various modifications to these embodiments are possible, and the generic principles presented herein can also be applied to other embodiments. For example, an embodiment may be implemented in part or in whole as a wired circuit, as a circuit configuration manufactured in a specific application integrated circuit, or as an unalterable software loaded in a non-volatile storage or a software program. software loaded with or in a data storage medium as machine-readable code, said code being instructions that can be executed by a set of logical elements such as a microprocessor or other digital signal processing unit. The data storage medium may be a set of storage elements such as semiconductor memory (which may include without limitation dynamic or static RAM (random access memory), ROM (read-only memory), and / or flash RAM ), or ferroelectric, magnetoresistive, ovonic, polymeric, or phase change memory; or a disk medium such as a magnetic or optical disk. It should be understood that the term "software" includes source code, assembly language code, machine code, binary code, firmware, macrocode, microcode, any one or more sets or sequences of instructions that can be executed by a set of logical elements, and any combination of such examples.

Se pueden implementar los diversos elementos de implementaciones de un cuantificador de formación de ruido; de un codificador A200 de voz de banda alta; de un codificador A100 y A102 de voz de banda ancha; y disposiciones que incluyen uno o más aparatos tales, como dispositivos electrónicos y/u ópticos que residen, por ejemplo, en el mismo chip o entre dos o más chips en un conjunto de chips, aunque también se contemplan otras disposiciones sin dicha limitación. Se pueden implementar uno o más elementos de tal aparato en todo o en parte como uno o más conjuntos de instrucciones dispuestos para ejecutar en uno o más conjuntos fijos o programables de elementos lógicos (por ejemplo, transistores, puertas) tales como microprocesadores, procesadores incorporados, núcleos IP, procesadores de señales digitales, FPGA (matrices de puertas de campo programable), ASSP (productos estándar de aplicación específica) y ASIC (circuitos integrados de aplicación específica). También es posible que uno o más elementos tales tengan una estructura en común (por ejemplo, un procesador utilizado para ejecutar porciones de código correspondientes a distintos elementos en distintos momentos, un conjunto de instrucciones ejecutadas para llevar a cabo tareas correspondientes a distintos elementos en distintos momentos, o una disposición de dispositivos electrónicos y/u ópticos que llevan a cabo operaciones para distintos elementos en distintos momentos). Además, es posible que se utilicen uno o más de tales elementos para llevar a cabo tareas o ejecutar otros conjuntos de instrucciones que no están relacionados directamente con una operación del aparato, tal como una tarea relacionada con otra operación de un dispositivo o sistema en el que está incorporado el aparato. The various elements of implementations of a noise formation quantifier can be implemented; of an A200 high band voice encoder; of an A100 and A102 broadband voice encoder; and arrangements that include one or more devices such as electronic and / or optical devices that reside, for example, on the same chip or between two or more chips in a chipset, although other provisions are also contemplated without such limitation. One or more elements of such apparatus can be implemented in whole or in part as one or more sets of instructions arranged to execute in one or more fixed or programmable sets of logical elements (eg, transistors, gates) such as microprocessors, built-in processors , IP cores, digital signal processors, FPGA (programmable field gate matrices), ASSP (specific application standard products) and ASIC (specific application integrated circuits). It is also possible that one or more such elements have a common structure (for example, a processor used to execute portions of code corresponding to different elements at different times, a set of instructions executed to carry out tasks corresponding to different elements in different moments, or an arrangement of electronic and / or optical devices that carry out operations for different elements at different times). In addition, one or more of such elements may be used to perform tasks or execute other sets of instructions that are not directly related to an operation of the device, such as a task related to another operation of a device or system in the device. that the device is incorporated.

Las realizaciones también incluyen procedimientos adicionales de procesamiento de voz, de codificación de voz, y de supresión de ráfagas de banda alta como se da a conocer expresamente en el presente documento, por ejemplo, por medio de las descripciones de las realizaciones estructurales configuradas para llevar a cabo tales procedimientos. Cada uno de estos procedimientos también puede estar implementado tangiblemente (por ejemplo, en uno o más medios de almacenamiento de datos como se ha enumerado anteriormente) como uno o más conjuntos de instrucciones legibles y/o ejecutables por una máquina, incluyendo un conjunto de elementos lógicos (por ejemplo, un procesador, un microprocesador, un microcontrolador, u otra máquina de estado finito). Por lo tanto, no se pretende que la presente invención esté limitada a las realizaciones mostradas anteriormente sino, más bien, se le debe conceder el alcance más amplio definido por las reivindicaciones adjuntas. The embodiments also include additional procedures for voice processing, voice coding, and suppression of high-band bursts as expressly disclosed herein, for example, by means of descriptions of structural embodiments configured to carry carry out such procedures. Each of these procedures can also be tangibly implemented (for example, in one or more data storage media as listed above) as one or more sets of instructions readable and / or executable by a machine, including a set of elements. logic (for example, a processor, a microprocessor, a microcontroller, or other finite state machine). Therefore, it is not intended that the present invention be limited to the embodiments shown above but, rather, should be granted the broadest scope defined by the appended claims.

Claims

1. one.: Un procedimiento para un procesamiento de señales, comprendiendo dicho procedimiento: A procedure for signal processing, said procedure comprising:

encoding a first frame and a second frame of a voice signal to produce corresponding first and second vectors, in which the first vector represents a spectral envelope of the voice signal during the first frame and the second vector represents a spectral envelope of the voice signal during the second frame; generating a first quantified vector, including said generation quantifying a third vector that is based on the first vector, calculating a quantization error of the first quantized vector; calculate a fourth vector, said calculation including adding a scale version of the quantization error to the second vector; and quantify the fourth vector.

2. 2.: El procedimiento según la reivindicación 1, en el que dicho cálculo de un error de cuantificación incluye calcular una diferencia entre el primer vector cuantificado y el tercer vector. The method according to claim 1, wherein said calculation of a quantization error includes calculating a difference between the first quantized vector and the third vector.

3. 3.: El procedimiento según la reivindicación 1, en el que dicho cálculo de un error de cuantificación incluye calcular una diferencia entre el primer vector cuantificado y al menos una porción del primer vector. The method according to claim 1, wherein said calculation of a quantization error includes calculating a difference between the first quantized vector and at least a portion of the first vector.

4. Four.: El procedimiento según la reivindicación 1, incluyendo dicho procedimiento calcular el error de cuantificación a escala, comprendiendo dicho cálculo multiplicar el error de cuantificación por un factor de escala, en el que el factor de escala está basado en una distancia entre al menos una porción del primer vector y una porción correspondiente del segundo vector. The method according to claim 1, said method including calculating the quantification error at scale, said calculation comprising multiplying the quantization error by a scale factor, in which the scale factor is based on a distance between at least a portion of the first vector and a corresponding portion of the second vector.

5. 5.: El procedimiento según la reivindicación 4, en el que cada uno de entre los vectores primero y segundo incluye una pluralidad de frecuencias espectrales de línea. The method according to claim 4, wherein each of the first and second vectors includes a plurality of line spectral frequencies.

6. 6.: El procedimiento según la reivindicación 1, en el que cada uno de entre los vectores The method according to claim 1, wherein each of the vectors

First and second includes a representation of a plurality of linear prediction filter coefficients.

7. 7.: El procedimiento según la reivindicación 1, en el que cada uno de entre los vectores primero y segundo incluye una pluralidad de frecuencias espectrales de línea. The method according to claim 1, wherein each of the first and second vectors includes a plurality of line spectral frequencies.

8. 8.: Un aparato que comprende: An apparatus comprising:

means for encoding a first frame and a second frame of a voice signal to produce corresponding first and second vectors, in which the first vector represents a spectral envelope of the voice signal during the first frame and the second vector represents an envelope spectral of the voice signal during the second frame; means for generating a first quantified vector, said generation including quantifying a third vector that is based on the first vector; a means to calculate a quantization error of the first quantized vector; and a means for calculating a fourth vector, including said calculation adding a scale version of the quantization error to the second vector, wherein said means for generating a first quantified vector is configured to quantify the fourth vector.

9. 9.: El aparato según la reivindicación 8, en el que: The apparatus according to claim 8, wherein:

said means for encoding comprises a voice encoder; said means for generating comprises a quantifier; said means for calculating a quantization error of the first quantized vector it comprises a first adder; Y said means for calculating a fourth vector comprises a second adder.

10. 10.: El aparato según la reivindicación 9, en el que dicho primer sumador está configurado para calcular el error de cuantificación en base a la diferencia entre el primer vector cuantificado y el tercer vector. The apparatus according to claim 9, wherein said first adder is configured to calculate the quantization error based on the difference between the first quantized vector and the third vector.

11. eleven.: El aparato según la reivindicación 9, en el que dicho primer sumador está configurado para calcular el error de cuantificación en base a una diferencia entre el primer vector The apparatus according to claim 9, wherein said first adder is configured to calculate the quantization error based on a difference between the first vector

quantified and at least a portion of the first vector.

12. 12.: El aparato según la reivindicación 9, incluyendo dicho aparato un multiplicador configurado para calcular el error de cuantificación a escala en base a un producto del error de cuantificación y a un factor de escala, en el que dicho aparato incluye lógica configurada para calcular el factor de escala en base a una distancia entre al menos una porción del primer vector y una porción correspondiente del segundo vector. The apparatus according to claim 9, said apparatus including a multiplier configured to calculate the quantification error at scale based on a product of the quantization error and a scale factor, wherein said apparatus includes logic configured to calculate the scale factor based on a distance between at least a portion of the first vector and a corresponding portion of the second vector.

13. 13.: El aparato según la reivindicación 12, en el que cada uno de entre los vectores primero y segundo incluye una pluralidad de frecuencias espectrales de línea. The apparatus according to claim 12, wherein each of the first and second vectors includes a plurality of line spectral frequencies.

14. 14.: El aparato según la reivindicación 9, en el que cada uno de entre los vectores primero y segundo incluye una representación de una pluralidad de coeficientes de filtro de predicción lineal. The apparatus according to claim 9, wherein each of the first and second vectors includes a representation of a plurality of linear prediction filter coefficients.

15. fifteen.: El aparato según la reivindicación 9, en el que cada uno de entre los vectores primero y segundo incluye una pluralidad de frecuencias espectrales de línea. The apparatus according to claim 9, wherein each of the first and second vectors includes a plurality of line spectral frequencies.

16. 16.: El aparato según la reivindicación 9, comprendiendo dicho aparato un dispositivo para comunicaciones inalámbricas. The apparatus according to claim 9, said apparatus comprising a device for wireless communications.

17. 17.: El aparato según la reivindicación 9, comprendiendo dicho aparato un dispositivo configurado para transmitir una pluralidad de paquetes compatibles con una versión del Protocolo de Internet, en el que la pluralidad de paquetes describe el primer vector cuantificado. The apparatus according to claim 9, said apparatus comprising a device configured to transmit a plurality of packets compatible with a version of the Internet Protocol, wherein the plurality of packets describes the first quantized vector.

18. 18.: Un medio legible por ordenador que comprende instrucciones que, tras ser ejecutadas en un procesador, hacen que el procesador lleve a cabo las etapas del procedimiento de una cualquiera de las reivindicaciones 1 a 6. A computer-readable medium comprising instructions that, after being executed in a processor, causes the processor to carry out the steps of the process of any one of claims 1 to 6.

19. 19.: El procedimiento según la reivindicación 1, en el que la segunda trama sigue inmediatamente a la primera trama en la señal de voz. The method according to claim 1, wherein the second frame immediately follows the first frame in the voice signal.

20. twenty.: El procedimiento según la reivindicación 1, en el que cada uno de los vectores primero y The method according to claim 1, wherein each of the vectors first and

second represents an adaptively flattened spectral envelope.

21. twenty-one.: El procedimiento según la reivindicación 1, en el que dicho procedimiento comprende: The method according to claim 1, wherein said method comprises:

to quantify the fourth vector; Y calculate an excitation signal based on the fourth unquantified vector.

22. 22: El procedimiento según la reivindicación 1, en el que dicho procedimiento comprende filtrar una señal de voz de banda ancha para obtener una señal de voz de banda estrecha y una señal de voz de banda alta, y en el que el primer vector representa una envolvente espectral de la señal de voz de banda estrecha durante la primera trama, y en el que el segundo vector representa una envolvente espectral de la señal de voz de banda estrecha durante la segunda trama. The method according to claim 1, wherein said method comprises filtering a broadband voice signal to obtain a narrow band voice signal and a high band voice signal, and wherein the first vector represents a spectral envelope of the narrowband voice signal during the first frame, and in which the second vector represents a spectral envelope of the narrow band voice signal during the second frame.

23. 2. 3.: El procedimiento según la reivindicación 1, en el que dicho procedimientos comprende filtrar una señal de voz de banda ancha para obtener una señal de voz de banda estrecha y una señal de voz de banda alta, y en el que el primer vector representa una envolvente espectral de la señal de voz de banda alta durante la primera trama, y en el que el segundo vector representa una envolvente espectral de la señal de voz de banda alta durante la segunda trama. The method according to claim 1, wherein said method comprises filtering a broadband voice signal to obtain a narrow band voice signal and a high band voice signal, and wherein the first vector represents a spectral envelope of the high band voice signal during the first frame, and in which the second vector represents a spectral envelope of the high band voice signal during the second frame.

24. 24.: El procedimiento según la reivindicación 1, en el que dicho procedimiento comprende: The method according to claim 1, wherein said method comprises:

filter a broadband voice signal to obtain a narrow band voice signal and a high band voice signal, in which (A) the first vector represents a spectral envelope of the narrow band voice signal during the first frame and (B) the second vector represents a spectral envelope of the narrowband voice signal during the second frame; to quantify the fourth vector; based on the fourth unquantified vector, calculate an excitation signal for the narrowband voice signal; and, based on the excitation signal for the narrowband voice signal, derive an excitation signal for the high band voice signal.

25. 25.: El procedimiento según la reivindicación 1, en el que dicha cuantificación del cuarto The method according to claim 1, wherein said fourth quantification

vector comprises carrying out a quantification of the separator vector of the fourth vector.

26. 26.: El aparato según la reivindicación 8 o 9, en el que la segunda trama sigue inmediatamente a la primera trama en la señal de voz. The apparatus according to claim 8 or 9, wherein the second frame immediately follows the first frame in the voice signal.

27. 27.: El aparato según la reivindicación 8 o 9, en el que cada uno de entre los vectores primero y segundo representa una envolvente espectral aplanada de forma adaptable. The apparatus according to claim 8 or 9, wherein each of the first and second vectors represents an adaptively flattened spectral envelope.

28. 28.: El aparato según la reivindicación 8 o 9, en el que dicho aparato comprende: The apparatus according to claim 8 or 9, wherein said apparatus comprises:

a means to quantify the fourth vector; and a means to calculate an excitation signal based on the fourth unquantified vector.

29. 29.: El aparato según la reivindicación 8 o 9, en el que dicho aparato comprende un medio para filtrar una señal de voz de banda ancha para obtener una señal de voz de banda estrecha y una señal de voz de banda alta, y en el que el primer vector representa una envolvente espectral de la señal de voz de banda estrecha durante la primera trama, y en el que el segundo vector representa una envolvente espectral de la señal de voz de banda estrecha durante la segunda trama. The apparatus according to claim 8 or 9, wherein said apparatus comprises means for filtering a broadband voice signal to obtain a narrow band voice signal and a high band voice signal, and wherein the first vector represents a spectral envelope of the narrowband voice signal during the first frame, and in which the second vector represents a spectral envelope of the narrow band voice signal during the second frame.

30. 30: El aparato según la reivindicación 8 o 9, en el que dicho aparato comprende un medio para filtrar una señal de voz de banda ancha para obtener una señal de voz de banda estrecha y una señal de voz de banda alta, y en el que el primer vector representa una envolvente espectral de la señal de voz de banda alta durante la primera trama, y en el que el segundo vector representa una envolvente espectral de la señal de voz de banda alta durante la segunda trama. The apparatus according to claim 8 or 9, wherein said apparatus comprises means for filtering a broadband voice signal to obtain a narrow band voice signal and a high band voice signal, and wherein the first vector represents a spectral envelope of the high band voice signal during the first frame, and in which the second vector represents a spectral envelope of the high band voice signal during the second frame.

31. 31.: El aparato según la reivindicación 8 o 9, en el que dicho aparato comprende: The apparatus according to claim 8 or 9, wherein said apparatus comprises:

means for filtering a broadband voice signal to obtain a narrow band voice signal and a high band voice signal, in which (A) the first vector represents a spectral envelope of the narrow band voice signal during the first frame and (B) the second vector represents an envelope

spectral of the narrowband voice signal during the second frame; a means to quantify the fourth vector; a means to calculate an excitation signal for the band voice signal narrow based on the fourth unquantified vector; Y

5 means for deriving an excitation signal for the high band voice signal based on the excitation signal for the narrow band voice signal.

32. The apparatus according to claim 8 or 9, wherein said means for generating a first

Quantified vector is configured to quantify the fourth vector by performing a quantification of the separator vector of the fourth vector.