ES2649237T3

ES2649237T3 - Método y aparato para la cuantificación de vector de frecuencia espectral en línea en códec de voz

Info

Publication number: ES2649237T3
Application number: ES02730559.8T
Authority: ES
Inventors: Anssi RÄMÖ
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2001-05-16
Filing date: 2002-05-10
Publication date: 2018-01-11
Anticipated expiration: 2022-05-10
Also published as: US20030014249A1; CA2443443C; EP1388144A2; US7003454B2; PT1388144T; CN1509469A; WO2002093551A3; CA2443443A1; EP1388144B1; CN1241170C; WO2002093551A2; AU2002302874A1; EP1388144A4; KR20040028750A; JP2004526213A; BR0208635A

Abstract

Un método para cuantificar vectores de frecuencia espectral de línea en un codificador de voz (4), un vector de frecuencia espectral de línea comprende una pluralidad de coeficientes de frecuencia espectral de línea, en donde se usa un predictor de media autorregresivo o móvil para predecir una pluralidad de coeficientes de frecuencia espectral de línea predichos, comprendiendo dicho método: obtener una pluralidad de coeficientes de frecuencia espectral de línea cuantificados a partir de los respectivos coeficientes de frecuencia espectral de línea predichos y una pluralidad de vectores de libro de códigos residuales para formar una representación de frecuencia espectral de línea cuantificada, teniendo la representación una pluralidad de elementos indicativos de dicha pluralidad de coeficientes de frecuencia espectral de línea cuantificada; reorganizar los coeficientes de frecuencia espectral de línea cuantificada en el dominio de frecuencia de forma ordenada, de modo que los elementos en la representación se distribuyan en un orden ascendente; y estimar una distorsión espectral ponderada en el dominio de frecuencia basándose en una diferencia entre cada uno de los coeficientes de frecuencia espectral de línea cuantificados reorganizados y los coeficientes de frecuencia espectral de línea respectivos, seleccionándose un vector de libro de códigos residual óptimo de la pluralidad de vectores de libro de códigos residuales para minimizar la distorsión espectral ponderada estimada.

Description

5

10

15

20

25

30

35

40

45

50

55

DESCRIPCION

Metodo y aparato para la cuantificacion de vector de frecuencia espectral en lfnea en codec de voz Campo de la invencion

La presente invencion se refiere en general a la codificacion de senales de audio y de voz y, en particular, a la cuantificacion de coeficientes de prediccion lineal en el dominio de frecuencia espectral en lfnea.

Antecedentes de la invencion

Los algoritmos de codificacion de voz y audio tienen una amplia variedad de aplicaciones en sistemas de comunicacion, multimedia y almacenamiento. El desarrollo de los algoritmos de codificacion esta impulsado por la necesidad de ahorrar capacidad de transmision y almacenamiento mientras se mantiene la alta calidad de la senal sintetizada. La complejidad del codificador esta limitada por la potencia de procesamiento de la plataforma de aplicacion. En algunas aplicaciones, por ejemplo, almacenamiento de voz, el codificador puede ser muy complejo, mientras que el decodificador debe ser lo mas simple posible.

En un codificador tfpico de voz, la senal de voz de entrada se procesa en segmentos, que se denominan tramas. Usualmente, la longitud de la trama es de 10-30 ms, y un segmento de anticipation de 5-15 ms de la trama siguiente tambien esta disponible. La trama tambien puede estar dividida en una serie de subtramas. Para cada trama, el codificador determina una representation parametrica de la senal de entrada. Los parametros se cuantifican y transmiten a traves de un canal de comunicacion o se almacenan en un medio de almacenamiento en una forma digital. En el extremo de reception, el decodificador construye una senal sintetizada basada en los parametros recibidos.

La mayorfa de los codificadores de voz actuales incluyen un filtro de prediccion lineal (LP), para lo cual se genera una senal de excitation. El filtro de LP generalmente tiene una estructura de polo total, como se muestra en la siguiente ecuacion:

1 _____________1__________

A(z) l + fljZ-1 +a2z~2 +... + apz

(1)

donde A(z) es un filtro inverso con coeficientes LP no cuantificados a1, a2, ..., ap y p es el orden del predictor, que generalmente es 8-12. Farvardin et al: "Efficient encoding of speech LSP parameters using the discrete cosine transformation" divulga parametros LSF de cuantificacion y prediccion. La senal de voz de entrada se procesa en tramas. Para cada trama de voz, el codificador determina los coeficientes LP utilizando, por ejemplo, el algoritmo de Levinson-Durbin. (ver "AMR Speech Codec; Transcoding functions" 3G TS 26.090 v3.1.0 (1999-12)). La representacion de frecuencia espectral de lfnea (LSF) u otras representaciones similares, como el par espectral de lfnea (LSP), frecuencia espectral de inmitancia (ISF) y par espectral de inmitancia (ISP), donde el filtro estable resultante se representa mediante un vector de orden, se emplean para cuantificacion de los coeficientes, porque tienen buenas propiedades de cuantificacion. Para las subtramas intermedias, los coeficientes se interpolan linealmente utilizando la representacion LSF.

Para definir las LSF, el polinomio de filtro A(z) LP inverso se utiliza para construir dos polinomios:

P(z) = A(z) + z-{p+])A(z-'),

= (1 - z'1) k (1 - 2 z'1 cos 6)j + z'2), • i =2, 4, ...,p (2)

y

Q(z) = A(z)-z-(p+1)A(z-1)

= (1 -z'1) k (1 -2 z’1 cos o)i+z~2), i = 1, 3, (3)

Las rafces de los polinomios P(z) y Q(z) se denominan coeficientes LSF. Todas las rafces de estos polinomios estan en el cfrculo unitario con i = 1, 2, .... p. Los polinomios P(z) y Q(z) tienen las siguientes propiedades: 1) todos los ceros (rafces) de los polinomios estan en el cfrculo unitario 2) los ceros de P(z) y Q(z) estan entrelazados entre si. Mas especfficamente, la siguiente relation siempre se cumple:

0 = O)0 < (ox < o)2 <... < <Qp_x <Q)p< cop+] = n (4)

5

10

15

20

25

30

35

40

45

50

Este orden ascendente garantiza la estabilidad del filtro, que a menudo se requiere en las aplicaciones de codification de voz. Debe tenerse en cuenta que el primer y ultimo parametros son siempre 0 y n, respectivamente, y solo deben transmitirse valores de p.

Aunque en los codificadores de voz se necesita una representation eficiente para almacenar la information LSF, las LSF se cuantifican usando cuantificacion vectorial (VQ), a menudo junto con prediction (vease la figura 1). Usualmente, los valores predichos se estiman basandose en los valores de salida previamente decodificados (AR (auto-regresivo)-predictor) o valores previamente cuantificados (MA(promedio movil)-predictor).

m n

pLSFk = mLSF + £ A} (■qLSFk_j - mLSF) + £ , (5)

7=1 <=1

donde Aj s y Bi s son las matrices de prediccion, y m y n las ordenes de los predictores. pLSFk, qLSFk y CBk son, respectivamente, el LSF predicho, el LSF cuantificado y el vector de libro de codigos para la trama k. mLSK es el vector LSF medio.

Despues se calcula el valor previsto, se puede obtener el valor LSF cuantificado:

qLSFk - PLSFk + CBk, (6)

donde CBk es la entrada optima del libro de codigos para la trama k.

En la practica, cuando se usa la cuantificacion predictiva o VQ limitada, la estabilidad del qLSFk resultante tiene que comprobarse antes de la conversion a los coeficientes de LP. Solo en caso de VQ directo (no predictivo, de una sola etapa, sin division), el libro de codigos puede disenarse de modo que el vector cuantificado resultante este siempre en orden.

En soluciones de la tecnica anterior, la estabilidad del filtro esta garantizada ordenando el vector LSF despues de la selection de cuantificacion y del libro de codigos.

En la busqueda del mejor vector del libro de codigos, a menudo todos los vectores se ponen a prueba (busqueda completa) y alguna medida de bondad perceptualmente importante se calcula para cada instancia. El diagrama de bloques de un procedimiento de busqueda comunmente utilizado se muestra en la figura 1a.

De manera optima, la seleccion se basa en la distorsion espectral SDde la siguiente manera:

SD = — Jr[log.S,(7y) -logi(o)]2 da,

(7)

donde S(a) y S(a) son los espectros de la trama de voz con y sin cuantificacion, respectivamente. Esto es computacionalmente muy intensivo y, por lo tanto, se usan metodos mas simples.

Un metodo usado comunmente es ponderar el error LSF (RLSFk) con la ponderacion (Wk). Por ejemplo, se utiliza la siguiente ponderacion (ver "AMR Speech Codec; Transcoding functions" 3G TS 26.090 v3.1.0 (1999-12)):

imagen1

donde dk = LSFk+1 - LSFk-1 con LSF0 = 0 Hz y LSF11 = 4000 Hz.

Basicamente, esta medida de distorsion depende de las distancias entre las frecuencias de LSF. Cuanto mas cerca se encuentren los LSF, mas ponderacion tendran. Perceptualmente, esto significa que las regiones formantes se cuantifican con mayor precision.

En base al valor de distorsion, el vector de libro de codigos que da el valor mas bajo se selecciona como el mejor fndice del libro de codigos. Normalmente, el criterio es

5

10

15

20

25

30

35

40

45

50

55

imagen2

Como se puede ver en la figura 1a, la diferencia entre unos coeficientes LSF objetivo LSFk y respectivos coeficientes LSF pLSFk predichos se determina en primer lugar en un dispositivo sumador 12, y la diferencia se ajusta adicionalmente mediante un vector de libro de codigos residual respectivo CB^ de la y-esima entrada del libro de codigos en otro dispositivo sumador 14. La ecuacion 9 puede reducirse a

min{5D'} = £ (LSFk- qLSFk')2 Wk2, (10)

4=1

y tambien reducirse a

min{SD<) ^(rLSFiYwS (11)

' 4=1

Las etapas de reduction, como se muestra en las Ecuaciones 10 y 11, se pueden visualizar mas facilmente en un codificador, como se muestra en la figura 1b. Como se muestra en la figura 1b, se usa un dispositivo sumador 16 para calcular los coeficientes LSF cuantificados. Posteriormente, el error LSF se calcula mediante el dispositivo sumador 18 a partir de los coeficientes LSF cuantificados y los coeficientes LSF objetivo.

Las soluciones de la tecnica anterior no encuentran necesariamente el fndice de libro de codigos optimo si los

coeficientes LSF cuantificados <7LSFt' no estan en orden ascendente con respecto a k. Las figuras 2a-2e ilustran tal

problema. Para simplificar, solo se muestran los primeros tres coeficientes LSF (k = 1,2,3). Sin embargo, esta demostracion simplificada representa adecuadamente la primera division bastante habitual en el caso de VQ dividida. El vector LSF objetivo esta marcado con LSF1 ... LSF3, y los valores predichos, basados en el LSF de las tramas anteriores, tambien se muestran (pLSF1 ... pLSF3). Como se muestra en la figura 2a, aunque algunos valores predichos son mayores que los respectivos vectores objetivo, algunos son mas pequenos. La primera entrada del libro de codigos en el libro de codigos residuales del cuantificador vectorial podrfa parecerse a los vectores del libro de codigos, como se muestra en la figura 2b. Con qLSFY3 = pLSF1-3 + CB1i_3, los coeficientes LSF cuantificados se calculan y se muestran en la figura 2c. Por simplicidad, no se utiliza ninguna ponderacion, o Wk = 1, y la distorsion espectral es directamente proporcional a la distancia al cuadrado o absoluta entre el objetivo y el valor de cuantificacion (el coeficiente LSF cuantificado). La distancia entre el objetivo y el valor de cuantificacion es rLSF'k. La distorsion total para la primera division es, por lo tanto

3

«>'=£«>;■ <12>

4=1

La segunda entrada del libro de codigos (no mostrada) podrfa producir el vector LSF cuantificado (qLSF21-3) y la distorsion espectral (SD21-3), como se muestra en la figura 2d. Cuando se compara la figura 2d con la figura 2c, los vectores qLSF resultantes son bastante diferentes, pero las distorsiones totales son casi las mismas, o (SD1 ~ SD2). Con las dos primeras entradas del libro de codigos, los vectores LSF cuantificados resultantes estan en orden.

Para mostrar el problema asociado con el metodo de la tecnica de cuantificacion anterior, se supone que los coeficientes cuantificados LSF (qLSF31.3) y las correspondientes distorsiones espectrales (SD31.3), el resultado de la tercera entrada del libro de codigos (no se muestra) se distribuyen, como se muestra en la figura 2e. La distorsion

(SD3=YSDl),

total ^ de acuerdo con la distorsion espectral, como se muestra en la figura 2e, es un valor muy

grande. Esto significa que, de acuerdo con el metodo de la tecnica anterior, el mejor fndice de libro de codigos de esta primera division es el menor de SD1 y SD2. Sin embargo, este fndice de libro de codigos "mejor" seleccionado, como se ilustrara mas adelante en la figura 4a, no proporciona el vector de codigo optimo. Esto se debe a que los vectores LSF cuantificados resultantes estan desordenados con respecto a la tercera entrada del libro de codigos.

En general, los codificadores de voz requieren que el filtro de prediction lineal (LP) utilizado en el mismo sea estable. La rutina de busqueda del libro de codigos de la tecnica anterior, tal como la ilustrada en la figura 1a, podrfa hacer que los vectores lSf cuantificados resultantes esten fuera de servicio y se vuelvan inestables. En la tecnica anterior, la estabilizacion del vector se logra clasificando los vectores LSF despues de la cuantificacion. Sin embargo, el vector de codigo obtenido puede no ser optimo.

Hay que senalar que vectores de parametros (par) espectrales, tales como la lfnea de par espectral de vectores (LSP), los vectores de frecuencia espectral de inmitancia (ISF), y los vectores de par espectral de inmitancia (ISP),

5

10

15

20

25

30

35

40

45

50

55

60

65

que representan los coeficientes predictivos lineales, deben ser tambien ordenarse para ser estables.

Es ventajoso y deseable proporcionar un metodo y un sistema para la cuantificacion del parametro espectral (o representacion), en el que el vector de codigo obtenido se optimiza.

Sumario de la invencion

Es un objetivo primario de la presente invencion proporcionar un metodo y un aparato para la cuantificacion de parametros espectrales, en el que un vector de codigo optimizado se selecciona para mejorar el rendimiento de cuantificacion de parametros espectrales en terminos de distorsion espectral, mientras se mantiene la asignacion de bits original. Este objetivo se puede lograr reorganizando los vectores de parametros espectrales cuantificados de manera ordenada en el dominio de la frecuencia antes de que se seleccione el vector de codigo en funcion de la distorsion espectral, como se reivindica mediante la reivindicacion independiente 1 de metodo y la reivindicacion 9 de aparato. Por tanto, de acuerdo con el primer aspecto de la presente invencion, se proporciona un metodo de cuantificacion de vectores de parametros espectrales en un codificador de voz, en el que se usa un filtro predictivo lineal para calcular una pluralidad de coeficientes de parametros espectrales en un dominio de frecuencia, y en el que se utilizan una pluralidad de valores de parametros espectrales basados en valores de salida previamente decodificados, y una pluralidad de vectores de libro de codigos residuales, junto con dicha pluralidad de coeficientes de parametros espectrales, para estimar la distorsion espectral, y el vector de codigo optimo se selecciona basandose en la distorsion espectral. El metodo se caracteriza por

obtener una pluralidad de coeficientes de parametros espectrales cuantificados a partir de los respectivos valores de parametros espectrales predichos y los vectores de libros de codigos residuales;

reorganizar los coeficientes de parametro espectral cuantificado en el dominio de la frecuencia de una manera ordenada; y

obtener la distorsion espectral a partir de los coeficientes del parametro espectral cuantificado reorganizado y los respectivos coeficientes de frecuencia espectral de llnea.

Preferiblemente, la distorsion espectral se calcula basandose en un error indicativo de una diferencia entre cada uno de los coeficientes de los parametros espectrales cuantificados reorganizados y el coeficiente de parametro espectral respectivo, en el que el error se pondera antes de calcular la distorsion espectral basandose en los coeficientes de los parametros espectrales.

El metodo, de acuerdo con la presente invencion, es aplicable cuando la reorganizacion de los coeficientes de los parametros espectrales cuantificados se realiza en una sola division.

El metodo, de acuerdo con la presente invencion, tambien es aplicable cuando la reorganizacion de los coeficientes de los parametros espectrales cuantificados se realiza en una pluralidad de divisiones. En ese caso, se selecciona un vector de codigo optimo en funcion de la distorsion espectral en cada division.

El metodo, de acuerdo con la presente invencion, tambien es aplicable cuando la reorganizacion de los coeficientes de los parametros espectrales cuantificados se realiza en una o mas etapas en caso de cuantificacion de multiples etapas. En ese caso, se selecciona un vector de codigo optimo en funcion de la distorsion espectral en cada etapa. Cada etapa puede ser ordenada o no ordenada. Se prefiere que la selection en cuanto a que etapas se ordenan y cuales no se determine de antemano. De lo contrario, la information de clasificacion debe enviarse al receptor como information adicional.

El metodo, de acuerdo con la presente invencion, es aplicable cuando la reorganizacion de los coeficientes de parametros espectrales cuantificados se realiza como una etapa de optimization para una cantidad de vectores preseleccionada. Los vectores proponentes se clasifican y la seleccion del Indice final se realiza a partir de este conjunto de vectores preseleccionados usando el metodo divulgado.

El metodo, de acuerdo con la presente invencion, es aplicable en el que la reorganizacion de los coeficientes de los parametros espectrales cuantificados se realiza como una etapa de optimizacion, en el que los Indices iniciales al libro de codigos (por etapas o divisiones) se seleccionan sin reorganizar y la seleccion final se realiza basandose unicamente en la seleccion de los mejores vectores preseleccionados con el metodo de clasificacion divulgado.

El parametro espectral puede ser la frecuencia de llnea espectral, par espectral de llnea, frecuencia espectral de inmitancia, par espectral de inmitancia, y similares.

De acuerdo con el segundo aspecto de la presente invencion, se proporciona un aparato para la cuantificacion de vectores de parametros espectrales en un codificador de voz, en el que un filtro de prediction lineal se utiliza para calcular una pluralidad de coeficientes de los parametros espectrales en un dominio de frecuencia, y en el que una pluralidad de valores de parametros espectrales predichos basados en valores de salida decodificados previamente, y una pluralidad de vectores de libro de codigos residuales, junto con dicha pluralidad de coeficientes de parametros espectrales, se utilizan para estimar la distorsion espectral para permitir seleccionar el vector de codigo optimo basandose en la distorsion espectral. El aparato se caracteriza por

5

10

15

20

25

30

35

40

45

50

55

60

65

medios, para obtener una pluralidad de coeficientes de parametros espectrales cuantificados a partir de los respectivos valores de parametros espectrales predichos y los vectores de libros de codigos residuales para proporcionar una serie de primeras senales indicativas de los coeficientes de parametros espectrales cuantificados; medios, que responden a las primeras senales, para reordenar los coeficientes del parametro espectral cuantificado en el dominio de frecuencia de una manera ordenada para proporcionar una serie de segundas senales indicativas de los coeficientes del parametro espectral cuantificado reordenado; y

medios, que responden a las segundas senales, para obtener la distorsion espectral a partir de los coeficientes de parametros espectrales cuantificados reorganizados y los respectivos coeficientes de parametros espectrales.

El parametro espectral puede ser la frecuencia de llnea espectral, par espectral de llnea, frecuencia espectral de inmitancia, par espectral de inmitancia y similares.

De acuerdo con el tercer aspecto de la presente invencion, se proporciona un codificador de voz para proporcionar un flujo de bits a un decodificador, en el que el flujo de bits contiene una primera senal de transmision indicativa de parametros de codigo, parametros de ganancia y parametros de tono y una segunda senal de transmision indicativa de parametros de representacion espectral, en el que se usa un modulo de busqueda de excitacion para proporcionar los parametros de codigo, los parametros de ganancia y los parametros de tono, y un modulo de analisis de prediccion lineal para proporcionar una pluralidad de coeficientes de representacion espectral en un dominio de frecuencia, una pluralidad de valores de representacion espectral predichos basados en valores de salida decodificados previamente, y una pluralidad de vectores de libro de codigos residuales. El codificador se caracteriza por

medios, para obtener una pluralidad de coeficientes de representacion espectrales cuantificados basados en los respectivos valores de representacion espectrales predichos y los vectores de libros de codigos residuales para proporcionar una serie de primeras senales indicativas de los coeficientes de representacion espectrales cuantificados;

medios, que responden a las primeras senales, para reorganizar los coeficientes de representacion espectral cuantificado en el dominio de frecuencia de una manera ordenada para proporcionar una serie de segundas senales indicativas de los coeficientes de representacion espectral cuantificado reorganizado;

medios, que responden a las segundas senales, para obtener la distorsion espectral de los coeficientes de representacion espectral cuantificados reorganizados y los respectivos coeficientes de representacion espectral para proporcionar una serie de terceras senales; y

medios, que responden a las terceras senales, para seleccionar una pluralidad de vectores de codigos optimos representativos de los parametros de representacion espectral basados en la distorsion espectral y para proporcionar la segunda senal de transmision indicativa de vectores de codigos optimos.

De acuerdo con el cuarto aspecto de la presente invencion, se proporciona una estacion movil capaz de recibir y preprocesar voz de entrada para proporcionar un flujo de bits para al menos una estacion base en una red de telecomunicaciones, en el que el flujo de bits contiene una primera senal de transmision indicativa de parametros de codigo, parametros de ganancia y parametros de tono, y una segunda senal de transmision indicativa de parametros de representacion espectral, en el que se utiliza un modulo de busqueda de excitacion para proporcionar la primera senal de transmision desde la senal de entrada preprocesada, y un modulo de prediccion lineal basado en la senal de entrada preprocesada, una pluralidad de coeficientes de representacion espectral en un dominio de frecuencia, una pluralidad de valores de representacion espectral predichos basados en valores de salida decodificados previamente, y una pluralidad de vectores de libro de codigos residuales. La estacion movil se caracteriza por medios, para obtener una pluralidad de coeficientes de representacion espectrales cuantificados a partir de los respectivos valores de representacion espectrales predichos y los vectores de libros de codigos residuales para proporcionar una serie de primeras senales indicativas de los coeficientes de representacion espectrales cuantificados;

medios, que responden a la serie de primeras senales, para reorganizar los coeficientes de representacion espectral cuantificado en el dominio de frecuencia de una manera ordenada para proporcionar una serie de segundas senales indicativas de los coeficientes de representacion espectral cuantificado reorganizado;

medios, que responden a la serie de segundas senales, para obtener la distorsion espectral de los coeficientes de representacion espectral cuantificados reorganizados y la respectiva representacion espectral para proporcionar una serie de terceras senales;

medios, para seleccionar a partir de la distorsion espectral una pluralidad de vectores de codigo optimos representativos de los parametros de representacion espectral para proporcionar la segunda senal de transmision.

La presente invencion se hara evidente al leer la descripcion tomada en conjuncion con las figuras 3 a 6.

Breve descripcion de los dibujos

La figura 1a es un diagrama de bloques que ilustra un sistema de cuantificacion LSF de la tecnica anterior.

La figura 1b es un diagrama de bloques que ilustra el sistema de cuantificacion LSF de la tecnica anterior con una disposicion diferente de los componentes del sistema.

La figura 2a es una representacion esquematica que ilustra la distribucion del vector LSF objetivo y los valores LSF predichos en el dominio de frecuencia.

5

10

15

20

25

30

35

40

45

50

55

La figura 2b es una representacion esquematica que ilustra la primera entrada del libro de codigos en el libro de codigos residual del cuantificador vectorial.

La figura 2c es una representacion esquematica que ilustra los coeficientes LSF cuantificados en comparacion con el vector LSF objetivo, y la distorsion espectral resultante con la primera entrada del libro de codigos.

La figura 2d es una representacion esquematica que ilustra los coeficientes LSF cuantificados y la distorsion espectral resultante con la segunda entrada del libro de codigos.

La figura 2e es una representacion esquematica que ilustra los coeficientes LSF cuantificados y la distorsion espectral resultante con la tercera entrada del libro de codigos.

La figura 2f es una representacion esquematica que ilustra los coeficientes LSF cuantificados y la distorsion espectral resultante con la cuarta entrada del libro de codigos.

La figura 2g es una representacion esquematica que ilustra los coeficientes LSF cuantificados y la distorsion espectral resultante con una entrada del libro de codigos diferente a la mostrada en la figura 2c.

La figura 2h es una representacion esquematica que ilustra los coeficientes LSF cuantificados y la distorsion espectral resultante con una segunda entrada diferente de la mostrada en la figura 2d.

La figura 3 es un diagrama de bloques que ilustra el sistema de cuantificacion LSF, de acuerdo con la presente invencion.

La figura 4a es una representacion esquematica que ilustra los coeficientes LSF cuantificados y la distorsion espectral resultante con la tercera entrada del libro de codigos, como se muestra en la figura 2e, despues de ser reorganizados mediante el sistema de cuantificacion LSF, segun la presente invencion.

La figura 4b es una representacion esquematica que ilustra los coeficientes LSF cuantificados y la distorsion espectral resultante con la cuarta entrada del libro de codigos, como se muestra en la figura 2f, despues de ser reorganizados mediante el sistema de cuantificacion LSF, segun la presente invencion.

La figura 5 es un diagrama de bloques que ilustra un codec de voz que comprende un codificador y un decodificador para codificacion de voz, de acuerdo con la presente invencion.

La figura 6 es una representacion esquematica que ilustra una estacion movil para su uso en una red de telecomunicaciones moviles, de acuerdo con la presente invencion.

Mejor modo para realizar la invencion

El vector de parametro espectral (par) es el vector que representa los coeficientes predictivos lineales de manera que el vector espectral estable (par) siempre se ordena. Dichas representaciones incluyen frecuencia espectral de llnea (LSF), par espectral de llnea (LSP), frecuencia espectral de inmitancia (ISF), par espectral de inmitancia (ISP) y similares. Para simplificar, la presente invencion se describe en terminos de la representacion LSF.

El sistema de cuantificacion LSF 40, de acuerdo con la presente invencion, se muestra en la figura 3. Ademas de los componentes del sistema, como se muestra en la figura 1a, se implementa un mecanismo de clasificacion 20 entre el dispositivo sumador 16 y el dispositivo^ sumador 18. El mecanismo de clasificacion 20 se usa para reorganizar los coeficientes de LSF cuantificados qLSF'k de modo que se distribuyan en un orden ascendente con respecto a la frecuencia. Por ejemplo, los coeficientes LSF cuantificados qLSF^k y qLSF2k, como se muestran en las figuras 2a y 2b, ya estan en orden ascendente, o qLSF't < qLSF'2 < qLSF'3, y la funcion del mecanismo de clasificacion 20 no afecta a la distribucion de estos coeficientes LSF cuantificados. En este caso, se dice que el vector LSF cuantificado qLSF' esta en el orden correcto. Sin embargo, el vector LSF cuantificado qLSF3, como se muestra en la figura 2e, esta fuera de servicio, porque qLSF3i < qLSF33 < qLSF32. Despues de disponerse, los coeficientes LSF cuantificados se distribuyen en un orden ascendente, como se muestra en la figura 4a.

Despues de la orden del vector, la distorsion espectral total de SD3 (figura 4a) es menor que cualquiera de los dos SD1 o SD2. En consecuencia, el mejor Indice de libro de codigos de la primera division que contiene las primeras tres tramas para seleccionarse es / = 3. El orden correcto del libro de codigos decodificado (1 3 2) tambien se encuentra automaticamente en el decodificador debido a la clasificacion y no se necesita informacion adicional.

La funcion de clasificacion, tal como la realiza el mecanismo de clasificacion 20, se puede expresar de la siguiente manera:

min {££>'} = £ (LSFk - clasificar(pLSFk + CBk‘ f Wk

k=\

= £ {LSFk - clasificar(qLSFk))2 Wk, (13)

k-\

La ecuacion 13 puede reducirse tambien a

5

10

15

20

25

30

35

40

45

50

55

60

imagen3

donde s(k) es una funcion de permutacion que da la ordenacion correcta para los k-esimos componentes LSF actuales, de modo que todos los LSFk estan en orden ascendente antes del calculo SD. De acuerdo con la presente invention, el valor de distorsion espectral se calcula despues de poner en orden el vector cuantificado, en lugar de comparar vectores residuales, lo que podrfa dar como resultado un vector LSF ordenado invalido.

Hay que senalar que, en algunos casos, es posible utilizar el metodo de busqueda de la tecnica anterior para obtener la distorsion espectral mas baja SD a partir de los coeficientes LSF cuantificado que no estan dispuestos en orden ascendente. Por ejemplo, la primera y la segunda entradas del libro de codigos producen dos conjuntos diferentes de coeficientes lSf cuantificados qLSF\ y qLSF2k, como se muestra en la figura 2f y la figura 2g, mientras que los terceros coeficientes LSF cuantificados qLSF^k son los mismos que se muestran en la figura 2e. En ese caso, la menor distorsion espectral es el resultado de la tercera entrada del libro de codigos, aunque los coeficientes LSF cuantificados qLSF3k no estan en un orden ascendente. Por lo tanto, el vector LSF cuantificado que se selecciona basandose en la distorsion espectral total mas bajo es inestable. En el codificador de la tecnica anterior, el vector LSF cuantificado inestable puede estabilizarse clasificando los coeficientes LSF cuantificados despues de la selection del libro de codigos. En este caso particular, el resultado del codec de voz de la tecnica anterior y del codec de voz, de acuerdo con la presente invencion, es el mismo.

En general, el resultado de acuerdo con el metodo de la tecnica anterior podrfa no ser optimo, porque podrfa ser otro vector cuantificado que tambien esta en el orden equivocado. Por ejemplo, si la cuarta entrada del libro de codigos produce un conjunto de coeficientes LSF cuantificados qLSF^k, como se muestra en la figura 2h, este vector LSF cuantificado tiene la mayor distorsion espectral entre los vectores cuantificados como se muestra en las figuras 2e, 2f, 2g y 2h. Con las rutinas de busqueda del libro de codigos de la tecnica anterior, la menor distorsion espectral total es el resultado de la tercera entrada del libro de codigos (figura 2g).

De acuerdo con el metodo de cuantificacion LSF, de acuerdo con la presente invencion, los coeficientes LSF cuantificados en la figura 2e y la figura 2h se reorganizan mediante el mecanismo de clasificacion 20. Despues de que los coeficientes LSF cuantificados qLSF*k, como se muestra en la figura 2h, se reorganizan para poner los coeficientes LSF cuantificados en un orden ascendente, con el resultado que se muestra en la figura 4b. Comparado con los vectores LSF cuantificados, como se muestra en las figuras 2f, 2g y 4a, el vector LSF cuantificado, como se muestra en la figura 4b, tiene la menor distorsion espectral total.

Los ejemplos anteriores han demostrado que el vector de estabilizacion despues de la cuantificacion (mediante el vector LSF de clasificacion), de acuerdo con rutinas de busqueda de libro de codigos de la tecnica anterior, no siempre resulta en el mejor vector, en terminos de distorsion espectral.

Con el metodo de cuantificacion LSF, segun la presente invencion, los vectores LSF se ponen en orden antes de que se seleccionen para la transmision. Este metodo siempre encuentra los mejores vectores. Si el libro de codigos del cuantificador vectorial esta en una division y la seleccion del mejor vector se realiza en una sola etapa, el vector encontrado es el optimo global. Esto significa que siempre se encuentra el fndice mfnimo global que proporciona errores i para la trama. Si se utiliza un cuantificador de vector restringido, no se encuentra necesariamente el optimo global. Sin embargo, incluso si el presente metodo se usa solo dentro de una division o etapa, el rendimiento aun mejora. Para encontrar el aun mas optimo global para el VQ de division, se pueden usar los siguientes enfoques:

1) Encontrar el mejor fndice de libro de codigos para la primera division usando el metodo de ordenacion previa, segun la presente invencion, y

2) buscar por separado el mejor fndice de libro de codigos para la segunda division, tercera division, etc., de la misma manera.

Sin embargo, para encontrar una solution mas optima, en lugar de guardar solo el mejor fndice cuantificador de division para cada division, pueden guardarse una serie de mejores indices. A continuation, se prueban todas las combinaciones de indices para divisiones basadas en los indices guardados y se genera el vector LSF cuantificado clasificado resultante (qLSF1 ... qLSFp) y se calcula SD. Finalmente, se selecciona la mejor combination de indices del libro de codigos.

Un enfoque similar se puede utilizar para cuantificadores de vectores de multiples etapas como sigue: Varios de los mejores cuantificadores de primera etapa se seleccionan en la llamada busqueda M-mejor y las etapas posteriores se agregan sobre las mismas. En cada etapa, el qLSF resultante se ordena, si asf se desea, y se calcula SD. De nuevo, la mejor combinacion de indices del libro de codigos se envfa al receptor. La clasificacion puede usarse para

5

10

15

20

25

30

35

40

45

50

55

60

una o mas etapas internas. En ese caso, el decodificador tiene que hacer la clasificacion en las mismas etapas para decodificar correctamente (las etapas donde hay clasificacion se pueden determinar durante la etapa de diseno).

Para el cuantificador de vector de division, puede usarse el siguiente procedimiento:

1) Para la primera division, realizar la busqueda del libro de codigos optima;

2) Ponderar el error del ultimo coeficiente ligeramente menos de lo que se hace normalmente;

3) Memorizar varios de los mejores Indices para usarlos en la siguiente fase;

4) Ir a la siguiente division - en lugar de calcular el error dentro de la division, calcular el error incluyendo todas

las combinaciones de los valores de la primera division y el vector actual (despues de ordenar, por supuesto); y

5) Repetir el mismo procedimiento hasta que se hayan calculado todas las divisiones.

Este metodo intenta incluir continuamente alguna selection de los valores cuantificados, que son los mejores valores encontrados hasta el momento. Despues de anadir la nueva division, se ordena el vector mas largo resultante y, en funcion de la distorsion, se puede resolver el Indice de la division anterior. Por lo tanto, el efecto restrictivo del orden sobre las divisiones se tiene en cuenta de alguna manera. El significado de una menor ponderacion en el ultimo coeficiente es que el ultimo coeficiente podrla reemplazarse con un valor de una division posterior despues de que se realice la orden.

La figura 5 es un diagrama de bloques que ilustra el codec de voz 1, de acuerdo con la presente invention. El codec de voz 1 comprende un codificador 4 y un decodificador 6. El codificador 4 comprende una unidad de preprocesamiento 22 para el filtrado de paso alto de la senal de voz de entrada. En base a la senal de entrada preprocesada, se usa una unidad de analisis 26 del coeficiente predictivo lineal (LPC) para realizar la estimation de los coeficientes del filtro LP. Los coeficientes LP son cuantificados por una unidad de cuantificacion LPC 28. Una unidad de busqueda de excitation 30 se usa para proporcionar los parametros de codigo, los parametros de ganancia y los parametros de tono al descodificador 6, tambien basado en la senal de entrada preprocesada. La unidad de preprocesamiento 22, la unidad de analisis de LPC 26, la unidad de cuantificacion de LPC 28 y la unidad de busqueda de excitacion 30 y sus funciones son conocidas en la tecnica. La caracterlstica unica del codificador 4 de la presente invencion es el mecanismo de clasificacion 20, que se usa para reorganizar los coeficientes de LSF cuantificados para su uso en la estimacion de distorsion espectral antes de enviar los parametros de LSF al decodificador 6. De forma similar, la unidad de cuantificacion LPC 40 en el decodificador 6 tiene un mecanismo de clasificacion 42 para reorganizar los coeficientes LSF recibidos antes de la interpolation LPC mediante una unidad de interpolacion LPC 44. La unidad de interpolacion LPC 44, la unidad de generation de excitacion 46, la unidad de slntesis LPC 48 y la unidad de postprocesamiento 50 tambien son conocidas en la tecnica.

La figura 6 es una representation esquematica que ilustra un telefono movil 2 de la presente invencion. Como se muestra en la figura 6, el telefono movil tiene un microfono 60 para recibir la voz de entrada y transmitir la voz de entrada al codificador 4. El codificador 4 tiene medios (no mostrados) para convertir los parametros de codigo, parametros de ganancia, parametros de tono y parametros LSF (figura 5) en un flujo de bits 82 para la transmision a traves de una antena 80. El telefono movil 2 tiene un mecanismo de clasificacion 20 para ordenar vectores cuantificados.

En resumen, la presente invencion proporciona un metodo y un aparato para proporcionar vectores LSF cuantificados, que son siempre estables. El metodo y el aparato, de acuerdo con la presente invencion, mejoran el rendimiento de cuantificacion de LSF en terminos de distorsion espectral, mientras se evita la necesidad de cambiar la asignacion de bits. El metodo y el aparato se pueden extender tanto a cuantificadores de vectores divididos (partidos) predictivos y no predictivos y cuantificadores de vectores de multiples etapas. El metodo y el aparato, de acuerdo con la presente invencion, son mas efectivos para mejorar el rendimiento de un codificador de voz cuando se usan modelos LPC de orden superior (p > 10) porque, en esos casos, los LSF estan mas cercanos entre si y una orden invalida es mas probable que suceda. Sin embargo, el mismo metodo y aparato tambien se pueden usar en codificadores de voz basados en modelos de LPC de orden inferior (p ^ 10).

Hay que senalar que el metodo/aparato de cuantificacion, como se describe de acuerdo con LSF es tambien aplicable a otro tipo de representacion de los coeficientes predictivos lineales, tal como LSP, ISF, ISP y otros parametros espectrales similares o representaciones espectrales.

Por lo tanto, aunque la invencion se ha descrito con respecto a una realization preferida de la misma, se entendera por parte de los expertos en la tecnica que lo anterior y varios otros cambios, omisiones y desviaciones en la forma y detalle de la misma pueden realizarse sin apartarse del alcance de esta invencion.

Claims

5

10

15

20

25

30

35

40

45

50

55

60

65

REIVINDICACIONES

1. Un metodo para cuantificar vectores de frecuencia espectral de ilnea en un codificador de voz (4), un vector de frecuencia espectral de ilnea comprende una pluralidad de coeficientes de frecuencia espectral de ilnea, en donde se usa un predictor de media autorregresivo o movil para predecir una pluralidad de coeficientes de frecuencia espectral de llnea predichos, comprendiendo dicho metodo:

obtener una pluralidad de coeficientes de frecuencia espectral de llnea cuantificados a partir de los respectivos coeficientes de frecuencia espectral de llnea predichos y una pluralidad de vectores de libro de codigos residuales para formar una representation de frecuencia espectral de llnea cuantificada, teniendo la representation una pluralidad de elementos indicativos de dicha pluralidad de coeficientes de frecuencia espectral de llnea cuantificada;

reorganizar los coeficientes de frecuencia espectral de llnea cuantificada en el dominio de frecuencia de forma ordenada, de modo que los elementos en la representacion se distribuyan en un orden ascendente; y estimar una distorsion espectral ponderada en el dominio de frecuencia basandose en una diferencia entre cada uno de los coeficientes de frecuencia espectral de llnea cuantificados reorganizados y los coeficientes de frecuencia espectral de llnea respectivos, seleccionandose un vector de libro de codigos residual optimo de la pluralidad de vectores de libro de codigos residuales para minimizar la distorsion espectral ponderada estimada.
2. El metodo de la reivindicacion 1, en el que la reorganization de los coeficientes de frecuencia espectral de llnea cuantificados se realiza en una unica division.
3. El metodo de la reivindicacion 1, en el que la reorganizacion de los coeficientes de frecuencia espectral de llnea cuantificada se realiza en una pluralidad de divisiones y el vector de libro de codigos residual optimo se selecciona basandose en la distorsion espectral en cada division.
4. El metodo de la reivindicacion 1, en el que la reorganizacion de los coeficientes de frecuencia espectral de llnea cuantificada se realiza en una sola etapa.
5. El metodo de la reivindicacion 1, en el que la reorganizacion de los coeficientes de frecuencia espectral de llnea cuantificada se realiza en una de una pluralidad de etapas para la selection de vector de libro residual optimo, en donde dicha etapa esta predeterminada y la seleccion del vector de libro de codigos residual optimo se basa en la distorsion espectral en dicha una etapa.
6. El metodo de la reivindicacion 1, en el que la reorganizacion de los valores de los parametros de los coeficientes de frecuencia espectral de llnea se realiza en algunas de una pluralidad de etapas para la seleccion del vector de libro de codigos residual optimo, en donde dichas etapas estan predeterminadas y la seleccion del vector de libro de codigos residual optimo se basa en la distorsion espectral en dichas algunas etapas.
7. El metodo de la reivindicacion 1, en el que la reorganizacion de los coeficientes de frecuencia espectral de llnea cuantificados se realiza en una pluralidad de etapas para la seleccion del vector de libro de codigos residual optimo, en donde dicha pluralidad de etapas esta predeterminada y la seleccion del vector de libro de codigos residual optimo se basa en la distorsion espectral en dicha pluralidad de etapas.
8. El metodo de la reivindicacion 1, en el que la reorganizacion de los coeficientes de frecuencia espectral de llnea cuantificada se realiza como una etapa de optimization para una cantidad de vectores preseleccionados para la seleccion de vector optimo basada en los vectores preseleccionados.
9. Un aparato (2) configurado para cuantificar un parametro espectral en un codificador de voz (4), comprendiendo un vector de frecuencia espectral de llnea una pluralidad de coeficientes de frecuencia espectral de llnea, en donde se usa un predictor de media autorregresivo o movil para predecir una pluralidad de coeficientes de frecuencia espectrales de llnea predichos, comprendiendo dicho aparato:

medios para obtener una pluralidad de coeficientes de frecuencia espectral de llnea cuantificados a partir de los respectivos coeficientes de frecuencia espectral de llnea predichos y una pluralidad de vectores de libro de codigos residuales para formar una representacion de frecuencia espectral de llnea cuantificada que tiene una pluralidad de elementos indicativos de dicha pluralidad de coeficientes de frecuencia espectral de llnea cuantificada, proporcionando dichos medios de obtencion ademas una serie de primeras senales indicativas de los coeficientes de frecuencia espectral de llnea cuantificados;

medios que responden a las primeras senales, para reorganizar los coeficientes de frecuencia espectral de llnea cuantificada en el dominio de frecuencia de una manera ordenada, de manera que los elementos en la representacion se distribuyan en un orden ascendente, proporcionando ademas dichos medios de reorganizacion una serie de segundas senales indicativas de coeficientes de frecuencia espectral de llnea cuantificados reorganizados; y

medios, que responden a las segundas senales, para estimar una distorsion espectral ponderada en el dominio de frecuencia basada parcialmente en una diferencia entre cada uno de los coeficientes de frecuencia espectral

5

10

15

20

25

30

de ilnea cuantificados reorganizados y los coeficientes de frecuencia espectral de ilnea respectivos, en donde se selecciona un vector de iibro de codigos residual optimo de la piuraiidad de vectores de iibro de codigos residuaies para minimizar la distorsion espectral ponderada estimada.
10. El aparato (2) de la reivindicacion 9, en el que la reorganizacion de los coeficientes de frecuencia espectral de ilnea cuantificados se reaiiza en una unica division.
11. El aparato (2) de la reivindicacion 9, en el que la reorganizacion de los coeficientes de frecuencia espectral de ilnea cuantificada se reaiiza en una piuraiidad de divisiones y el vector de iibro de codigos residual optimo se selecciona basandose en la distorsion espectral en cada division.
12. Un codificador de voz (4) configurado para proporcionar a un decodificador un fiujo de bits que contiene una primera senal de transmision indicativa de parametros de codigo, parametros de ganancia y parametros de tono y una segunda senal de transmision indicativa de parametros de representation de frecuencia espectral de ilnea, en donde un modulo de busqueda de excitation (30) se utiiiza para proporcionar los parametros de codigo, los parametros de ganancia y los parametros de tono, y se usa un modulo de analisis de prediction lineal (26) para proporcionar una piuraiidad de coeficientes de representacion de frecuencia espectral de ilnea en un dominio de frecuencia, una piuraiidad coeficientes de representacion de frecuencia espectral de ilnea predichos basados en vaiores de saiida decodificados previamente, y una piuraiidad de vectores de iibro de codigos residuaies, en donde dicho codificador comprende un aparato de acuerdo con la reivindicacion 9.
13. Una estacion movil configurada para recibir y preprocesar voz de entrada para proporcionar un fiujo de bits a ai menos una estacion base en una red de teiecomunicaciones, en donde el fiujo de bits contiene una primera senal de transmision indicativa de parametros de codigo, parametros de ganancia y parametros de tono y una segunda senal de transmision indicativa de parametros de representacion de frecuencia espectral de ilnea, en donde se utiiiza un modulo de busqueda de excitacion para proporcionar la primera senal de transmision desde la senal de entrada preprocesada, y se usa un modulo de prediccion lineal para proporcionar, en funcion de la senal de entrada preprocesada, un modulo de prediccion lineal utiiizado para proporcionar una piuraiidad de coeficientes de representacion de frecuencia espectral de ilnea en un dominio de frecuencia, una piuraiidad de coeficientes de representacion de frecuencia espectral de ilnea predichos en vaiores de saiida decodificados previamente, y una piuraiidad de vectores de iibro de codigos residuaies, en donde dicha estacion movil comprende un aparato segun la reivindicacion 9.