ES2338801T3

ES2338801T3 - Procedimiento de cuantificacion de un codificador de palabra de flujo muy bajo.

Info

Publication number: ES2338801T3
Application number: ES05733605T
Authority: ES
Inventors: Francois Capman
Original assignee: Thales SA
Current assignee: Thales SA
Priority date: 2004-04-19
Filing date: 2005-04-14
Publication date: 2010-05-12
Anticipated expiration: 2025-04-14
Also published as: ATE453909T1; WO2005114653A1; FR2869151B1; EP1756806B1; CA2567162C; PL1756806T3; FR2869151A1; EP1756806A1; US7716045B2; CA2567162A1; DE602005018637D1; US20070219789A1

Abstract

Procedimiento de codificado y de decodificado de la palabra para las comunicaciones por voz que utilizan un codificador de voz de flujo muy bajo, 600 bitios por segundo, que comprende una parte de análisis para el codificado y la transmisión de los parámetros de la señal de palabra, tales como la información de sonorización por sub-banda, el paso, las ganancias, los parámetros espectrales LSF y una parte de síntesis para la recepción y el decodificado de los parámetros transmitidos y la reconstrucción de la señal de palabra caracterizado porque comprende al menos las etapas siguientes: - reagrupar los parámetros de sonorización, paso, ganancias, coeficientes LSF en N tramas consecutivas para formar una super-trama, con N = 4, - realizar una cuantificación vectorial de la información de sonorización para cada super-trama elaborando una clasificación que utiliza las informaciones sobre el encadenamiento en términos de sonorización existente en 2, tramas elementales consecutivas, la información de sonorización permite en efecto identificar clases de sonidos para los cuales la asignación del flujo y los diccionarios asociados se optimizarán, - las clases se encuentran en número de 6 y se definen de la forma siguiente: **(Ver fórmula)** - codificar el paso, las ganancias y los coeficientes LSF utilizando la clasificación obtenida.

Description

Procedimiento de cuantificación de un codificador de palabra de flujo muy bajo.

La invención se refiere a un procedimiento de codificado de la palabra. La misma se aplica particularmente en la realización de codificadores de voz de cadencia muy baja, del orden de los 600 bitios por segundo.

La invención se utiliza por ejemplo para el codificador MELP, (codificador de excitación mixta en anglosajón Mixed Excitation Linear Prediction) descrito por ejemplo en una de las referencias [1, 2, 3, 4].

El procedimiento es por ejemplo utilizado en las comunicaciones por satélite, la telefonía en Internet, los respondedores estáticos, los paginadores con voz, etc.

El objetivo de estos codificadores de voz es reconstruir una señal que sea lo más parecida posible, al sentido de la percepción por el oído humano, de la señal de palabra original, utilizando un flujo binario lo más bajo posi-
ble.

Para conseguir este objetivo, la mayoría de los codificadores de voz utilizan un modelo totalmente parametrado de la señal de palabra. Los parámetros utilizados se refieren a: la sonorización que describe el carácter armónico de los sonidos con voz o el carácter estocástico de los sonidos sin voz, la frecuencia fundamental de los sonidos con voz también conocida bajo el vocablo anglosajón "PITCH", la evolución temporal de la energía así como la envoltura espectral de la señal para excitar y parametrar los filtros de síntesis.

En el caso del codificador MELP, los parámetros espectrales utilizados son los coeficientes LSF (en anglosajón Line Spectral Frequencies) derivados de un análisis por predicción lineal, LPC codificado predictivo lineal (en anglosajón Linear Predictive Coding). El análisis se realiza para un flujo clásico de 2400 bitios/seg cada 22.5 ms.

Las informaciones suplementarias extraídas en la modelización son:

\circ: la frecuencia fundamental o paso,

\circ: las ganancias,

\circ: la información de sonorización en sub-banda,

\circ: los coeficientes de Fourier calculados sobre la señal residual después de la predicción lineal.

\vskip1.000000\baselineskip

El documento de ULPU SINERVO et al. describe un método que permite cuantificar los coeficientes espectrales. En el método propuesto, un cuantificador de matriz de tramas múltiples se utiliza para explotar la correlación entre los parámetros LSF de las tramas adyacentes.

El documento de STACHURSKI se refiere a una técnica de codificado para flujos de alrededor de 4 kbitios/s. La técnica de codificado utiliza un modelo MELP en el cual los coeficientes complejos se utilizan en la síntesis de la palabra. En este documento se analiza la importancia de los parámetros.

El objeto de la presente invención es, particularmente, ampliar el modelo MELP al flujo de 600bitios/seg. Los parámetros retenidos son por ejemplo, el paso, los coeficientes espectrales LSF, las ganancias y la sonorización. Las tramas se reagrupan por ejemplo en una super trama de 90 ms, es decir 4 tramas consecutivas de 22.5 ms del esquema inicial (esquema habitualmente utilizado).

Un flujo de 600 bitios/seg se obtiene a partir de una optimización del esquema de cuantificación de los diferentes parámetros (paso, coeficiente LSF, ganancia, sonorización).

La invención como se ha definido en la reivindicación 1, se refiere a un procedimiento de codificado y decodificado de la palabra para las comunicaciones con voz que utilizan un codificador de voz de flujo muy bajo, 600 bitios por segundo, que comprende una parte de análisis para el codificado y la transmisión de los parámetros de la señal de palabra, tales como la información de sonorización por sub-banda, el paso, las ganancias, los parámetros espectrales LSF y una parte de síntesis para la recepción y el decodificado de los parámetros transmitidos y la reconstrucción de la señal de palabra. Se caracteriza porque comprende al menos las etapas siguientes:

\bullet: reagrupar los parámetros de sonorización, paso, ganancias, coeficientes LSF en N tramas consecutivas para formar una super-trama, con N = 4,

\bullet: realizar una cuantificación vectorial de la información de sonorización para cada super-trama elaborando una clasificación que utiliza las informaciones sobre el encadenamiento en términos de sonorización existente en un sub-múltiplo de N, sobre 2, tramas elementales consecutivas, la información de sonorización permite en efecto identificar clases de sonidos para los cuales la asignación del flujo y los diccionarios asociados se optimizarán,

\bullet: codificar el paso, las ganancias y los coeficientes LSF utilizando la clasificación obtenida.

\vskip1.000000\baselineskip

La clasificación es por ejemplo elaborada utilizando las informaciones sobre el encadenamiento en términos de sonorización existente en 2 tramas elementales consecutivas.

El procedimiento según la invención permite ventajosamente ofrecer un codificado fiable para flujos bajos.

Otras características y ventajas de la presente invención aparecerán mejor con la lectura de la descripción de un ejemplo de realización dado a título ilustrativo, anexado con figuras que representan:

\circ La figura 1 un esquema general del procedimiento según la invención para la parte codificador,

\circ La figura 2 el esquema funcional de la cuantificación vectorial de la información de sonido,

\circ Las figuras 3 y 4 el esquema funcional de la cuantificación vectorial del paso,

\circ La figura 5 el esquema funcional de la cuantificación vectorial de los parámetros espectrales (coeficientes LSF),

\circ La figura 6 el esquema funcional de cuantificación vectorial de fases múltiples,

\circ La figura 7 el esquema funcional de la cuantificación vectorial de las ganancias,

\circ La figura 8 un esquema aplicado a la parte decodificador.

\vskip1.000000\baselineskip

El ejemplo detallado dado a continuación, a título ilustrativo y en modo alguno limitativo, se refiere a un codificador MELP adaptado al flujo de 600 bitios/seg.

El procedimiento según la invención se refiere particularmente al codificado de los parámetros que permiten reproducir lo mejor posible con un mínimo de flujo toda la complejidad de la señal de palabra. Los parámetros retenidos son por ejemplo: el paso, los coeficientes espectrales LSF, las ganancias y la sonorización. El procedimiento recurre particularmente a un procedimiento de cuantificación vectorial con clasificación.

La figura 1 esquematiza globalmente las diferentes realizaciones a nivel de un codificador de la palabra. El procedimiento según la invención se desarrolla en 7 etapas principales.

\vskip1.000000\baselineskip

Etapa de análisis de la señal de palabra

La etapa 1 analiza la señal por medio de un algoritmo de tipo MELP conocido por el experto en la materia. En el modelo MELP, una decisión de sonorización es tomada para cada trama de 22.5 ms y para 5 sub-bandas de frecuencias predefinidas.

\vskip1.000000\baselineskip

Etapa de reagrupamiento de los parámetros

Para la etapa 2, el procedimiento reagrupa los parámetros seleccionados: sonorización, paso, ganancias y coeficientes LSF en N tramas consecutivas de 22.5 ms para formar una supertrama de 90 ms. El valor N=4 es elegido por ejemplo para formar un compromiso entre la reducción posible del flujo binario y el retardo introducido por el procedimiento de

\hbox{cuantificación (compatible con las técnicas de
entrelazamiento y de codificado corrector  de errores
actuales).}

\vskip1.000000\baselineskip

Etapa de cuantificación de la información de sonorización - detallada en la figura 2

En la horizontal de una supertrama, la información de sonorización se representa por consiguiente por una matriz de componentes binarios (0: sin voz; 1: con voz) de tamaño (5*4), 5 sub-bandas MELP, 4 tramas.

El procedimiento utiliza un procedimiento de cuantificación vectorial sobre n bitios, con por ejemplo n=5. La distancia utilizada es una distancia euclidiana ponderada con el fin de favorecer las bandas situadas en bajas frecuencias. Se utiliza por ejemplo como vector de ponderación [1.0; 1.0; 0.7; 0.4; 0.1].

La información de sonorización cuantificada permite identificar clases de sonidos para los cuales la asignación del flujo y los diccionarios asociados se optimizarán. Esta información de sonorización es seguidamente utilizada para la cuantificación vectorial de los parámetros espectrales y de las ganancias con pre-clasificación.

El procedimiento puede comprender una etapa de aplicación de necesidades.

En la fase de aprendizaje, el procedimiento recurre por ejemplo a los 4 vectores siguientes [0,0,0,0,0], [1,0,0,0,0], [1,1,1,0,0], [1,1,1,1,1] que indican la sonorización de la banda baja a la banda alta. Cada columna de la matriz de sonorización, asociada con la sonorización de una de las 4 tramas que constituyen la supertrama, se compara con cada uno de estos 4 vectores, y se sustituye por el vector más próximo para el aprendizaje del diccionario.

En el codificado, se aplica la misma necesidad (elección de los 4 vectores precedentes) y se realiza la cuantificación vectorial QV aplicando el diccionario encontrado anteriormente. Se obtienen así los índices de sonorización.

En el caso del modelo MELP, la información de sonorización que forma parte de los parámetros a transmitir, la información de clasificación se encuentra por consiguiente disponible a nivel del decodificador sin sobrecoste en términos de flujo.

En función de la información de sonorización cuantificada, se optimizan los diccionarios. Para ello el procedimiento define por ejemplo 6 clases de sonorización en un horizonte de 2 tramas elementales. La clasificación se determina por ejemplo utilizando las informaciones sobre el encadenamiento en términos de sonorización existente en un submúltiplo de N tramas elementales consecutivas, por ejemplo en 2 tramas elementales consecutivas.

Cada super trama está por consiguiente representada por 2 clases de sonorización. Las 6 clases de sonorización así definidas son por ejemplo:

\vskip1.000000\baselineskip

1

\vskip1.000000\baselineskip

Un diccionario se optimiza para cada nivel de sonorización. Los diccionarios obtenidos se estiman en este caso en unas perspectivas de 2 tramas elementales.

Los vectores obtenidos son por consiguiente de tamaño 20=2*10 coeficientes LSF, según el orden del análisis por predicción lineal en el modelo MELP inicial.

Etapa de definición de los modos de cuantificación detallada en la figura 1

A partir de estas diferentes clases de cuantificación, el procedimiento define 6 modos de cuantificación determinados según el encadenamiento de las clases de sonorización:

2

La tabla 1 reagrupa los diferentes modos de cuantificación en función de la clase de sonorización y la tabla 2 la información de sonorización para cada uno de los 6 modos de cuantificación.

\vskip1.000000\baselineskip

TABLA 1

3

\vskip1.000000\baselineskip

TABLA 2

4

Con el fin de limitar el tamaño de los diccionarios y reducir la complejidad de búsqueda, el procedimiento utiliza un método de cuantificación de tipo multi fases, tal como el método MSVQ (en anglosajón Multi Stage Vector Quantisation) conocido por el experto en la materia.

En el ejemplo facilitado, una supertrama está constituida por 4 vectores de 10 coeficientes LSF y la cuantificación vectorial se aplica para cada reagrupamiento de 2 tramas elementales (2 sub-vectores de 20 coeficientes).

Existen al menos 2 cuantificaciones vectoriales multifases cuyos diccionarios se deducen de la clasificación (tabla 1).

Etapa de cuantificación del paso figuras 3 y 4

El paso se cuantifica de forma diferente según el modo.

\circ: En el caso del modo 1 (sin voz, número de trama con voz igual a 0), ninguna información de paso es transmitida.

\circ: En el caso del modo 2, una sola trama se considera como con voz e identificada por la información de sonorización. El paso se representa entonces en 6 bitios (cuantificación escalar del período de paso después de la compresión logarítmica).

\circ: En los otros modos:

\circ: 5 bitios son utilizados para transmitir un valor de paso (cuantificación escalar del período de paso después de la compresión logarítmica),

\circ: 2 bitios se utilizan para posicionar el valor de paso en una de las 4 tramas

\circ: 1 bitio se utiliza para caracterizar el perfil de evolución.

La figura 4 esquematiza el perfil de evolución del paso. El valor de paso transmitido, su posición y el perfil de evolución se determinan minimizando un criterio de menos cuadrados en la trayectoria de paso estimada en el análisis. Las trayectorias consideradas se obtienen por ejemplo por interpolación lineal entre el último valor de paso de la super trama precedente y el valor de paso que se transmitirá. Si el valor de paso transmitido no está posicionado en la última trama, el indicador del perfil de evolución permite completar la trayectoria bien sea manteniendo el valor alcanzado, o volviendo al valor de "pitch initial" (el último valor de paso de la super trama precedente). El conjunto de posiciones son consideradas, así como todos los valores de paso comprendidos entre el valor de paso cuantificado inmediatamente inferior al paso mínimo estimado en la super trama y el valor de paso cuantificado inmediatamente superior al paso máximo estimado en la super trama.

\vskip1.000000\baselineskip

Etapa de cuantificación de los parámetros espectrales, de los coeficientes LSF detallada en las figuras 5, 6

La tabla 3 proporciona la asignación del flujo para los parámetros espectrales para cada uno de los modos de cuantificación. El reparto del flujo para cada fase se facilita entre paréntesis.

TABLA 3

5

En cada uno de los 6 modos, el flujo es asignado prioritariamente a la clase de sonorización superior, correspondiendo la noción de sonido superior a un número de sub-bandas con voz superior o igual.

Por ejemplo, en el modo 4, las dos tramas consecutivas sin voz se representarán a partir del diccionario (6, 4, 4) mientras que las dos tramas consecutivas con voz se representarán por el diccionario (7, 5, 4). En el modo 2 las dos tramas consecutivas mixtas se representan por el diccionario (7, 5, 4) y las dos tramas consecutivas sin voz por el diccionario (6, 4, 4).

La tabla 4 reagrupa el tamaño de memoria asociado con los diccionarios

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

TABLA 4

6

\vskip1.000000\baselineskip

Etapa de cuantificación del parámetro ganancias detallada en la figura 7

Un vector de m ganancias con m=8 se calcula por ejemplo para cada super trama (2 ganancias por trama de 22,5 ms, esquema utilizado habitualmente para la MELP) m puede tomar cualquier valor, y se utiliza para limitar la complejidad de la búsqueda del mejor vector en el diccionario.

El procedimiento utiliza una cuantificación vectorial con pre-clasificación. La tabla 5 reagrupa los flujos y el tamaño de memoria asociada con los diccionarios.

El procedimiento calcula las ganancias, luego reagrupa las ganancias sobre N tramas, con N= 4 en este ejemplo. Utiliza seguidamente la cuantificación vectorial y el modo de clasificación predefinido (a partir de la información de sonorización) para obtener los índices asociados con las ganancias. Los índices son seguidamente transmitidos a la parte decodificadora del sistema.

TABLA 5

7

El resumen VQ corresponde a la cuantificación vectorial y MSVQ al método de cuantificación vectorial multietapas.

\vskip1.000000\baselineskip

Evaluación del flujo

La Tabla 6 reagrupa la asignación del flujo para la realización del codificador de palabra de tipo MELP de 600 bitios/seg una super trama de 54 bitios (90 ms).

TABLA 6

8

La figura 8 representa el esquema a nivel de la parte de decodificado del codificador de voz. El índice de sonorización transmitido por la parte codificadora se utiliza para generar los modos de cuantificación. Los índices de sonorización, de cuantificación del paso, de las ganancias y de los parámetros espectrales LSF transmitidos por la parte codificadora son descuantificados utilizando los modos de cuantificación obtenidos. Las diferentes etapas se realizadas según un esquema similar al descrito para la parte codificadora del sistema. Los diferentes parámetros descuantificados son seguidamente reagrupados antes de ser transmitidos a la parte de síntesis del decodificador para restituir la señal de palabra.

\vskip1.000000\baselineskip

Referencias

1 - "A Mixed Excitation LPC Vocoder Model for Low Bit Rate Speech Coding", A. V. McCree, T. P. Barnwell III, IEEE Transactions on Speech and Audio Processing, Vol 3, nº 4, páginas 242-250, Julio 1995.

2 - "A 2,4 kbits/s MELP Coder Candidate for the New US Federal Standard", A. V. McCree, K. Truong, E. B. George, T. P. Barnwell III, Viswanathan V., Proceedings of IEEE ICASSP, páginas 200-203, 1996.

3 - "MELP: The New Federal Standard at 2400 BPS", L. Supplee, R. Cohn, J. Collura, A. V. McCree, Proceedings of IEEE ICASSP, páginas 1591-1594, 1997.

4 - "The 1200 and 2400 bit/s NATO Interoperable Narrow Band Voice Coder", NATO STANAG nº 4591.

Claims

1. Procedimiento de codificado y de decodificado de la palabra para las comunicaciones por voz que utilizan un codificador de voz de flujo muy bajo, 600 bitios por segundo, que comprende una parte de análisis para el codificado y la transmisión de los parámetros de la señal de palabra, tales como la información de sonorización por sub-banda, el paso, las ganancias, los parámetros espectrales LSF y una parte de síntesis para la recepción y el decodificado de los parámetros transmitidos y la reconstrucción de la señal de palabra caracterizado porque comprende al menos las etapas siguientes:

\bullet: realizar una cuantificación vectorial de la información de sonorización para cada super-trama elaborando una clasificación que utiliza las informaciones sobre el encadenamiento en términos de sonorización existente en 2, tramas elementales consecutivas, la información de sonorización permite en efecto identificar clases de sonidos para los cuales la asignación del flujo y los diccionarios asociados se optimiza- rán,

\bullet: las clases se encuentran en número de 6 y se definen de la forma siguiente:

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

9

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

2. Procedimiento según la reivindicación 1, caracterizado porque define 6 modos de cuantificación según el encadenamiento de las clases de sonorización.

\newpage

3. Procedimiento según la reivindicación 2, caracterizado porque N=4 y los modos de cuantificación son los siguientes:

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

11

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

4. Procedimiento según una de las reivindicaciones 1 a 3, caracterizado porque utiliza un método de cuantificación de tipo etapas múltiples para limitar el tamaño de los diccionarios y reducir la complejidad de búsqueda.

5. Procedimiento según la reivindicación 1, caracterizado porque para cuantificar los parámetros espectrales LSF, el flujo es asignado prioritariamente a la clase de sonido superior.

6. Procedimiento según la reivindicación 3, caracterizado porque la asignación del flujo para cada uno de los modos de cuantificación es el siguiente:

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

12

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

7. Procedimiento según la reivindicación 1, caracterizado porque para cuantificar el parámetro de ganancia un vector de al menos 8 ganancias es calculado para cada super trama.

\newpage

8. Procedimiento según la reivindicación 7, caracterizado porque la asignación del flujo para un codificador de tipo MELP a 600 bitio/s y para una super trama de 54 bitios es el siguiente:

\vskip1.000000\baselineskip

13

\vskip1.000000\baselineskip

9. Procedimiento según la reivindicación 1, caracterizado porque para la cuantificación del paso, comprende al menos las etapas siguientes:

\circ: si todas las tramas son sin voz, ninguna información de paso es transmitida,

\circ: si una trama está provista de voz, su posición es identificada por la información de sonorización y su valor es codificado,

\circ: si el número de tramas con voz es superior o igual a 2, se transmite un valor de paso, se posiciona el valor de paso en una de las N tramas, se caracteriza el perfil de evolución.

10. Procedimiento según la reivindicación 9, caracterizado porque se determina el valor de paso transmitido, su posición y el perfil de evolución utilizando un criterio de los menores cuadrados en la trayectoria de paso estimada en el análisis.

11. Procedimiento según la reivindicación 10, caracterizado porque se determinan las trayectorias por interpolación lineal entre el último valor de paso de la super trama precedente y el valor de paso que se transmitirá, si el valor de paso transmitido no está posicionado en la última trama, entonces se completa la trayectoria manteniendo el valor alcanzado o bien volviendo al último valor de paso de la super trama precedente.

12. Utilización del procedimiento según una de las reivindicaciones 1 a 11 en un codificador de palabra de tipo MELP a 600 bitios/s.