ES2337020T3

ES2337020T3 - Procedimiento de codificado de la prosodia para un codificador de palabra con cadencia muy baja.

Info

Publication number: ES2337020T3
Application number: ES01402684T
Authority: ES
Inventors: Philippe Gournay; Yves-Paul Nakache
Original assignee: Thales SA
Current assignee: Thales SA
Priority date: 2000-10-18
Filing date: 2001-10-17
Publication date: 2010-04-20
Anticipated expiration: 2021-10-17
Also published as: CA2359411C; FR2815457B1; US20020065655A1; JP2002207499A; US7039584B2; EP1197952A1; FR2815457A1; KR20020031305A; CA2359411A1; ATE450856T1; DE60140651D1; IL145992A0; EP1197952B1

Abstract

Procedimiento de codificado-decodificado de la palabra utilizando un codificador de cadencia muy baja que comprende una etapa de reconocimiento que permite identificar los "representantes" de la señal de palabra y una etapa de codificado para segmentar la señal de palabra y determinar el "mejor representante" asociado con cada segmento reconocido, caracterizado porque comprende al menos: una etapa de codificado-decodificado de uno de los parámetros al menos de la prosodia de los segmentos reconocidos, del cual el paso, utiliza una información de prosodia de los "mejores representantes", una etapa de codificado del paso de los segmentos reconocidos que consiste en: - transmitir los valores de paso al comienzo y al final de la zona sonora, - partiendo de una recta Di que une los valores del paso en los dos extremos de la indicada zona sonora, el procedimiento busca el comienzo de segmento cuyo valor de paso es el más alejado de esta recta, lo cual corresponde a un distancia dmax. - luego comparar este valor dmax con un valor umbral dumbral. \circ Si la distancia dmax es superior a dumbral, descomponer la recta inicial Di en dos rectas Di1 y Di2 tomando el comienzo del segmento encontrado Di2 como nuevo valor de paso a transmitir, \circ reiterar la operación de descomposición sobre estas dos nuevas zonas sonoras delimitadas por las rectas Di1 y Di2 hasta que la distancia dmax encontrada sea inferior a la distancia dumbral.

Description

Procedimiento de codificado de la prosodia para un codificador de palabra con cadencia muy baja.

La presente invención se refiere a un procedimiento de codificado de la palabra con cadencia muy baja y al sistema asociado. La misma se aplica particularmente para sistemas de codificado-decodificado de la palabra por indexación de unidades de tamaño variable.

El procedimiento de codificado de la palabra realizado a baja cadencia, por ejemplo del orden de 2400 bitios/s, es generalmente el del codificador de voz que utiliza un modelo totalmente paramétrico de la señal de palabra. Los parámetros utilizados se refieren al sonido que describe el carácter periódico o aleatorio de la señal, la frecuencia fundamental de los sonidos vocales también conocida bajo el vocablo anglosajón "PITCH", la evolución temporal de la energía, así como la envoltura espectral de la señal generalmente modelizada por un filtro LPC (abreviatura anglosajona de Lineal Predictive Coding).

Estos diferentes parámetros son tenidos en cuenta periódicamente sobre la señal de palabra, típicamente cada 10 a 30 ms. Son elaborados a nivel de un dispositivo de análisis y son generalmente transmitidos a distancia en dirección a un dispositivo de síntesis que reproduce la señal de palabra a partir del valor cuantificado de los parámetros del modelo.

Hasta ahora, la cadencia más baja normalizada para un codificador de palabra que utiliza esta técnica es de 800 bitios/s. Este codificador, normalizado en 1994 está descrito por el standard OTAN STANAG 4479 y en el artículo titulado "NATO STANAG 4479: A standard for an 800 bps vocoder and channel coding in HF-ECCM system", IEEE Int. Conf. on ASSP, Detroit, páginas 480-483, Mayo 1995 que tiene por autores Mouy, B., De La Noue, P., y Goudezeune, G. Se basa en una técnica de análisis de trama por trama (22.5 ms) de tipo LPC 10 y explota al máximo la redundancia temporal de la señal de palabra reagrupando las tramas 3 por 3 antes del codificado de los parámetros.

Aunque se pueda entender, la palabra reproducida por estas técnicas de codificado es de bastante mala calidad y no es ya aceptable a partir del momento en que la cadencia es inferior a los 600 bitios/s.

Una manera de reducir la cadencia es utilizar los codificadores de voz por segmentos de tipo fonético con segmentos de duración variable que combinan principios de reconocimiento y de síntesis de la palabra, ver por ejemplo "very low bit rate speech coding using a diphone-based recognition and synthesis approach" de Felici et al. In Electronics letters vol. 34 no. 9, 1998.

El procedimiento de codificado utiliza esencialmente un sistema de reconocimiento automático de la palabra en flujo continuo, que segmenta y "etiqueta" la señal de palabra según un número de unidades de palabra de tamaño variable. Estas unidades fonéticas se codifican por indexación en un pequeño diccionario. El decodificado se basa en el principio de la síntesis de la palabra por concatenación a partir del índice de las unidades fonéticas y de la prosodia. El término "prosodia" reagrupa principalmente los parámetros siguientes: la energía de la señal, el paso, una información de sonido y eventualmente el ritmo temporal.

Sin embargo, el desarrollo de los codificadores fonéticos necesita conocimientos importantes en fonética y en lingüística, así como una fase de transcripción fonética de una base de datos de aprendizaje que es costosa y que puede ser la fuente de errores. Además, los codificadores fonéticos se adaptan difícilmente a una nueva lengua o a un nuevo locutor.

Otra técnica, descrita por ejemplo en la tesis de J. Cernocky, titulada "Speech Processing Using Automatically Derived Segmental Units: Applications to very Low Rate Coding and Speaker Verification" de l'Université Paris Xl Orsay, Diciembre 1998 permite eludir los problemas relacionados con la transcripción fonética de la base de datos de aprendizaje determinando las unidades de palabra de forma automática e independientemente de la lengua.

El funcionamiento de este tipo de codificador se descompone principalmente en dos etapas: una etapa de aprendizaje y una etapa de codificado-decodificado descritas en la figura 1.

En la etapa de aprendizaje (figura 1), un procedimiento automático determina por ejemplo después de un análisis paramétrico 1 y una etapa de segmentación 2, un conjunto de 64 clases de unidades acústicas designadas "UA". Con cada una de estas clases de unidades acústicas está asociado un modelo estadístico 3, de tipo modelo de Markov (HMM abreviatura anglosajona de Hidden Markov Model), así como un pequeño número de unidades representantes de una clase, designadas bajo el término "representantes" 4. En el sistema actual, los representantes son simplemente las 8 unidades más largas pertenecientes a una misma clase acústica. Pueden igualmente determinarse como siendo las N unidades más representativas de la unidad acústica. En el codificado de una señal de palabra después de una etapa de análisis paramétrico 5 que permite obtener particularmente los parámetros espectrales, las energías, el paso, un procedimiento de reconocimiento (6, 7), con la ayuda de un algoritmo de Viterbi, determina la sucesión de unidades acústicas de la señal de palabra e identifica el "mejor representante" a utilizar para la síntesis de la palabra. Esta elección se realiza por ejemplo utilizando un criterio de distancia espectral, tal como el algoritmo de DTW (abreviatura anglosajona de Dynamic Time Warping).

El número de la clase acústica, el índice de esta unidad representante, la longitud del segmento, el contenido de DTW y las informaciones prosódicas procedentes del análisis paramétrico se transmiten al decodificador. La síntesis de la palabra se realiza por concatenación de los mejores representantes, eventualmente utilizando un sintetizador paramétrico de tipo LPC.

Para concatenar los representantes en el decodificado de la palabra, se recurre, por ejemplo, a un procedimiento de análisis/síntesis paramétrico de la palabra. Este procedimiento paramétrico permite particularmente modificaciones prosodia tales como la evolución temporal, la frecuencia fundamental o paso, con relación a una simple concatenación de formas de onda.

El modelo paramétrico de palabra utilizado por el procedimiento de análisis/síntesis puede ser por excitación binaria vocalizada/sin vocalizar de tipo LPC 10 tal como se describe en el documento titulado "The government standard linear predictive coding algorithm: LPC-10" de T. Tremain publicado en la revista Speech Technology, vol. 1, nº 2, páginas 40-49.

Esta técnica permite codificar la envoltura espectral de la señal en 185 bitios/s aproximadamente para un sistema monolocutor, para una media de aproximadamente 21 segmentos por segundo.

En lo que sigue de la descripción los términos dados a continuación tienen los significados siguientes:

\bullet: el término "representante" corresponde a uno de los segmentos de la base de aprendizaje que ha sido juzgado representativo de una de las clases de unidades de acústica,

\bullet: la expresión "segmento reconocido" corresponde a un segmento de la palabra que ha sido identificado como perteneciente a una de las clases acústicas, por el codificador,

\bullet: la expresión "mejor representante" designa el representante determinado a nivel del codificado que representa el mejor segmento reconocido.

El objeto de la presente invención se refiere a un procedimiento de codificado, decodificado de la prosodia para un codificador de palabra de cadencia muy baja que utiliza particularmente los mejores representantes.

Se refiere también a la compresión de datos.

La invención tal como se define por la reivindicación 1, se refiere a un procedimiento de codificado-decodificado de la palabra utilizando un codificador de cadencia muy baja que comprende una etapa de aprendizaje que permite identificar "representantes" de la señal de palabra y una etapa de codificado para segmentar la señal de palabra y determinar el "mejor representante" asociado con cada segmento reconocido.

La información de prosodia de los representantes utilizada es por ejemplo el contorno de energía o el sonido o la longitud de los segmentos o el paso.

Según un modo de realización, comprende una etapa de codificado del alineamiento temporal de los mejores representantes utilizando la vía de DTW y buscando la proximidad más cercana en una tabla de formas.

La etapa de codificado de sonido comprende por ejemplo una etapa de determinación de las diferencias existentes \DeltaT_{k} para cada extremo de una zona de sonido de índice k entre la curva del sonido de los segmentos reconocidos y la de los mejores representantes y la etapa de decodificado comprende por ejemplo para cada extremo de una zona de sonido de índice k una etapa de corrección de la posición temporal de este extremo de un valor \DeltaT_{k} correspondiente y/o una etapa de supresión o de inserción de una transición.

La invención se refiere también a un sistema de codificado-decodificado de la palabra tal como se ha definido por la reivindicación 7, que comprende al menos una memoria para almacenar un diccionario que comprende un conjunto de representantes de la señal de palabra, un microprocesador adaptado para determinar los segmentos reconocidos, para reconstruir la palabra a partir de los "mejores representantes" y para realizar las etapas del procedimiento según una de las características anteriormente citadas.

El diccionario de los representantes es por ejemplo común al codificador y al decodificador del sistema codificado-decodificado.

El procedimiento y el sistema según la invención pueden ser utilizados para el codificado-decodificado de la palabra para cadencias inferiores a los 800 bitios/s y de preferencia inferiores a 400 bitios/s.

El procedimiento y el sistema de codificado-decodificado según la invención ofrecen particularmente la ventaja de codificar a una cadencia muy baja la prosodia y de proporcionar así un codificador completo en este ámbito de aplicación.

\newpage

Otras características y ventajas aparecerán con la lectura de la descripción detallada de un modo de realización tomado a título de ejemplo no limitativo e ilustrado por los dibujos adjuntos donde:

\bullet la figura 1 representa un esquema de aprendizaje, de codificado y decodificado de la palabra según la técnica anterior,

\bullet las figuras 2 y 3 describen ejemplos de codificado de la longitud de los segmentos reconocidos,

\bullet la figura 4 esquematiza un modelo de alineamiento temporal de los "mejores representantes",

\bullet las figuras 5 y 6 muestran curvas de las energías de la señal a codificar y de los representantes alineados, así como los contornos de las energías inicial y decodificado obtenidos utilizando el procedimiento según la invención,

\bullet la figura 7 esquematiza el codificado del sonido de la señal de palabra, y

\bullet la figura 8 es un ejemplo de codificado del paso.

El principio de codificado según la invención se basa en la utilización de los "mejores representantes", particularmente su información de prosodia, para codificar y/o decodificar al menos uno de los parámetros de prosodia de una señal de palabra, por ejemplo el paso, la energía de la señal, el sonido, la longitud de los segmentos reconocidos.

Para comprimir la prosodia de cadencia muy baja, el principio puesto en práctica utiliza la segmentación del codificador así como las informaciones prosódicas de los "mejores representantes".

La descripción que sigue dada a título ilustrativo y en modo alguno limitativo describe un procedimiento de codificado de la prosodia en un dispositivo de codificado-decodificado de la palabra de cadencia baja que comprende un diccionario obtenido de forma automática, por ejemplo, en el aprendizaje tal como se ha descrito en la figura 1.

El diccionario comprende las informaciones siguientes:

\bullet: varias clases de unidades acústicas UA, determinándose cada clase a partir de un modelo estadístico,

\bullet: para cada clase de unidades acústicas, un conjunto de representantes.

Este diccionario es conocido del codificador y del decodificador. Corresponde por ejemplo a una o varias lenguas y a uno o varios locutores.

El sistema de codificado-decodificado comprende por ejemplo una memoria para almacenar el diccionario, un microprocesador adaptado para determinar los segmentos reconocidos, para la puesta en práctica de las diferentes etapas del procedimiento según la invención y para reconstruir la palabra a partir de los mejores representantes.

El procedimiento según la invención realiza al menos una de las etapas siguientes: el codificado de la longitud de los segmentos, el codificado del alineamiento temporal de los "mejores representantes", el codificado y/o el decodificado de la energía, el codificado y/o el decodificado de la información de sonido y/o el codificado y/o decodificado del paso y/o el decodificado de la longitud de los segmentos y del alineamiento temporal.

Codificado de la longitud de los segmentos

El sistema de codificado determina por término medio un número Ns de segmentos por segundo, por ejemplo 21 segmentos. El tamaño de estos segmentos varía en función de la clase de unidades acústicas UA. Sucede que para la mayoría de las UA, el número de segmentos disminuye según una relación 1/x^{2.6}, donde x es la longitud del segmento.

Una variante de realización del procedimiento según la invención consiste en codificar la diferencia de longitud variable entre el "segmento reconocido" y la longitud del "mejor representante" según un esquema descrito en la figura 2.

En este esquema en la columna de la izquierda figura la longitud de la palabra de código a utilizar y en la columna de la derecha la diferencia de longitud entre la longitud del segmento reconocido por el codificador para la señal de palabra y la del mejor representante.

Según otro modo de realización dado en la figura 3, el codificado de la longitud absoluta de un segmento reconocido se realiza con la ayuda de un código de longitud variable similar al del de Huffman conocido por el experto en la materia, lo cual permite obtener una cadencia del orden de 55 bitios/s.

El hecho de utilizar las largas palabras de código para codificar las longitudes de grandes segmentos reconocidos, permite particularmente conservar el valor de cadencia en una zona de variación limitada. En efecto, estos largos segmentos reducen el número de segmentos reconocidos por segundo y el número de longitudes a codificar.

Resumiendo, se codifica por ejemplo con un código de longitud variable la diferencia entre la longitud del segmento reconocido y la longitud del mejor representante multiplicado por un cierto factor, pudiendo estar este factor comprendido entre 0 (codificado absoluto) y 1 (codificado de la diferencia).

\vskip1.000000\baselineskip

Codificado del alineamiento temporal de los mejores representantes

El alineamiento temporal se realiza por ejemplo siguiendo la vía de DTW (abreviatura anglosajona de Dynamic Time Warping) que se ha determinado en la búsqueda del "mejor representante" para codificar el "segmento reconocido".

La figura 4 representa la vía (C) del DTW correspondiente al contorno temporal que minimiza la distorsión entre el parámetro a codificar (eje de las abscisas), por ejemplo el vector de los coeficientes "cepstrales", y el "mejor representante" (eje de las ordenadas). Este acercamiento se describe en el libro que lleva por título "Traitement de la parole", por el autor René Boite y Murat Kunt publicado por Presses Polytechnique Romandes éditions 1987.

El codificado del alineamiento de los "mejores representantes" se realiza por búsqueda de la proximidad más inmediata en una tabla que contiene formas tipo. La elección de estos formas tipo se realiza por ejemplo por un acercamiento estadístico, tal como el aprendizaje sobre una base de datos de palabra o por un acercamiento algebráico por ejemplo la descripción mediante ecuaciones matemáticas parametrables, siendo estos diferentes métodos conocidos por el experto en la materia.

Según otro acercamiento, valedero en el caso en que los segmentos de pequeño tamaño se encuentren en proporción importante, el procedimiento realiza un alineamiento de los segmentos según la diagonal más bien que la vía exacta del DTW. La cadencia es entonces nula.

\vskip1.000000\baselineskip

Codificado-decodificado de la energía

Cuando se clasifica y analizan los segmentos de la base de datos de palabra pertenecientes a cada una de las clases de unidades acústicas, se observa que se desprende una cierta coherencia en la forma de los contornos de las energías. Además, existen parecidos entre los contornos de energía de los mejores representantes alineados por DTW y los contornos de la energía de la señal a codificar.

El codificado de la energía se describe a continuación en relación con las figuras 5 y 6, donde el eje de las ordenadas corresponde a la energía de la señal de la palabra a codificar expresada en dB y el eje de las abscisas en el tiempo expresado en tramas.

La figura 5 representa la curva (III) que reagrupa los contornos de energía de los mejores representantes alineados y la curva (IV) los contornos de energía de los segmentos reconocidos separados por * en la figura. Un segmento reconocido de índice j está delimitado por dos puntos de coordenadas respectivas [E_{sd}(j); T_{sd}(j)] y [E_{sf}(j); T_{sf}(j)] donde E_{sd}(j) es la energía de comienzo de segmento y E_{sf}(j) la energía de fin de segmento, para los instantes T_{df} y T_{sf} correspondientes. Las referencias E_{rd}(j) y E_{rf}(j) se utilizan para los valores de energías del comienzo y del final de un "mejor representante" y la referencia \DeltaE(j) corresponde a la translación determinada para un segmento reconocido de índice j.

Codificado de la energía

El procedimiento comprende una primera etapa de determinación de la translación a realizar.

Para ello se determina para cada comienzo de "segmento reconocido", la diferencia \DeltaE(j) existente entre el valor de energía E_{rd}(j) del mejor representante (curva III) y el valor de energía E_{sd} del comienzo del segmento reconocido (curva IV). Se obtiene un conjunto de valores \DeltaE(j) que se cuantifica por ejemplo uniformemente con el fin de conocer la translación a aplicar en el decodificado. La cuantificación se realiza por ejemplo utilizando métodos conocidos por el experto en la materia.

Decodificado de la energía de la señal de palabra

El procedimiento consiste particularmente en utilizar los contornos de energía de los mejores representantes (curva III) para reconstruir los contornos de energía de la señal a codificar (curva IV).

Para cada segmento reconocido, una primera etapa consiste en trasladar el contorno de energía del mejor representante para hacerlo coincidir con la primera energía E_{rd}(j) aplicándole la translación \DeltaE(j), definida en la etapa de codificado por ejemplo, para determinar el valor E_{sd}(j). Después de esta primera etapa de translación, el procedimiento comprende una etapa de modificación de la pendiente del contorno de energía del mejor representante con el fin de unir el último valor de energía E_{rd}(j) del "mejor representante" con la primera energía E_{sd}(j+1) del segmento siguiente de índice j+1.

La figura 6 representa las curvas (VI) y (VII) que corresponden respectivamente al contorno de energía original de la señal de palabra a codificar y del contorno de energía decodificado después de la realización de las etapas descritas anteriormente.

Por ejemplo, el codificado de las energías de comienzo de cada segmento sobre 4 bitios permite obtener para el codificado segmental de la energía una cadencia del orden de 80 bitios/s.

\vskip1.000000\baselineskip

Codificado de la información de sonido

La figura 7 representa la evolución temporal de una información de sonido binaria de cuatro segmentos sucesivos 35, 36, 37 para la señal a codificar curva (VII) y para los mejores representantes (curva VIII) después del alineamiento temporal por DTW.

Codificado de la información de sonido

En el codificado, el procedimiento ejecuta una etapa de codificado de la información de sonido, por ejemplo recorriendo la evolución temporal de la información de vibración de las cuerdas vocales de los segmentos reconocidos y la de los mejores representantes alineados (curva VIII) y codificando las diferencias existentes \DeltaT_{k} entre estas dos curvas. Estas diferencias \DeltaT_{k} pueden ser: un avance de la trama, un retraso b de trama, la ausencia y/o la presencia de una transición de referencia c (k correspondiente al índice de un extremo de una zona de sonido).

Para ello, es posible utilizar un código de longitud variable del cual un ejemplo se facilita en la tabla 1 dada a continuación, para codificar la corrección a aportar en cada una de las transiciones de sonido para cada uno de los segmentos reconocidos. Todos los segmentos al no comprender transición de sonido, es posible reducir la cadencia asociada con el sonido codificando solo las transiciones de sonido existentes en el sonido a codificar y en los mejores representantes.

Según este método, la información de sonido se codifica en aproximadamente 22 bitios por segundo.

\vskip1.000000\baselineskip

TABLA 1 Ejemplo de tabla de codificado para las transiciones de sonido

1

Para una información de sonido mixta tal como:

\bullet: el porcentaje de sonido en sub-banda, el análisis de esta información recurre a un método descrito por ejemplo en el documento siguiente:

: "Multiband Excitation Vocoders", que tiene por autores D.W. Griffin and J.S. Lim, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 36, no. 8, páginas 1223-1235, 1988;

\bullet: la frecuencia de transición entre una banda baja vocal y una banda alta sin voz, el codificado utiliza un método tal como el descrito en el documento que tiene por autores C. Laflamme, R. Salami, R. Matmti, and J-P. Adoul, titulado "Harmonic Stochastic Excitation (HSX) speech coding below 4 kbits/s", IEEE International Conference on Acoustics, Speech, and Signal Processing, Atlanta, Mayo 1996, páginas 204-207.

En estos dos casos, el codificado de la información de sonido comprende igualmente el codificado de la variación de la proporción de sonido.

Decodificado de la información de sonido

El decodificador dispone de la información de sonido de los "mejores representantes alineados" obtenida a nivel del codificador.

La corrección se realiza por ejemplo de la forma siguiente:

En cada detección del extremo de una zona de sonido sobre los mejores representantes seleccionados para la síntesis, el procedimiento aporta una información complementaria al decodificador que es la corrección a realizar en este extremo. La corrección puede ser un avance a o un retraso b a aportar a este extremo. Este desplazamiento temporal se expresa por ejemplo en número de tramas con el fin de obtener la posición exacta del extremo de sonido de la señal de palabra original. La corrección puede también tomar la forma de una supresión o de una introducción de una transición.

Codificado del paso

La experiencia muestra que, en registros de palabra, el número de zonas sonoras obtenidas por segundo es por término medio del orden de 3 ó 4. Para darse cuenta fielmente de las variaciones del paso, una forma de proceder consiste en transmitir varios valores de paso por zona sonora. Con el fin de limitar la cadencia, en lugar de transmitir toda la sucesión de los valores de paso en una zona sonora, el contorno del paso es aproximado por una sucesión de segmentos lineales.

Codificado del paso

Para cada zona sonora de la señal de palabra, el procedimiento comprende una etapa de búsqueda de los valores del paso a transmitir. Los valores de paso al comienzo y al final de la zona sonora son sistemáticamente transmitidos. Los otros valores a transmitir se determinan de la forma siguiente:

\bullet el procedimiento considera únicamente los valores del paso al comienzo de los segmentos reconocidos. Partiendo de la recta Di que une los valores del paso en los dos extremos de la zona sonora, el procedimiento busca el comienzo del segmento cuyo valor de paso es el más alejado de esta recta, lo cual corresponde a una distancia d_{max}. Compara este valor d_{max} con un valor umbral d_{umbral}. Si la distancia d_{max} es superior a d_{umbral} el procedimiento descompone la recta inicial Di en dos rectas D_{i1} y D_{i2} tomando el comienzo del segmento encontrado como nuevo valor de paso a transmitir. Esta operación es reiterada sobre estas dos nuevas zonas sonoras delimitadas por las rectas D_{i1} y D_{i2} hasta que la distancia d_{max} encontrada sea inferior a la distancia d_{umbral}.

Para codificar los valores del paso así determinados, el procedimiento utiliza por ejemplo un cuantificador escalar predictivo sobre por ejemplo 5 bitios aplicado al logarítmo del paso.

La predicción es por ejemplo el primer valor de paso del mejor representante correspondiente a la posición del paso a decodificar, multiplicada por un factor de predicción comprendido por ejemplo entre 0 y 1.

Según otro modo de proceder, la predicción puede ser el valor mínimo del registro de palabra a codificar. En este caso, este valor puede ser transmitido al decodificador por cuantificación escalar sobre por ejemplo 8 bitios.

Los valores de los pasos a transmitir al ser determinados y codificados, el procedimiento comprende una etapa donde el espaciamiento temporal se precisa, por ejemplo en número de tramas, entre cada uno de estos valores de paso. Un código de longitud variable permite por ejemplo codificar estos espaciamientos sobre 2 bitios por término medio.

Este modo de proceder permite obtener una cadencia de aproximadamente 65/bitios por segundo para un distancia máxima sobre el periodo de paso de 7 muestras.

Decodificado del paso

La etapa de decodificado comprende primeramente una etapa de decodificado del espaciamiento temporal entre los diferentes valores de paso transmitidos con el fin de recuperar los instantes de actualización del paso, así como el valor del paso para cada uno de estos instantes. El valor del paso para cada uno de los tramos de la zona sonora es reconstituido por ejemplo por interpolación lineal entre los valores transmitidos.

Claims

1. Procedimiento de codificado-decodificado de la palabra utilizando un codificador de cadencia muy baja que comprende una etapa de reconocimiento que permite identificar los "representantes" de la señal de palabra y una etapa de codificado para segmentar la señal de palabra y determinar el "mejor representante" asociado con cada segmento reconocido, caracterizado porque comprende al menos:

una etapa de codificado-decodificado de uno de los parámetros al menos de la prosodia de los segmentos reconocidos, del cual el paso, utiliza una información de prosodia de los "mejores representantes",

una etapa de codificado del paso de los segmentos reconocidos que consiste en:

\bullet: transmitir los valores de paso al comienzo y al final de la zona sonora,

\bullet: partiendo de una recta Di que une los valores del paso en los dos extremos de la indicada zona sonora, el procedimiento busca el comienzo de segmento cuyo valor de paso es el más alejado de esta recta, lo cual corresponde a un distancia d_{max}.

\bullet: luego comparar este valor d_{max} con un valor umbral d_{umbral}.

\circ Si la distancia d_{max} es superior a d_{umbral}, descomponer la recta inicial Di en dos rectas D_{i1} y D_{i2} tomando el comienzo del segmento encontrado D_{i2} como nuevo valor de paso a transmitir,

\circ reiterar la operación de descomposición sobre estas dos nuevas zonas sonoras delimitadas por las rectas D_{i1} y D_{i2} hasta que la distancia d_{max} encontrada sea inferior a la distancia d_{umbral}.

2. Procedimiento según la reivindicación 1, caracterizado porque comprende una etapa de codificado del alineamiento temporal de los mejores representantes utilizando la vía de DTW y buscando la proximidad más inmediata en una tabla de formas.

3. Procedimiento según la reivindicación 1, caracterizado porque la etapa de decodificado de la energía comprende para cada segmento reconocido, una primera etapa que consiste en trasladar el contorno de energía del mejor representante una cantidad \DeltaE(j) para hacer coincidir la primera energía E_{rd}(j) del "mejor representante" con la primera energía E_{sd}(j+1) del segmento reconocido de índice j+1.

4. Procedimiento según una de las reivindicaciones 1 a 2, caracterizado porque la etapa de codificado del paso se realiza por medio de un cuantificador escalar predictivo.

5. Procedimiento según la reivindicación 4, caracterizado porque la predicción es el primer valor del paso del mejor representante que corresponde a la posición del paso a decodificar, multiplicado por un factor de predicción.

6. Procedimiento según la reivindicación 4, caracterizado porque la predicción es el valor mínimo del registro de palabra a codificar.

7. Sistema de codificado-decodificado de la palabra comprendiendo al menos una memoria para almacenar un diccionario que comprende un conjunto de representantes de la señal de palabra, un microprocesador adaptado para determinar los segmentos reconocidos, para reconstruir la palabra a partir de los "mejores representantes" y para realizar las etapas del procedimiento según una de las reivindicaciones 1 a 6.

8. Sistema según la reivindicación 7, caracterizado porque el diccionario de los representantes es común al codificador y al decodificador del sistema codificado-decodificado.

9. Utilización del procedimiento según una de las reivindicaciones 1 a 6 o del sistema según una de las reivindicaciones 7 y 8 en el codificado-decodificado de la palabra para cadencias inferiores a 800 bitios/s y de preferencia inferiores a 400 bitios/s.