ES2337020T3 - Procedimiento de codificado de la prosodia para un codificador de palabra con cadencia muy baja. - Google Patents

Procedimiento de codificado de la prosodia para un codificador de palabra con cadencia muy baja. Download PDF

Info

Publication number
ES2337020T3
ES2337020T3 ES01402684T ES01402684T ES2337020T3 ES 2337020 T3 ES2337020 T3 ES 2337020T3 ES 01402684 T ES01402684 T ES 01402684T ES 01402684 T ES01402684 T ES 01402684T ES 2337020 T3 ES2337020 T3 ES 2337020T3
Authority
ES
Spain
Prior art keywords
word
coding
representatives
segment
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES01402684T
Other languages
English (en)
Inventor
Philippe Gournay
Yves-Paul Nakache
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales SA
Original Assignee
Thales SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales SA filed Critical Thales SA
Application granted granted Critical
Publication of ES2337020T3 publication Critical patent/ES2337020T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Procedimiento de codificado-decodificado de la palabra utilizando un codificador de cadencia muy baja que comprende una etapa de reconocimiento que permite identificar los "representantes" de la señal de palabra y una etapa de codificado para segmentar la señal de palabra y determinar el "mejor representante" asociado con cada segmento reconocido, caracterizado porque comprende al menos: una etapa de codificado-decodificado de uno de los parámetros al menos de la prosodia de los segmentos reconocidos, del cual el paso, utiliza una información de prosodia de los "mejores representantes", una etapa de codificado del paso de los segmentos reconocidos que consiste en: - transmitir los valores de paso al comienzo y al final de la zona sonora, - partiendo de una recta Di que une los valores del paso en los dos extremos de la indicada zona sonora, el procedimiento busca el comienzo de segmento cuyo valor de paso es el más alejado de esta recta, lo cual corresponde a un distancia dmax. - luego comparar este valor dmax con un valor umbral dumbral. \circ Si la distancia dmax es superior a dumbral, descomponer la recta inicial Di en dos rectas Di1 y Di2 tomando el comienzo del segmento encontrado Di2 como nuevo valor de paso a transmitir, \circ reiterar la operación de descomposición sobre estas dos nuevas zonas sonoras delimitadas por las rectas Di1 y Di2 hasta que la distancia dmax encontrada sea inferior a la distancia dumbral.

Description

Procedimiento de codificado de la prosodia para un codificador de palabra con cadencia muy baja.
La presente invención se refiere a un procedimiento de codificado de la palabra con cadencia muy baja y al sistema asociado. La misma se aplica particularmente para sistemas de codificado-decodificado de la palabra por indexación de unidades de tamaño variable.
El procedimiento de codificado de la palabra realizado a baja cadencia, por ejemplo del orden de 2400 bitios/s, es generalmente el del codificador de voz que utiliza un modelo totalmente paramétrico de la señal de palabra. Los parámetros utilizados se refieren al sonido que describe el carácter periódico o aleatorio de la señal, la frecuencia fundamental de los sonidos vocales también conocida bajo el vocablo anglosajón "PITCH", la evolución temporal de la energía, así como la envoltura espectral de la señal generalmente modelizada por un filtro LPC (abreviatura anglosajona de Lineal Predictive Coding).
Estos diferentes parámetros son tenidos en cuenta periódicamente sobre la señal de palabra, típicamente cada 10 a 30 ms. Son elaborados a nivel de un dispositivo de análisis y son generalmente transmitidos a distancia en dirección a un dispositivo de síntesis que reproduce la señal de palabra a partir del valor cuantificado de los parámetros del modelo.
Hasta ahora, la cadencia más baja normalizada para un codificador de palabra que utiliza esta técnica es de 800 bitios/s. Este codificador, normalizado en 1994 está descrito por el standard OTAN STANAG 4479 y en el artículo titulado "NATO STANAG 4479: A standard for an 800 bps vocoder and channel coding in HF-ECCM system", IEEE Int. Conf. on ASSP, Detroit, páginas 480-483, Mayo 1995 que tiene por autores Mouy, B., De La Noue, P., y Goudezeune, G. Se basa en una técnica de análisis de trama por trama (22.5 ms) de tipo LPC 10 y explota al máximo la redundancia temporal de la señal de palabra reagrupando las tramas 3 por 3 antes del codificado de los parámetros.
Aunque se pueda entender, la palabra reproducida por estas técnicas de codificado es de bastante mala calidad y no es ya aceptable a partir del momento en que la cadencia es inferior a los 600 bitios/s.
Una manera de reducir la cadencia es utilizar los codificadores de voz por segmentos de tipo fonético con segmentos de duración variable que combinan principios de reconocimiento y de síntesis de la palabra, ver por ejemplo "very low bit rate speech coding using a diphone-based recognition and synthesis approach" de Felici et al. In Electronics letters vol. 34 no. 9, 1998.
El procedimiento de codificado utiliza esencialmente un sistema de reconocimiento automático de la palabra en flujo continuo, que segmenta y "etiqueta" la señal de palabra según un número de unidades de palabra de tamaño variable. Estas unidades fonéticas se codifican por indexación en un pequeño diccionario. El decodificado se basa en el principio de la síntesis de la palabra por concatenación a partir del índice de las unidades fonéticas y de la prosodia. El término "prosodia" reagrupa principalmente los parámetros siguientes: la energía de la señal, el paso, una información de sonido y eventualmente el ritmo temporal.
Sin embargo, el desarrollo de los codificadores fonéticos necesita conocimientos importantes en fonética y en lingüística, así como una fase de transcripción fonética de una base de datos de aprendizaje que es costosa y que puede ser la fuente de errores. Además, los codificadores fonéticos se adaptan difícilmente a una nueva lengua o a un nuevo locutor.
Otra técnica, descrita por ejemplo en la tesis de J. Cernocky, titulada "Speech Processing Using Automatically Derived Segmental Units: Applications to very Low Rate Coding and Speaker Verification" de l'Université Paris Xl Orsay, Diciembre 1998 permite eludir los problemas relacionados con la transcripción fonética de la base de datos de aprendizaje determinando las unidades de palabra de forma automática e independientemente de la lengua.
El funcionamiento de este tipo de codificador se descompone principalmente en dos etapas: una etapa de aprendizaje y una etapa de codificado-decodificado descritas en la figura 1.
En la etapa de aprendizaje (figura 1), un procedimiento automático determina por ejemplo después de un análisis paramétrico 1 y una etapa de segmentación 2, un conjunto de 64 clases de unidades acústicas designadas "UA". Con cada una de estas clases de unidades acústicas está asociado un modelo estadístico 3, de tipo modelo de Markov (HMM abreviatura anglosajona de Hidden Markov Model), así como un pequeño número de unidades representantes de una clase, designadas bajo el término "representantes" 4. En el sistema actual, los representantes son simplemente las 8 unidades más largas pertenecientes a una misma clase acústica. Pueden igualmente determinarse como siendo las N unidades más representativas de la unidad acústica. En el codificado de una señal de palabra después de una etapa de análisis paramétrico 5 que permite obtener particularmente los parámetros espectrales, las energías, el paso, un procedimiento de reconocimiento (6, 7), con la ayuda de un algoritmo de Viterbi, determina la sucesión de unidades acústicas de la señal de palabra e identifica el "mejor representante" a utilizar para la síntesis de la palabra. Esta elección se realiza por ejemplo utilizando un criterio de distancia espectral, tal como el algoritmo de DTW (abreviatura anglosajona de Dynamic Time Warping).
El número de la clase acústica, el índice de esta unidad representante, la longitud del segmento, el contenido de DTW y las informaciones prosódicas procedentes del análisis paramétrico se transmiten al decodificador. La síntesis de la palabra se realiza por concatenación de los mejores representantes, eventualmente utilizando un sintetizador paramétrico de tipo LPC.
Para concatenar los representantes en el decodificado de la palabra, se recurre, por ejemplo, a un procedimiento de análisis/síntesis paramétrico de la palabra. Este procedimiento paramétrico permite particularmente modificaciones prosodia tales como la evolución temporal, la frecuencia fundamental o paso, con relación a una simple concatenación de formas de onda.
El modelo paramétrico de palabra utilizado por el procedimiento de análisis/síntesis puede ser por excitación binaria vocalizada/sin vocalizar de tipo LPC 10 tal como se describe en el documento titulado "The government standard linear predictive coding algorithm: LPC-10" de T. Tremain publicado en la revista Speech Technology, vol. 1, nº 2, páginas 40-49.
Esta técnica permite codificar la envoltura espectral de la señal en 185 bitios/s aproximadamente para un sistema monolocutor, para una media de aproximadamente 21 segmentos por segundo.
En lo que sigue de la descripción los términos dados a continuación tienen los significados siguientes:
\bullet
el término "representante" corresponde a uno de los segmentos de la base de aprendizaje que ha sido juzgado representativo de una de las clases de unidades de acústica,
\bullet
la expresión "segmento reconocido" corresponde a un segmento de la palabra que ha sido identificado como perteneciente a una de las clases acústicas, por el codificador,
\bullet
la expresión "mejor representante" designa el representante determinado a nivel del codificado que representa el mejor segmento reconocido.
El objeto de la presente invención se refiere a un procedimiento de codificado, decodificado de la prosodia para un codificador de palabra de cadencia muy baja que utiliza particularmente los mejores representantes.
Se refiere también a la compresión de datos.
La invención tal como se define por la reivindicación 1, se refiere a un procedimiento de codificado-decodificado de la palabra utilizando un codificador de cadencia muy baja que comprende una etapa de aprendizaje que permite identificar "representantes" de la señal de palabra y una etapa de codificado para segmentar la señal de palabra y determinar el "mejor representante" asociado con cada segmento reconocido.
La información de prosodia de los representantes utilizada es por ejemplo el contorno de energía o el sonido o la longitud de los segmentos o el paso.
Según un modo de realización, comprende una etapa de codificado del alineamiento temporal de los mejores representantes utilizando la vía de DTW y buscando la proximidad más cercana en una tabla de formas.
La etapa de codificado de sonido comprende por ejemplo una etapa de determinación de las diferencias existentes \DeltaT_{k} para cada extremo de una zona de sonido de índice k entre la curva del sonido de los segmentos reconocidos y la de los mejores representantes y la etapa de decodificado comprende por ejemplo para cada extremo de una zona de sonido de índice k una etapa de corrección de la posición temporal de este extremo de un valor \DeltaT_{k} correspondiente y/o una etapa de supresión o de inserción de una transición.
La invención se refiere también a un sistema de codificado-decodificado de la palabra tal como se ha definido por la reivindicación 7, que comprende al menos una memoria para almacenar un diccionario que comprende un conjunto de representantes de la señal de palabra, un microprocesador adaptado para determinar los segmentos reconocidos, para reconstruir la palabra a partir de los "mejores representantes" y para realizar las etapas del procedimiento según una de las características anteriormente citadas.
El diccionario de los representantes es por ejemplo común al codificador y al decodificador del sistema codificado-decodificado.
El procedimiento y el sistema según la invención pueden ser utilizados para el codificado-decodificado de la palabra para cadencias inferiores a los 800 bitios/s y de preferencia inferiores a 400 bitios/s.
El procedimiento y el sistema de codificado-decodificado según la invención ofrecen particularmente la ventaja de codificar a una cadencia muy baja la prosodia y de proporcionar así un codificador completo en este ámbito de aplicación.
\newpage
Otras características y ventajas aparecerán con la lectura de la descripción detallada de un modo de realización tomado a título de ejemplo no limitativo e ilustrado por los dibujos adjuntos donde:
\bullet la figura 1 representa un esquema de aprendizaje, de codificado y decodificado de la palabra según la técnica anterior,
\bullet las figuras 2 y 3 describen ejemplos de codificado de la longitud de los segmentos reconocidos,
\bullet la figura 4 esquematiza un modelo de alineamiento temporal de los "mejores representantes",
\bullet las figuras 5 y 6 muestran curvas de las energías de la señal a codificar y de los representantes alineados, así como los contornos de las energías inicial y decodificado obtenidos utilizando el procedimiento según la invención,
\bullet la figura 7 esquematiza el codificado del sonido de la señal de palabra, y
\bullet la figura 8 es un ejemplo de codificado del paso.
El principio de codificado según la invención se basa en la utilización de los "mejores representantes", particularmente su información de prosodia, para codificar y/o decodificar al menos uno de los parámetros de prosodia de una señal de palabra, por ejemplo el paso, la energía de la señal, el sonido, la longitud de los segmentos reconocidos.
Para comprimir la prosodia de cadencia muy baja, el principio puesto en práctica utiliza la segmentación del codificador así como las informaciones prosódicas de los "mejores representantes".
La descripción que sigue dada a título ilustrativo y en modo alguno limitativo describe un procedimiento de codificado de la prosodia en un dispositivo de codificado-decodificado de la palabra de cadencia baja que comprende un diccionario obtenido de forma automática, por ejemplo, en el aprendizaje tal como se ha descrito en la figura 1.
El diccionario comprende las informaciones siguientes:
\bullet
varias clases de unidades acústicas UA, determinándose cada clase a partir de un modelo estadístico,
\bullet
para cada clase de unidades acústicas, un conjunto de representantes.
Este diccionario es conocido del codificador y del decodificador. Corresponde por ejemplo a una o varias lenguas y a uno o varios locutores.
El sistema de codificado-decodificado comprende por ejemplo una memoria para almacenar el diccionario, un microprocesador adaptado para determinar los segmentos reconocidos, para la puesta en práctica de las diferentes etapas del procedimiento según la invención y para reconstruir la palabra a partir de los mejores representantes.
El procedimiento según la invención realiza al menos una de las etapas siguientes: el codificado de la longitud de los segmentos, el codificado del alineamiento temporal de los "mejores representantes", el codificado y/o el decodificado de la energía, el codificado y/o el decodificado de la información de sonido y/o el codificado y/o decodificado del paso y/o el decodificado de la longitud de los segmentos y del alineamiento temporal.
Codificado de la longitud de los segmentos
El sistema de codificado determina por término medio un número Ns de segmentos por segundo, por ejemplo 21 segmentos. El tamaño de estos segmentos varía en función de la clase de unidades acústicas UA. Sucede que para la mayoría de las UA, el número de segmentos disminuye según una relación 1/x^{2.6}, donde x es la longitud del segmento.
Una variante de realización del procedimiento según la invención consiste en codificar la diferencia de longitud variable entre el "segmento reconocido" y la longitud del "mejor representante" según un esquema descrito en la figura 2.
En este esquema en la columna de la izquierda figura la longitud de la palabra de código a utilizar y en la columna de la derecha la diferencia de longitud entre la longitud del segmento reconocido por el codificador para la señal de palabra y la del mejor representante.
Según otro modo de realización dado en la figura 3, el codificado de la longitud absoluta de un segmento reconocido se realiza con la ayuda de un código de longitud variable similar al del de Huffman conocido por el experto en la materia, lo cual permite obtener una cadencia del orden de 55 bitios/s.
El hecho de utilizar las largas palabras de código para codificar las longitudes de grandes segmentos reconocidos, permite particularmente conservar el valor de cadencia en una zona de variación limitada. En efecto, estos largos segmentos reducen el número de segmentos reconocidos por segundo y el número de longitudes a codificar.
Resumiendo, se codifica por ejemplo con un código de longitud variable la diferencia entre la longitud del segmento reconocido y la longitud del mejor representante multiplicado por un cierto factor, pudiendo estar este factor comprendido entre 0 (codificado absoluto) y 1 (codificado de la diferencia).
\vskip1.000000\baselineskip
Codificado del alineamiento temporal de los mejores representantes
El alineamiento temporal se realiza por ejemplo siguiendo la vía de DTW (abreviatura anglosajona de Dynamic Time Warping) que se ha determinado en la búsqueda del "mejor representante" para codificar el "segmento reconocido".
La figura 4 representa la vía (C) del DTW correspondiente al contorno temporal que minimiza la distorsión entre el parámetro a codificar (eje de las abscisas), por ejemplo el vector de los coeficientes "cepstrales", y el "mejor representante" (eje de las ordenadas). Este acercamiento se describe en el libro que lleva por título "Traitement de la parole", por el autor René Boite y Murat Kunt publicado por Presses Polytechnique Romandes éditions 1987.
El codificado del alineamiento de los "mejores representantes" se realiza por búsqueda de la proximidad más inmediata en una tabla que contiene formas tipo. La elección de estos formas tipo se realiza por ejemplo por un acercamiento estadístico, tal como el aprendizaje sobre una base de datos de palabra o por un acercamiento algebráico por ejemplo la descripción mediante ecuaciones matemáticas parametrables, siendo estos diferentes métodos conocidos por el experto en la materia.
Según otro acercamiento, valedero en el caso en que los segmentos de pequeño tamaño se encuentren en proporción importante, el procedimiento realiza un alineamiento de los segmentos según la diagonal más bien que la vía exacta del DTW. La cadencia es entonces nula.
\vskip1.000000\baselineskip
Codificado-decodificado de la energía
Cuando se clasifica y analizan los segmentos de la base de datos de palabra pertenecientes a cada una de las clases de unidades acústicas, se observa que se desprende una cierta coherencia en la forma de los contornos de las energías. Además, existen parecidos entre los contornos de energía de los mejores representantes alineados por DTW y los contornos de la energía de la señal a codificar.
El codificado de la energía se describe a continuación en relación con las figuras 5 y 6, donde el eje de las ordenadas corresponde a la energía de la señal de la palabra a codificar expresada en dB y el eje de las abscisas en el tiempo expresado en tramas.
La figura 5 representa la curva (III) que reagrupa los contornos de energía de los mejores representantes alineados y la curva (IV) los contornos de energía de los segmentos reconocidos separados por * en la figura. Un segmento reconocido de índice j está delimitado por dos puntos de coordenadas respectivas [E_{sd}(j); T_{sd}(j)] y [E_{sf}(j); T_{sf}(j)] donde E_{sd}(j) es la energía de comienzo de segmento y E_{sf}(j) la energía de fin de segmento, para los instantes T_{df} y T_{sf} correspondientes. Las referencias E_{rd}(j) y E_{rf}(j) se utilizan para los valores de energías del comienzo y del final de un "mejor representante" y la referencia \DeltaE(j) corresponde a la translación determinada para un segmento reconocido de índice j.
Codificado de la energía
El procedimiento comprende una primera etapa de determinación de la translación a realizar.
Para ello se determina para cada comienzo de "segmento reconocido", la diferencia \DeltaE(j) existente entre el valor de energía E_{rd}(j) del mejor representante (curva III) y el valor de energía E_{sd} del comienzo del segmento reconocido (curva IV). Se obtiene un conjunto de valores \DeltaE(j) que se cuantifica por ejemplo uniformemente con el fin de conocer la translación a aplicar en el decodificado. La cuantificación se realiza por ejemplo utilizando métodos conocidos por el experto en la materia.
Decodificado de la energía de la señal de palabra
El procedimiento consiste particularmente en utilizar los contornos de energía de los mejores representantes (curva III) para reconstruir los contornos de energía de la señal a codificar (curva IV).
Para cada segmento reconocido, una primera etapa consiste en trasladar el contorno de energía del mejor representante para hacerlo coincidir con la primera energía E_{rd}(j) aplicándole la translación \DeltaE(j), definida en la etapa de codificado por ejemplo, para determinar el valor E_{sd}(j). Después de esta primera etapa de translación, el procedimiento comprende una etapa de modificación de la pendiente del contorno de energía del mejor representante con el fin de unir el último valor de energía E_{rd}(j) del "mejor representante" con la primera energía E_{sd}(j+1) del segmento siguiente de índice j+1.
La figura 6 representa las curvas (VI) y (VII) que corresponden respectivamente al contorno de energía original de la señal de palabra a codificar y del contorno de energía decodificado después de la realización de las etapas descritas anteriormente.
Por ejemplo, el codificado de las energías de comienzo de cada segmento sobre 4 bitios permite obtener para el codificado segmental de la energía una cadencia del orden de 80 bitios/s.
\vskip1.000000\baselineskip
Codificado de la información de sonido
La figura 7 representa la evolución temporal de una información de sonido binaria de cuatro segmentos sucesivos 35, 36, 37 para la señal a codificar curva (VII) y para los mejores representantes (curva VIII) después del alineamiento temporal por DTW.
Codificado de la información de sonido
En el codificado, el procedimiento ejecuta una etapa de codificado de la información de sonido, por ejemplo recorriendo la evolución temporal de la información de vibración de las cuerdas vocales de los segmentos reconocidos y la de los mejores representantes alineados (curva VIII) y codificando las diferencias existentes \DeltaT_{k} entre estas dos curvas. Estas diferencias \DeltaT_{k} pueden ser: un avance de la trama, un retraso b de trama, la ausencia y/o la presencia de una transición de referencia c (k correspondiente al índice de un extremo de una zona de sonido).
Para ello, es posible utilizar un código de longitud variable del cual un ejemplo se facilita en la tabla 1 dada a continuación, para codificar la corrección a aportar en cada una de las transiciones de sonido para cada uno de los segmentos reconocidos. Todos los segmentos al no comprender transición de sonido, es posible reducir la cadencia asociada con el sonido codificando solo las transiciones de sonido existentes en el sonido a codificar y en los mejores representantes.
Según este método, la información de sonido se codifica en aproximadamente 22 bitios por segundo.
\vskip1.000000\baselineskip
TABLA 1 Ejemplo de tabla de codificado para las transiciones de sonido
1
Para una información de sonido mixta tal como:
\bullet
el porcentaje de sonido en sub-banda, el análisis de esta información recurre a un método descrito por ejemplo en el documento siguiente:
"Multiband Excitation Vocoders", que tiene por autores D.W. Griffin and J.S. Lim, IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 36, no. 8, páginas 1223-1235, 1988;
\bullet
la frecuencia de transición entre una banda baja vocal y una banda alta sin voz, el codificado utiliza un método tal como el descrito en el documento que tiene por autores C. Laflamme, R. Salami, R. Matmti, and J-P. Adoul, titulado "Harmonic Stochastic Excitation (HSX) speech coding below 4 kbits/s", IEEE International Conference on Acoustics, Speech, and Signal Processing, Atlanta, Mayo 1996, páginas 204-207.
En estos dos casos, el codificado de la información de sonido comprende igualmente el codificado de la variación de la proporción de sonido.
Decodificado de la información de sonido
El decodificador dispone de la información de sonido de los "mejores representantes alineados" obtenida a nivel del codificador.
La corrección se realiza por ejemplo de la forma siguiente:
En cada detección del extremo de una zona de sonido sobre los mejores representantes seleccionados para la síntesis, el procedimiento aporta una información complementaria al decodificador que es la corrección a realizar en este extremo. La corrección puede ser un avance a o un retraso b a aportar a este extremo. Este desplazamiento temporal se expresa por ejemplo en número de tramas con el fin de obtener la posición exacta del extremo de sonido de la señal de palabra original. La corrección puede también tomar la forma de una supresión o de una introducción de una transición.
Codificado del paso
La experiencia muestra que, en registros de palabra, el número de zonas sonoras obtenidas por segundo es por término medio del orden de 3 ó 4. Para darse cuenta fielmente de las variaciones del paso, una forma de proceder consiste en transmitir varios valores de paso por zona sonora. Con el fin de limitar la cadencia, en lugar de transmitir toda la sucesión de los valores de paso en una zona sonora, el contorno del paso es aproximado por una sucesión de segmentos lineales.
Codificado del paso
Para cada zona sonora de la señal de palabra, el procedimiento comprende una etapa de búsqueda de los valores del paso a transmitir. Los valores de paso al comienzo y al final de la zona sonora son sistemáticamente transmitidos. Los otros valores a transmitir se determinan de la forma siguiente:
\bullet el procedimiento considera únicamente los valores del paso al comienzo de los segmentos reconocidos. Partiendo de la recta Di que une los valores del paso en los dos extremos de la zona sonora, el procedimiento busca el comienzo del segmento cuyo valor de paso es el más alejado de esta recta, lo cual corresponde a una distancia d_{max}. Compara este valor d_{max} con un valor umbral d_{umbral}. Si la distancia d_{max} es superior a d_{umbral} el procedimiento descompone la recta inicial Di en dos rectas D_{i1} y D_{i2} tomando el comienzo del segmento encontrado como nuevo valor de paso a transmitir. Esta operación es reiterada sobre estas dos nuevas zonas sonoras delimitadas por las rectas D_{i1} y D_{i2} hasta que la distancia d_{max} encontrada sea inferior a la distancia d_{umbral}.
Para codificar los valores del paso así determinados, el procedimiento utiliza por ejemplo un cuantificador escalar predictivo sobre por ejemplo 5 bitios aplicado al logarítmo del paso.
La predicción es por ejemplo el primer valor de paso del mejor representante correspondiente a la posición del paso a decodificar, multiplicada por un factor de predicción comprendido por ejemplo entre 0 y 1.
Según otro modo de proceder, la predicción puede ser el valor mínimo del registro de palabra a codificar. En este caso, este valor puede ser transmitido al decodificador por cuantificación escalar sobre por ejemplo 8 bitios.
Los valores de los pasos a transmitir al ser determinados y codificados, el procedimiento comprende una etapa donde el espaciamiento temporal se precisa, por ejemplo en número de tramas, entre cada uno de estos valores de paso. Un código de longitud variable permite por ejemplo codificar estos espaciamientos sobre 2 bitios por término medio.
Este modo de proceder permite obtener una cadencia de aproximadamente 65/bitios por segundo para un distancia máxima sobre el periodo de paso de 7 muestras.
Decodificado del paso
La etapa de decodificado comprende primeramente una etapa de decodificado del espaciamiento temporal entre los diferentes valores de paso transmitidos con el fin de recuperar los instantes de actualización del paso, así como el valor del paso para cada uno de estos instantes. El valor del paso para cada uno de los tramos de la zona sonora es reconstituido por ejemplo por interpolación lineal entre los valores transmitidos.

Claims (9)

1. Procedimiento de codificado-decodificado de la palabra utilizando un codificador de cadencia muy baja que comprende una etapa de reconocimiento que permite identificar los "representantes" de la señal de palabra y una etapa de codificado para segmentar la señal de palabra y determinar el "mejor representante" asociado con cada segmento reconocido, caracterizado porque comprende al menos:
una etapa de codificado-decodificado de uno de los parámetros al menos de la prosodia de los segmentos reconocidos, del cual el paso, utiliza una información de prosodia de los "mejores representantes",
una etapa de codificado del paso de los segmentos reconocidos que consiste en:
\bullet
transmitir los valores de paso al comienzo y al final de la zona sonora,
\bullet
partiendo de una recta Di que une los valores del paso en los dos extremos de la indicada zona sonora, el procedimiento busca el comienzo de segmento cuyo valor de paso es el más alejado de esta recta, lo cual corresponde a un distancia d_{max}.
\bullet
luego comparar este valor d_{max} con un valor umbral d_{umbral}.
\circ Si la distancia d_{max} es superior a d_{umbral}, descomponer la recta inicial Di en dos rectas D_{i1} y D_{i2} tomando el comienzo del segmento encontrado D_{i2} como nuevo valor de paso a transmitir,
\circ reiterar la operación de descomposición sobre estas dos nuevas zonas sonoras delimitadas por las rectas D_{i1} y D_{i2} hasta que la distancia d_{max} encontrada sea inferior a la distancia d_{umbral}.
2. Procedimiento según la reivindicación 1, caracterizado porque comprende una etapa de codificado del alineamiento temporal de los mejores representantes utilizando la vía de DTW y buscando la proximidad más inmediata en una tabla de formas.
3. Procedimiento según la reivindicación 1, caracterizado porque la etapa de decodificado de la energía comprende para cada segmento reconocido, una primera etapa que consiste en trasladar el contorno de energía del mejor representante una cantidad \DeltaE(j) para hacer coincidir la primera energía E_{rd}(j) del "mejor representante" con la primera energía E_{sd}(j+1) del segmento reconocido de índice j+1.
4. Procedimiento según una de las reivindicaciones 1 a 2, caracterizado porque la etapa de codificado del paso se realiza por medio de un cuantificador escalar predictivo.
5. Procedimiento según la reivindicación 4, caracterizado porque la predicción es el primer valor del paso del mejor representante que corresponde a la posición del paso a decodificar, multiplicado por un factor de predicción.
6. Procedimiento según la reivindicación 4, caracterizado porque la predicción es el valor mínimo del registro de palabra a codificar.
7. Sistema de codificado-decodificado de la palabra comprendiendo al menos una memoria para almacenar un diccionario que comprende un conjunto de representantes de la señal de palabra, un microprocesador adaptado para determinar los segmentos reconocidos, para reconstruir la palabra a partir de los "mejores representantes" y para realizar las etapas del procedimiento según una de las reivindicaciones 1 a 6.
8. Sistema según la reivindicación 7, caracterizado porque el diccionario de los representantes es común al codificador y al decodificador del sistema codificado-decodificado.
9. Utilización del procedimiento según una de las reivindicaciones 1 a 6 o del sistema según una de las reivindicaciones 7 y 8 en el codificado-decodificado de la palabra para cadencias inferiores a 800 bitios/s y de preferencia inferiores a 400 bitios/s.
ES01402684T 2000-10-18 2001-10-17 Procedimiento de codificado de la prosodia para un codificador de palabra con cadencia muy baja. Expired - Lifetime ES2337020T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0013628A FR2815457B1 (fr) 2000-10-18 2000-10-18 Procede de codage de la prosodie pour un codeur de parole a tres bas debit
FR0013628 2000-10-18

Publications (1)

Publication Number Publication Date
ES2337020T3 true ES2337020T3 (es) 2010-04-20

Family

ID=8855687

Family Applications (1)

Application Number Title Priority Date Filing Date
ES01402684T Expired - Lifetime ES2337020T3 (es) 2000-10-18 2001-10-17 Procedimiento de codificado de la prosodia para un codificador de palabra con cadencia muy baja.

Country Status (10)

Country Link
US (1) US7039584B2 (es)
EP (1) EP1197952B1 (es)
JP (1) JP2002207499A (es)
KR (1) KR20020031305A (es)
AT (1) ATE450856T1 (es)
CA (1) CA2359411C (es)
DE (1) DE60140651D1 (es)
ES (1) ES2337020T3 (es)
FR (1) FR2815457B1 (es)
IL (1) IL145992A0 (es)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US20040166481A1 (en) * 2003-02-26 2004-08-26 Sayling Wen Linear listening and followed-reading language learning system & method
JP4256189B2 (ja) * 2003-03-28 2009-04-22 株式会社ケンウッド 音声信号圧縮装置、音声信号圧縮方法及びプログラム
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
FR2861491B1 (fr) * 2003-10-24 2006-01-06 Thales Sa Procede de selection d'unites de synthese
KR101410230B1 (ko) * 2007-08-17 2014-06-20 삼성전자주식회사 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치
US8374873B2 (en) * 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
CN107256710A (zh) * 2017-08-01 2017-10-17 中国农业大学 一种基于动态时间伸缩算法的哼唱旋律识别方法
CN110265049A (zh) * 2019-05-27 2019-09-20 重庆高开清芯科技产业发展有限公司 一种语音识别方法及语音识别系统
US11830473B2 (en) * 2020-01-21 2023-11-28 Samsung Electronics Co., Ltd. Expressive text-to-speech system and method

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4802223A (en) * 1983-11-03 1989-01-31 Texas Instruments Incorporated Low data rate speech encoding employing syllable pitch patterns
US5305421A (en) * 1991-08-28 1994-04-19 Itt Corporation Low bit rate speech coding system and compression
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5682464A (en) * 1992-06-29 1997-10-28 Kurzweil Applied Intelligence, Inc. Word model candidate preselection for speech recognition using precomputed matrix of thresholded distance values
EP0706172A1 (en) * 1994-10-04 1996-04-10 Hughes Aircraft Company Low bit rate speech encoder and decoder
US6393391B1 (en) * 1998-04-15 2002-05-21 Nec Corporation Speech coder for high quality at low bit rates
US5933805A (en) * 1996-12-13 1999-08-03 Intel Corporation Retaining prosody during speech analysis for later playback
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US6456965B1 (en) * 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
FR2784218B1 (fr) * 1998-10-06 2000-12-08 Thomson Csf Procede de codage de la parole a bas debit
FR2786908B1 (fr) * 1998-12-04 2001-06-08 Thomson Csf Procede et dispositif pour le traitement des sons pour correction auditive des malentendants
US7069216B2 (en) * 2000-09-29 2006-06-27 Nuance Communications, Inc. Corpus-based prosody translation system

Also Published As

Publication number Publication date
ATE450856T1 (de) 2009-12-15
FR2815457A1 (fr) 2002-04-19
KR20020031305A (ko) 2002-05-01
CA2359411C (fr) 2010-07-06
DE60140651D1 (de) 2010-01-14
EP1197952A1 (fr) 2002-04-17
US7039584B2 (en) 2006-05-02
CA2359411A1 (fr) 2002-04-18
IL145992A0 (en) 2002-07-25
EP1197952B1 (fr) 2009-12-02
JP2002207499A (ja) 2002-07-26
US20020065655A1 (en) 2002-05-30
FR2815457B1 (fr) 2003-02-14

Similar Documents

Publication Publication Date Title
JP2527168B2 (ja) 音響信号から導かれた電気信号を区分する方法及び装置
KR100647336B1 (ko) 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US20070118370A1 (en) Methods and apparatuses for variable dimension vector quantization
EP0140777A1 (en) Process for encoding speech and an apparatus for carrying out the process
EP0833305A2 (en) Low bit-rate pitch lag coder
ES2337020T3 (es) Procedimiento de codificado de la prosodia para un codificador de palabra con cadencia muy baja.
CN113781995B (zh) 语音合成方法、装置、电子设备及可读存储介质
ES2326646T3 (es) Procedimiento de seleccion de unidades de sintesis.
Wong et al. Very low data rate speech compression with LPC vector and matrix quantization
US6611797B1 (en) Speech coding/decoding method and apparatus
JPS5827200A (ja) 音声認識装置
KR100463559B1 (ko) 대수 코드북을 이용하는 켈프 보코더의 코드북 검색방법
ES2366551T3 (es) Codificación y decodificación dependiente de una fuente de múltiples libros de códigos.
Chou et al. Variable dimension vector quantization of linear predictive coefficients of speech
ES2338801T3 (es) Procedimiento de cuantificacion de un codificador de palabra de flujo muy bajo.
US20090024396A1 (en) Audio signal encoding method and apparatus
Motlíček et al. Minimization of transition noise and HNM synthesis in very low bit rate speech coding
JP3006790B2 (ja) 音声符号化復号化方法及びその装置
JP3271966B2 (ja) 符号化装置及び符号化方法
JPH09134196A (ja) 音声符号化装置
JP3019342B2 (ja) 音声符号化方式
Buzo et al. Isolated word recognition based upon source coding techniques
Benyassine et al. Finite-State VQ Excitations for CELP Coders
CN113826161A (zh) 用于检测待编解码的声音信号中的起音以及对检测到的起音进行编解码的方法和设备
KR100624545B1 (ko) 티티에스 시스템의 음성압축 및 합성방법