ES2338801T3 - Procedimiento de cuantificacion de un codificador de palabra de flujo muy bajo. - Google Patents

Procedimiento de cuantificacion de un codificador de palabra de flujo muy bajo. Download PDF

Info

Publication number
ES2338801T3
ES2338801T3 ES05733605T ES05733605T ES2338801T3 ES 2338801 T3 ES2338801 T3 ES 2338801T3 ES 05733605 T ES05733605 T ES 05733605T ES 05733605 T ES05733605 T ES 05733605T ES 2338801 T3 ES2338801 T3 ES 2338801T3
Authority
ES
Spain
Prior art keywords
baselineskip
quantification
parameters
sound
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05733605T
Other languages
English (en)
Inventor
Francois Capman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales SA
Original Assignee
Thales SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales SA filed Critical Thales SA
Application granted granted Critical
Publication of ES2338801T3 publication Critical patent/ES2338801T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

Procedimiento de codificado y de decodificado de la palabra para las comunicaciones por voz que utilizan un codificador de voz de flujo muy bajo, 600 bitios por segundo, que comprende una parte de análisis para el codificado y la transmisión de los parámetros de la señal de palabra, tales como la información de sonorización por sub-banda, el paso, las ganancias, los parámetros espectrales LSF y una parte de síntesis para la recepción y el decodificado de los parámetros transmitidos y la reconstrucción de la señal de palabra caracterizado porque comprende al menos las etapas siguientes: - reagrupar los parámetros de sonorización, paso, ganancias, coeficientes LSF en N tramas consecutivas para formar una super-trama, con N = 4, - realizar una cuantificación vectorial de la información de sonorización para cada super-trama elaborando una clasificación que utiliza las informaciones sobre el encadenamiento en términos de sonorización existente en 2, tramas elementales consecutivas, la información de sonorización permite en efecto identificar clases de sonidos para los cuales la asignación del flujo y los diccionarios asociados se optimizarán, - las clases se encuentran en número de 6 y se definen de la forma siguiente: **(Ver fórmula)** - codificar el paso, las ganancias y los coeficientes LSF utilizando la clasificación obtenida.

Description

Procedimiento de cuantificación de un codificador de palabra de flujo muy bajo.
La invención se refiere a un procedimiento de codificado de la palabra. La misma se aplica particularmente en la realización de codificadores de voz de cadencia muy baja, del orden de los 600 bitios por segundo.
La invención se utiliza por ejemplo para el codificador MELP, (codificador de excitación mixta en anglosajón Mixed Excitation Linear Prediction) descrito por ejemplo en una de las referencias [1, 2, 3, 4].
El procedimiento es por ejemplo utilizado en las comunicaciones por satélite, la telefonía en Internet, los respondedores estáticos, los paginadores con voz, etc.
El objetivo de estos codificadores de voz es reconstruir una señal que sea lo más parecida posible, al sentido de la percepción por el oído humano, de la señal de palabra original, utilizando un flujo binario lo más bajo posi-
ble.
Para conseguir este objetivo, la mayoría de los codificadores de voz utilizan un modelo totalmente parametrado de la señal de palabra. Los parámetros utilizados se refieren a: la sonorización que describe el carácter armónico de los sonidos con voz o el carácter estocástico de los sonidos sin voz, la frecuencia fundamental de los sonidos con voz también conocida bajo el vocablo anglosajón "PITCH", la evolución temporal de la energía así como la envoltura espectral de la señal para excitar y parametrar los filtros de síntesis.
En el caso del codificador MELP, los parámetros espectrales utilizados son los coeficientes LSF (en anglosajón Line Spectral Frequencies) derivados de un análisis por predicción lineal, LPC codificado predictivo lineal (en anglosajón Linear Predictive Coding). El análisis se realiza para un flujo clásico de 2400 bitios/seg cada 22.5 ms.
Las informaciones suplementarias extraídas en la modelización son:
\circ
la frecuencia fundamental o paso,
\circ
las ganancias,
\circ
la información de sonorización en sub-banda,
\circ
los coeficientes de Fourier calculados sobre la señal residual después de la predicción lineal.
\vskip1.000000\baselineskip
El documento de ULPU SINERVO et al. describe un método que permite cuantificar los coeficientes espectrales. En el método propuesto, un cuantificador de matriz de tramas múltiples se utiliza para explotar la correlación entre los parámetros LSF de las tramas adyacentes.
El documento de STACHURSKI se refiere a una técnica de codificado para flujos de alrededor de 4 kbitios/s. La técnica de codificado utiliza un modelo MELP en el cual los coeficientes complejos se utilizan en la síntesis de la palabra. En este documento se analiza la importancia de los parámetros.
El objeto de la presente invención es, particularmente, ampliar el modelo MELP al flujo de 600bitios/seg. Los parámetros retenidos son por ejemplo, el paso, los coeficientes espectrales LSF, las ganancias y la sonorización. Las tramas se reagrupan por ejemplo en una super trama de 90 ms, es decir 4 tramas consecutivas de 22.5 ms del esquema inicial (esquema habitualmente utilizado).
Un flujo de 600 bitios/seg se obtiene a partir de una optimización del esquema de cuantificación de los diferentes parámetros (paso, coeficiente LSF, ganancia, sonorización).
La invención como se ha definido en la reivindicación 1, se refiere a un procedimiento de codificado y decodificado de la palabra para las comunicaciones con voz que utilizan un codificador de voz de flujo muy bajo, 600 bitios por segundo, que comprende una parte de análisis para el codificado y la transmisión de los parámetros de la señal de palabra, tales como la información de sonorización por sub-banda, el paso, las ganancias, los parámetros espectrales LSF y una parte de síntesis para la recepción y el decodificado de los parámetros transmitidos y la reconstrucción de la señal de palabra. Se caracteriza porque comprende al menos las etapas siguientes:
\bullet
reagrupar los parámetros de sonorización, paso, ganancias, coeficientes LSF en N tramas consecutivas para formar una super-trama, con N = 4,
\bullet
realizar una cuantificación vectorial de la información de sonorización para cada super-trama elaborando una clasificación que utiliza las informaciones sobre el encadenamiento en términos de sonorización existente en un sub-múltiplo de N, sobre 2, tramas elementales consecutivas, la información de sonorización permite en efecto identificar clases de sonidos para los cuales la asignación del flujo y los diccionarios asociados se optimizarán,
\bullet
codificar el paso, las ganancias y los coeficientes LSF utilizando la clasificación obtenida.
\vskip1.000000\baselineskip
La clasificación es por ejemplo elaborada utilizando las informaciones sobre el encadenamiento en términos de sonorización existente en 2 tramas elementales consecutivas.
El procedimiento según la invención permite ventajosamente ofrecer un codificado fiable para flujos bajos.
Otras características y ventajas de la presente invención aparecerán mejor con la lectura de la descripción de un ejemplo de realización dado a título ilustrativo, anexado con figuras que representan:
\circ La figura 1 un esquema general del procedimiento según la invención para la parte codificador,
\circ La figura 2 el esquema funcional de la cuantificación vectorial de la información de sonido,
\circ Las figuras 3 y 4 el esquema funcional de la cuantificación vectorial del paso,
\circ La figura 5 el esquema funcional de la cuantificación vectorial de los parámetros espectrales (coeficientes LSF),
\circ La figura 6 el esquema funcional de cuantificación vectorial de fases múltiples,
\circ La figura 7 el esquema funcional de la cuantificación vectorial de las ganancias,
\circ La figura 8 un esquema aplicado a la parte decodificador.
\vskip1.000000\baselineskip
El ejemplo detallado dado a continuación, a título ilustrativo y en modo alguno limitativo, se refiere a un codificador MELP adaptado al flujo de 600 bitios/seg.
El procedimiento según la invención se refiere particularmente al codificado de los parámetros que permiten reproducir lo mejor posible con un mínimo de flujo toda la complejidad de la señal de palabra. Los parámetros retenidos son por ejemplo: el paso, los coeficientes espectrales LSF, las ganancias y la sonorización. El procedimiento recurre particularmente a un procedimiento de cuantificación vectorial con clasificación.
La figura 1 esquematiza globalmente las diferentes realizaciones a nivel de un codificador de la palabra. El procedimiento según la invención se desarrolla en 7 etapas principales.
\vskip1.000000\baselineskip
Etapa de análisis de la señal de palabra
La etapa 1 analiza la señal por medio de un algoritmo de tipo MELP conocido por el experto en la materia. En el modelo MELP, una decisión de sonorización es tomada para cada trama de 22.5 ms y para 5 sub-bandas de frecuencias predefinidas.
\vskip1.000000\baselineskip
Etapa de reagrupamiento de los parámetros
Para la etapa 2, el procedimiento reagrupa los parámetros seleccionados: sonorización, paso, ganancias y coeficientes LSF en N tramas consecutivas de 22.5 ms para formar una supertrama de 90 ms. El valor N=4 es elegido por ejemplo para formar un compromiso entre la reducción posible del flujo binario y el retardo introducido por el procedimiento de
\hbox{cuantificación (compatible con las técnicas de
entrelazamiento y de codificado corrector  de errores
actuales).}
\vskip1.000000\baselineskip
Etapa de cuantificación de la información de sonorización - detallada en la figura 2
En la horizontal de una supertrama, la información de sonorización se representa por consiguiente por una matriz de componentes binarios (0: sin voz; 1: con voz) de tamaño (5*4), 5 sub-bandas MELP, 4 tramas.
El procedimiento utiliza un procedimiento de cuantificación vectorial sobre n bitios, con por ejemplo n=5. La distancia utilizada es una distancia euclidiana ponderada con el fin de favorecer las bandas situadas en bajas frecuencias. Se utiliza por ejemplo como vector de ponderación [1.0; 1.0; 0.7; 0.4; 0.1].
La información de sonorización cuantificada permite identificar clases de sonidos para los cuales la asignación del flujo y los diccionarios asociados se optimizarán. Esta información de sonorización es seguidamente utilizada para la cuantificación vectorial de los parámetros espectrales y de las ganancias con pre-clasificación.
El procedimiento puede comprender una etapa de aplicación de necesidades.
En la fase de aprendizaje, el procedimiento recurre por ejemplo a los 4 vectores siguientes [0,0,0,0,0], [1,0,0,0,0], [1,1,1,0,0], [1,1,1,1,1] que indican la sonorización de la banda baja a la banda alta. Cada columna de la matriz de sonorización, asociada con la sonorización de una de las 4 tramas que constituyen la supertrama, se compara con cada uno de estos 4 vectores, y se sustituye por el vector más próximo para el aprendizaje del diccionario.
En el codificado, se aplica la misma necesidad (elección de los 4 vectores precedentes) y se realiza la cuantificación vectorial QV aplicando el diccionario encontrado anteriormente. Se obtienen así los índices de sonorización.
En el caso del modelo MELP, la información de sonorización que forma parte de los parámetros a transmitir, la información de clasificación se encuentra por consiguiente disponible a nivel del decodificador sin sobrecoste en términos de flujo.
En función de la información de sonorización cuantificada, se optimizan los diccionarios. Para ello el procedimiento define por ejemplo 6 clases de sonorización en un horizonte de 2 tramas elementales. La clasificación se determina por ejemplo utilizando las informaciones sobre el encadenamiento en términos de sonorización existente en un submúltiplo de N tramas elementales consecutivas, por ejemplo en 2 tramas elementales consecutivas.
Cada super trama está por consiguiente representada por 2 clases de sonorización. Las 6 clases de sonorización así definidas son por ejemplo:
\vskip1.000000\baselineskip
1
\vskip1.000000\baselineskip
Un diccionario se optimiza para cada nivel de sonorización. Los diccionarios obtenidos se estiman en este caso en unas perspectivas de 2 tramas elementales.
Los vectores obtenidos son por consiguiente de tamaño 20=2*10 coeficientes LSF, según el orden del análisis por predicción lineal en el modelo MELP inicial.
Etapa de definición de los modos de cuantificación detallada en la figura 1
A partir de estas diferentes clases de cuantificación, el procedimiento define 6 modos de cuantificación determinados según el encadenamiento de las clases de sonorización:
2
La tabla 1 reagrupa los diferentes modos de cuantificación en función de la clase de sonorización y la tabla 2 la información de sonorización para cada uno de los 6 modos de cuantificación.
\vskip1.000000\baselineskip
TABLA 1
3
\vskip1.000000\baselineskip
TABLA 2
4
Con el fin de limitar el tamaño de los diccionarios y reducir la complejidad de búsqueda, el procedimiento utiliza un método de cuantificación de tipo multi fases, tal como el método MSVQ (en anglosajón Multi Stage Vector Quantisation) conocido por el experto en la materia.
En el ejemplo facilitado, una supertrama está constituida por 4 vectores de 10 coeficientes LSF y la cuantificación vectorial se aplica para cada reagrupamiento de 2 tramas elementales (2 sub-vectores de 20 coeficientes).
Existen al menos 2 cuantificaciones vectoriales multifases cuyos diccionarios se deducen de la clasificación (tabla 1).
Etapa de cuantificación del paso figuras 3 y 4
El paso se cuantifica de forma diferente según el modo.
\circ
En el caso del modo 1 (sin voz, número de trama con voz igual a 0), ninguna información de paso es transmitida.
\circ
En el caso del modo 2, una sola trama se considera como con voz e identificada por la información de sonorización. El paso se representa entonces en 6 bitios (cuantificación escalar del período de paso después de la compresión logarítmica).
\circ
En los otros modos:
\circ
5 bitios son utilizados para transmitir un valor de paso (cuantificación escalar del período de paso después de la compresión logarítmica),
\circ
2 bitios se utilizan para posicionar el valor de paso en una de las 4 tramas
\circ
1 bitio se utiliza para caracterizar el perfil de evolución.
La figura 4 esquematiza el perfil de evolución del paso. El valor de paso transmitido, su posición y el perfil de evolución se determinan minimizando un criterio de menos cuadrados en la trayectoria de paso estimada en el análisis. Las trayectorias consideradas se obtienen por ejemplo por interpolación lineal entre el último valor de paso de la super trama precedente y el valor de paso que se transmitirá. Si el valor de paso transmitido no está posicionado en la última trama, el indicador del perfil de evolución permite completar la trayectoria bien sea manteniendo el valor alcanzado, o volviendo al valor de "pitch initial" (el último valor de paso de la super trama precedente). El conjunto de posiciones son consideradas, así como todos los valores de paso comprendidos entre el valor de paso cuantificado inmediatamente inferior al paso mínimo estimado en la super trama y el valor de paso cuantificado inmediatamente superior al paso máximo estimado en la super trama.
\vskip1.000000\baselineskip
Etapa de cuantificación de los parámetros espectrales, de los coeficientes LSF detallada en las figuras 5, 6
La tabla 3 proporciona la asignación del flujo para los parámetros espectrales para cada uno de los modos de cuantificación. El reparto del flujo para cada fase se facilita entre paréntesis.
TABLA 3
5
En cada uno de los 6 modos, el flujo es asignado prioritariamente a la clase de sonorización superior, correspondiendo la noción de sonido superior a un número de sub-bandas con voz superior o igual.
Por ejemplo, en el modo 4, las dos tramas consecutivas sin voz se representarán a partir del diccionario (6, 4, 4) mientras que las dos tramas consecutivas con voz se representarán por el diccionario (7, 5, 4). En el modo 2 las dos tramas consecutivas mixtas se representan por el diccionario (7, 5, 4) y las dos tramas consecutivas sin voz por el diccionario (6, 4, 4).
La tabla 4 reagrupa el tamaño de memoria asociado con los diccionarios
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
TABLA 4
6
\vskip1.000000\baselineskip
Etapa de cuantificación del parámetro ganancias detallada en la figura 7
Un vector de m ganancias con m=8 se calcula por ejemplo para cada super trama (2 ganancias por trama de 22,5 ms, esquema utilizado habitualmente para la MELP) m puede tomar cualquier valor, y se utiliza para limitar la complejidad de la búsqueda del mejor vector en el diccionario.
El procedimiento utiliza una cuantificación vectorial con pre-clasificación. La tabla 5 reagrupa los flujos y el tamaño de memoria asociada con los diccionarios.
El procedimiento calcula las ganancias, luego reagrupa las ganancias sobre N tramas, con N= 4 en este ejemplo. Utiliza seguidamente la cuantificación vectorial y el modo de clasificación predefinido (a partir de la información de sonorización) para obtener los índices asociados con las ganancias. Los índices son seguidamente transmitidos a la parte decodificadora del sistema.
TABLA 5
7
El resumen VQ corresponde a la cuantificación vectorial y MSVQ al método de cuantificación vectorial multietapas.
\vskip1.000000\baselineskip
Evaluación del flujo
La Tabla 6 reagrupa la asignación del flujo para la realización del codificador de palabra de tipo MELP de 600 bitios/seg una super trama de 54 bitios (90 ms).
TABLA 6
8
La figura 8 representa el esquema a nivel de la parte de decodificado del codificador de voz. El índice de sonorización transmitido por la parte codificadora se utiliza para generar los modos de cuantificación. Los índices de sonorización, de cuantificación del paso, de las ganancias y de los parámetros espectrales LSF transmitidos por la parte codificadora son descuantificados utilizando los modos de cuantificación obtenidos. Las diferentes etapas se realizadas según un esquema similar al descrito para la parte codificadora del sistema. Los diferentes parámetros descuantificados son seguidamente reagrupados antes de ser transmitidos a la parte de síntesis del decodificador para restituir la señal de palabra.
\vskip1.000000\baselineskip
Referencias
1 - "A Mixed Excitation LPC Vocoder Model for Low Bit Rate Speech Coding", A. V. McCree, T. P. Barnwell III, IEEE Transactions on Speech and Audio Processing, Vol 3, nº 4, páginas 242-250, Julio 1995.
2 - "A 2,4 kbits/s MELP Coder Candidate for the New US Federal Standard", A. V. McCree, K. Truong, E. B. George, T. P. Barnwell III, Viswanathan V., Proceedings of IEEE ICASSP, páginas 200-203, 1996.
3 - "MELP: The New Federal Standard at 2400 BPS", L. Supplee, R. Cohn, J. Collura, A. V. McCree, Proceedings of IEEE ICASSP, páginas 1591-1594, 1997.
4 - "The 1200 and 2400 bit/s NATO Interoperable Narrow Band Voice Coder", NATO STANAG nº 4591.

Claims (12)

1. Procedimiento de codificado y de decodificado de la palabra para las comunicaciones por voz que utilizan un codificador de voz de flujo muy bajo, 600 bitios por segundo, que comprende una parte de análisis para el codificado y la transmisión de los parámetros de la señal de palabra, tales como la información de sonorización por sub-banda, el paso, las ganancias, los parámetros espectrales LSF y una parte de síntesis para la recepción y el decodificado de los parámetros transmitidos y la reconstrucción de la señal de palabra caracterizado porque comprende al menos las etapas siguientes:
\bullet
reagrupar los parámetros de sonorización, paso, ganancias, coeficientes LSF en N tramas consecutivas para formar una super-trama, con N = 4,
\bullet
realizar una cuantificación vectorial de la información de sonorización para cada super-trama elaborando una clasificación que utiliza las informaciones sobre el encadenamiento en términos de sonorización existente en 2, tramas elementales consecutivas, la información de sonorización permite en efecto identificar clases de sonidos para los cuales la asignación del flujo y los diccionarios asociados se optimiza- rán,
\bullet
las clases se encuentran en número de 6 y se definen de la forma siguiente:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
9
\vskip1.000000\baselineskip
\bullet
codificar el paso, las ganancias y los coeficientes LSF utilizando la clasificación obtenida.
\vskip1.000000\baselineskip
2. Procedimiento según la reivindicación 1, caracterizado porque define 6 modos de cuantificación según el encadenamiento de las clases de sonorización.
\newpage
3. Procedimiento según la reivindicación 2, caracterizado porque N=4 y los modos de cuantificación son los siguientes:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
11
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
4. Procedimiento según una de las reivindicaciones 1 a 3, caracterizado porque utiliza un método de cuantificación de tipo etapas múltiples para limitar el tamaño de los diccionarios y reducir la complejidad de búsqueda.
5. Procedimiento según la reivindicación 1, caracterizado porque para cuantificar los parámetros espectrales LSF, el flujo es asignado prioritariamente a la clase de sonido superior.
6. Procedimiento según la reivindicación 3, caracterizado porque la asignación del flujo para cada uno de los modos de cuantificación es el siguiente:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
12
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
7. Procedimiento según la reivindicación 1, caracterizado porque para cuantificar el parámetro de ganancia un vector de al menos 8 ganancias es calculado para cada super trama.
\newpage
8. Procedimiento según la reivindicación 7, caracterizado porque la asignación del flujo para un codificador de tipo MELP a 600 bitio/s y para una super trama de 54 bitios es el siguiente:
\vskip1.000000\baselineskip
13
\vskip1.000000\baselineskip
9. Procedimiento según la reivindicación 1, caracterizado porque para la cuantificación del paso, comprende al menos las etapas siguientes:
\circ
si todas las tramas son sin voz, ninguna información de paso es transmitida,
\circ
si una trama está provista de voz, su posición es identificada por la información de sonorización y su valor es codificado,
\circ
si el número de tramas con voz es superior o igual a 2, se transmite un valor de paso, se posiciona el valor de paso en una de las N tramas, se caracteriza el perfil de evolución.
10. Procedimiento según la reivindicación 9, caracterizado porque se determina el valor de paso transmitido, su posición y el perfil de evolución utilizando un criterio de los menores cuadrados en la trayectoria de paso estimada en el análisis.
11. Procedimiento según la reivindicación 10, caracterizado porque se determinan las trayectorias por interpolación lineal entre el último valor de paso de la super trama precedente y el valor de paso que se transmitirá, si el valor de paso transmitido no está posicionado en la última trama, entonces se completa la trayectoria manteniendo el valor alcanzado o bien volviendo al último valor de paso de la super trama precedente.
12. Utilización del procedimiento según una de las reivindicaciones 1 a 11 en un codificador de palabra de tipo MELP a 600 bitios/s.
ES05733605T 2004-04-19 2005-04-14 Procedimiento de cuantificacion de un codificador de palabra de flujo muy bajo. Active ES2338801T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0404105A FR2869151B1 (fr) 2004-04-19 2004-04-19 Procede de quantification d'un codeur de parole a tres bas debit
FR0404105 2004-04-19

Publications (1)

Publication Number Publication Date
ES2338801T3 true ES2338801T3 (es) 2010-05-12

Family

ID=34945858

Family Applications (1)

Application Number Title Priority Date Filing Date
ES05733605T Active ES2338801T3 (es) 2004-04-19 2005-04-14 Procedimiento de cuantificacion de un codificador de palabra de flujo muy bajo.

Country Status (9)

Country Link
US (1) US7716045B2 (es)
EP (1) EP1756806B1 (es)
AT (1) ATE453909T1 (es)
CA (1) CA2567162C (es)
DE (1) DE602005018637D1 (es)
ES (1) ES2338801T3 (es)
FR (1) FR2869151B1 (es)
PL (1) PL1756806T3 (es)
WO (1) WO2005114653A1 (es)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8538755B2 (en) * 2007-01-31 2013-09-17 Telecom Italia S.P.A. Customizable method and system for emotional recognition
US8712764B2 (en) 2008-07-10 2014-04-29 Voiceage Corporation Device and method for quantizing and inverse quantizing LPC filters in a super-frame
CN114333862B (zh) * 2021-11-10 2024-05-03 腾讯科技(深圳)有限公司 音频编码方法、解码方法、装置、设备、存储介质及产品

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995010760A2 (en) * 1993-10-08 1995-04-20 Comsat Corporation Improved low bit rate vocoders and methods of operation therefor
US6263307B1 (en) * 1995-04-19 2001-07-17 Texas Instruments Incorporated Adaptive weiner filtering using line spectral frequencies
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5806027A (en) * 1996-09-19 1998-09-08 Texas Instruments Incorporated Variable framerate parameter encoding
US6081776A (en) * 1998-07-13 2000-06-27 Lockheed Martin Corp. Speech coding system and method including adaptive finite impulse response filter
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US6475145B1 (en) * 2000-05-17 2002-11-05 Baymar, Inc. Method and apparatus for detection of acid reflux

Also Published As

Publication number Publication date
ATE453909T1 (de) 2010-01-15
WO2005114653A1 (fr) 2005-12-01
FR2869151B1 (fr) 2007-01-26
EP1756806B1 (fr) 2009-12-30
CA2567162C (fr) 2013-07-23
PL1756806T3 (pl) 2010-06-30
FR2869151A1 (fr) 2005-10-21
EP1756806A1 (fr) 2007-02-28
US7716045B2 (en) 2010-05-11
CA2567162A1 (fr) 2005-12-01
DE602005018637D1 (de) 2010-02-11
US20070219789A1 (en) 2007-09-20

Similar Documents

Publication Publication Date Title
US7149683B2 (en) Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
US7315815B1 (en) LPC-harmonic vocoder with superframe structure
US6751587B2 (en) Efficient excitation quantization in noise feedback coding with general noise shaping
US6122608A (en) Method for switched-predictive quantization
KR101175651B1 (ko) 다중 압축 부호화 방법 및 장치
US6871176B2 (en) Phase excited linear prediction encoder
JP3114197B2 (ja) 音声パラメータ符号化方法
US8386267B2 (en) Stereo signal encoding device, stereo signal decoding device and methods for them
EP3125241B1 (en) Method and device for quantization of linear prediction coefficient and method and device for inverse quantization
CN102119414A (zh) 用于在超帧中量化和逆量化线性预测系数滤波器的设备和方法
US6889185B1 (en) Quantization of linear prediction coefficients using perceptual weighting
CN112927703A (zh) 对线性预测系数量化的方法和装置及解量化的方法和装置
US8493244B2 (en) Vector quantization device, vector inverse-quantization device, and methods of same
US20100274556A1 (en) Vector quantizer, vector inverse quantizer, and methods therefor
US7206740B2 (en) Efficient excitation quantization in noise feedback coding with general noise shaping
ES2338801T3 (es) Procedimiento de cuantificacion de un codificador de palabra de flujo muy bajo.
US20010044717A1 (en) Recursively excited linear prediction speech coder
EP0899720B1 (en) Quantization of linear prediction coefficients
Özaydın et al. Matrix quantization and mixed excitation based linear predictive speech coding at very low bit rates
US20100049508A1 (en) Audio encoding device and audio encoding method
US7110942B2 (en) Efficient excitation quantization in a noise feedback coding system using correlation techniques
Xydeas et al. A long history quantization approach to scalar and vector quantization of LSP coefficients
EP0755047B1 (en) Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits
CA2511516C (en) Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
Viswanathan et al. A harmonic deviations linear prediction vocoder for improved narrowband speech transmission