ES2338801T3 - Procedimiento de cuantificacion de un codificador de palabra de flujo muy bajo. - Google Patents
Procedimiento de cuantificacion de un codificador de palabra de flujo muy bajo. Download PDFInfo
- Publication number
- ES2338801T3 ES2338801T3 ES05733605T ES05733605T ES2338801T3 ES 2338801 T3 ES2338801 T3 ES 2338801T3 ES 05733605 T ES05733605 T ES 05733605T ES 05733605 T ES05733605 T ES 05733605T ES 2338801 T3 ES2338801 T3 ES 2338801T3
- Authority
- ES
- Spain
- Prior art keywords
- baselineskip
- quantification
- parameters
- sound
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000011002 quantification Methods 0.000 title claims description 39
- 239000013598 vector Substances 0.000 claims abstract description 30
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 6
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 6
- 238000013139 quantization Methods 0.000 claims abstract description 5
- 230000003595 spectral effect Effects 0.000 claims description 14
- 230000005540 biological transmission Effects 0.000 abstract description 2
- 230000005284 excitation Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
- G10L2019/0005—Multi-stage vector quantisation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
Abstract
Procedimiento de codificado y de decodificado de la palabra para las comunicaciones por voz que utilizan un codificador de voz de flujo muy bajo, 600 bitios por segundo, que comprende una parte de análisis para el codificado y la transmisión de los parámetros de la señal de palabra, tales como la información de sonorización por sub-banda, el paso, las ganancias, los parámetros espectrales LSF y una parte de síntesis para la recepción y el decodificado de los parámetros transmitidos y la reconstrucción de la señal de palabra caracterizado porque comprende al menos las etapas siguientes: - reagrupar los parámetros de sonorización, paso, ganancias, coeficientes LSF en N tramas consecutivas para formar una super-trama, con N = 4, - realizar una cuantificación vectorial de la información de sonorización para cada super-trama elaborando una clasificación que utiliza las informaciones sobre el encadenamiento en términos de sonorización existente en 2, tramas elementales consecutivas, la información de sonorización permite en efecto identificar clases de sonidos para los cuales la asignación del flujo y los diccionarios asociados se optimizarán, - las clases se encuentran en número de 6 y se definen de la forma siguiente: **(Ver fórmula)** - codificar el paso, las ganancias y los coeficientes LSF utilizando la clasificación obtenida.
Description
Procedimiento de cuantificación de un
codificador de palabra de flujo muy bajo.
La invención se refiere a un procedimiento de
codificado de la palabra. La misma se aplica particularmente en la
realización de codificadores de voz de cadencia muy baja, del orden
de los 600 bitios por segundo.
La invención se utiliza por ejemplo para el
codificador MELP, (codificador de excitación mixta en anglosajón
Mixed Excitation Linear Prediction) descrito por ejemplo en una de
las referencias [1, 2, 3, 4].
El procedimiento es por ejemplo utilizado en las
comunicaciones por satélite, la telefonía en Internet, los
respondedores estáticos, los paginadores con voz, etc.
El objetivo de estos codificadores de voz es
reconstruir una señal que sea lo más parecida posible, al sentido
de la percepción por el oído humano, de la señal de palabra
original, utilizando un flujo binario lo más bajo posi-
ble.
ble.
Para conseguir este objetivo, la mayoría de los
codificadores de voz utilizan un modelo totalmente parametrado de
la señal de palabra. Los parámetros utilizados se refieren a: la
sonorización que describe el carácter armónico de los sonidos con
voz o el carácter estocástico de los sonidos sin voz, la frecuencia
fundamental de los sonidos con voz también conocida bajo el vocablo
anglosajón "PITCH", la evolución temporal de la energía así
como la envoltura espectral de la señal para excitar y parametrar
los filtros de síntesis.
En el caso del codificador MELP, los parámetros
espectrales utilizados son los coeficientes LSF (en anglosajón Line
Spectral Frequencies) derivados de un análisis por predicción
lineal, LPC codificado predictivo lineal (en anglosajón Linear
Predictive Coding). El análisis se realiza para un flujo clásico de
2400 bitios/seg cada 22.5 ms.
Las informaciones suplementarias extraídas en la
modelización son:
- \circ
- la frecuencia fundamental o paso,
- \circ
- las ganancias,
- \circ
- la información de sonorización en sub-banda,
- \circ
- los coeficientes de Fourier calculados sobre la señal residual después de la predicción lineal.
\vskip1.000000\baselineskip
El documento de ULPU SINERVO et al.
describe un método que permite cuantificar los coeficientes
espectrales. En el método propuesto, un cuantificador de matriz de
tramas múltiples se utiliza para explotar la correlación entre los
parámetros LSF de las tramas adyacentes.
El documento de STACHURSKI se refiere a una
técnica de codificado para flujos de alrededor de 4 kbitios/s. La
técnica de codificado utiliza un modelo MELP en el cual los
coeficientes complejos se utilizan en la síntesis de la palabra. En
este documento se analiza la importancia de los parámetros.
El objeto de la presente invención es,
particularmente, ampliar el modelo MELP al flujo de 600bitios/seg.
Los parámetros retenidos son por ejemplo, el paso, los coeficientes
espectrales LSF, las ganancias y la sonorización. Las tramas se
reagrupan por ejemplo en una super trama de 90 ms, es decir 4 tramas
consecutivas de 22.5 ms del esquema inicial (esquema habitualmente
utilizado).
Un flujo de 600 bitios/seg se obtiene a partir
de una optimización del esquema de cuantificación de los diferentes
parámetros (paso, coeficiente LSF, ganancia, sonorización).
La invención como se ha definido en la
reivindicación 1, se refiere a un procedimiento de codificado y
decodificado de la palabra para las comunicaciones con voz que
utilizan un codificador de voz de flujo muy bajo, 600 bitios por
segundo, que comprende una parte de análisis para el codificado y la
transmisión de los parámetros de la señal de palabra, tales como la
información de sonorización por sub-banda, el paso,
las ganancias, los parámetros espectrales LSF y una parte de
síntesis para la recepción y el decodificado de los parámetros
transmitidos y la reconstrucción de la señal de palabra. Se
caracteriza porque comprende al menos las etapas siguientes:
- \bullet
- reagrupar los parámetros de sonorización, paso, ganancias, coeficientes LSF en N tramas consecutivas para formar una super-trama, con N = 4,
- \bullet
- realizar una cuantificación vectorial de la información de sonorización para cada super-trama elaborando una clasificación que utiliza las informaciones sobre el encadenamiento en términos de sonorización existente en un sub-múltiplo de N, sobre 2, tramas elementales consecutivas, la información de sonorización permite en efecto identificar clases de sonidos para los cuales la asignación del flujo y los diccionarios asociados se optimizarán,
- \bullet
- codificar el paso, las ganancias y los coeficientes LSF utilizando la clasificación obtenida.
\vskip1.000000\baselineskip
La clasificación es por ejemplo elaborada
utilizando las informaciones sobre el encadenamiento en términos de
sonorización existente en 2 tramas elementales consecutivas.
El procedimiento según la invención permite
ventajosamente ofrecer un codificado fiable para flujos bajos.
Otras características y ventajas de la presente
invención aparecerán mejor con la lectura de la descripción de un
ejemplo de realización dado a título ilustrativo, anexado con
figuras que representan:
\circ La figura 1 un esquema general del
procedimiento según la invención para la parte codificador,
\circ La figura 2 el esquema funcional de la
cuantificación vectorial de la información de sonido,
\circ Las figuras 3 y 4 el esquema funcional
de la cuantificación vectorial del paso,
\circ La figura 5 el esquema funcional de la
cuantificación vectorial de los parámetros espectrales
(coeficientes LSF),
\circ La figura 6 el esquema funcional de
cuantificación vectorial de fases múltiples,
\circ La figura 7 el esquema funcional de la
cuantificación vectorial de las ganancias,
\circ La figura 8 un esquema aplicado a la
parte decodificador.
\vskip1.000000\baselineskip
El ejemplo detallado dado a continuación, a
título ilustrativo y en modo alguno limitativo, se refiere a un
codificador MELP adaptado al flujo de 600 bitios/seg.
El procedimiento según la invención se refiere
particularmente al codificado de los parámetros que permiten
reproducir lo mejor posible con un mínimo de flujo toda la
complejidad de la señal de palabra. Los parámetros retenidos son
por ejemplo: el paso, los coeficientes espectrales LSF, las
ganancias y la sonorización. El procedimiento recurre
particularmente a un procedimiento de cuantificación vectorial con
clasificación.
La figura 1 esquematiza globalmente las
diferentes realizaciones a nivel de un codificador de la palabra.
El procedimiento según la invención se desarrolla en 7 etapas
principales.
\vskip1.000000\baselineskip
La etapa 1 analiza la señal por medio de un
algoritmo de tipo MELP conocido por el experto en la materia. En el
modelo MELP, una decisión de sonorización es tomada para cada trama
de 22.5 ms y para 5 sub-bandas de frecuencias
predefinidas.
\vskip1.000000\baselineskip
Para la etapa 2, el procedimiento reagrupa los
parámetros seleccionados: sonorización, paso, ganancias y
coeficientes LSF en N tramas consecutivas de 22.5 ms para formar
una supertrama de 90 ms. El valor N=4 es elegido por ejemplo para
formar un compromiso entre la reducción posible del flujo binario y
el retardo introducido por el procedimiento de
\hbox{cuantificación (compatible con las técnicas de entrelazamiento y de codificado corrector de errores actuales).}
\vskip1.000000\baselineskip
En la horizontal de una supertrama, la
información de sonorización se representa por consiguiente por una
matriz de componentes binarios (0: sin voz; 1: con voz) de tamaño
(5*4), 5 sub-bandas MELP, 4 tramas.
El procedimiento utiliza un procedimiento de
cuantificación vectorial sobre n bitios, con por ejemplo n=5. La
distancia utilizada es una distancia euclidiana ponderada con el fin
de favorecer las bandas situadas en bajas frecuencias. Se utiliza
por ejemplo como vector de ponderación [1.0; 1.0; 0.7; 0.4;
0.1].
La información de sonorización cuantificada
permite identificar clases de sonidos para los cuales la asignación
del flujo y los diccionarios asociados se optimizarán. Esta
información de sonorización es seguidamente utilizada para la
cuantificación vectorial de los parámetros espectrales y de las
ganancias con pre-clasificación.
El procedimiento puede comprender una etapa de
aplicación de necesidades.
En la fase de aprendizaje, el procedimiento
recurre por ejemplo a los 4 vectores siguientes [0,0,0,0,0],
[1,0,0,0,0], [1,1,1,0,0], [1,1,1,1,1] que indican la sonorización
de la banda baja a la banda alta. Cada columna de la matriz de
sonorización, asociada con la sonorización de una de las 4 tramas
que constituyen la supertrama, se compara con cada uno de estos 4
vectores, y se sustituye por el vector más próximo para el
aprendizaje del diccionario.
En el codificado, se aplica la misma necesidad
(elección de los 4 vectores precedentes) y se realiza la
cuantificación vectorial QV aplicando el diccionario encontrado
anteriormente. Se obtienen así los índices de sonorización.
En el caso del modelo MELP, la información de
sonorización que forma parte de los parámetros a transmitir, la
información de clasificación se encuentra por consiguiente
disponible a nivel del decodificador sin sobrecoste en términos de
flujo.
En función de la información de sonorización
cuantificada, se optimizan los diccionarios. Para ello el
procedimiento define por ejemplo 6 clases de sonorización en un
horizonte de 2 tramas elementales. La clasificación se determina
por ejemplo utilizando las informaciones sobre el encadenamiento en
términos de sonorización existente en un submúltiplo de N tramas
elementales consecutivas, por ejemplo en 2 tramas elementales
consecutivas.
Cada super trama está por consiguiente
representada por 2 clases de sonorización. Las 6 clases de
sonorización así definidas son por ejemplo:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Un diccionario se optimiza para cada nivel de
sonorización. Los diccionarios obtenidos se estiman en este caso en
unas perspectivas de 2 tramas elementales.
Los vectores obtenidos son por consiguiente de
tamaño 20=2*10 coeficientes LSF, según el orden del análisis por
predicción lineal en el modelo MELP inicial.
A partir de estas diferentes clases de
cuantificación, el procedimiento define 6 modos de cuantificación
determinados según el encadenamiento de las clases de
sonorización:
La tabla 1 reagrupa los diferentes modos de
cuantificación en función de la clase de sonorización y la tabla 2
la información de sonorización para cada uno de los 6 modos de
cuantificación.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Con el fin de limitar el tamaño de los
diccionarios y reducir la complejidad de búsqueda, el procedimiento
utiliza un método de cuantificación de tipo multi fases, tal como el
método MSVQ (en anglosajón Multi Stage Vector Quantisation)
conocido por el experto en la materia.
En el ejemplo facilitado, una supertrama está
constituida por 4 vectores de 10 coeficientes LSF y la
cuantificación vectorial se aplica para cada reagrupamiento de 2
tramas elementales (2 sub-vectores de 20
coeficientes).
Existen al menos 2 cuantificaciones vectoriales
multifases cuyos diccionarios se deducen de la clasificación (tabla
1).
El paso se cuantifica de forma diferente según
el modo.
- \circ
- En el caso del modo 1 (sin voz, número de trama con voz igual a 0), ninguna información de paso es transmitida.
- \circ
- En el caso del modo 2, una sola trama se considera como con voz e identificada por la información de sonorización. El paso se representa entonces en 6 bitios (cuantificación escalar del período de paso después de la compresión logarítmica).
- \circ
- En los otros modos:
- \circ
- 5 bitios son utilizados para transmitir un valor de paso (cuantificación escalar del período de paso después de la compresión logarítmica),
- \circ
- 2 bitios se utilizan para posicionar el valor de paso en una de las 4 tramas
- \circ
- 1 bitio se utiliza para caracterizar el perfil de evolución.
La figura 4 esquematiza el perfil de evolución
del paso. El valor de paso transmitido, su posición y el perfil de
evolución se determinan minimizando un criterio de menos cuadrados
en la trayectoria de paso estimada en el análisis. Las trayectorias
consideradas se obtienen por ejemplo por interpolación lineal entre
el último valor de paso de la super trama precedente y el valor de
paso que se transmitirá. Si el valor de paso transmitido no está
posicionado en la última trama, el indicador del perfil de evolución
permite completar la trayectoria bien sea manteniendo el valor
alcanzado, o volviendo al valor de "pitch initial" (el último
valor de paso de la super trama precedente). El conjunto de
posiciones son consideradas, así como todos los valores de paso
comprendidos entre el valor de paso cuantificado inmediatamente
inferior al paso mínimo estimado en la super trama y el valor de
paso cuantificado inmediatamente superior al paso máximo estimado en
la super trama.
\vskip1.000000\baselineskip
La tabla 3 proporciona la asignación del flujo
para los parámetros espectrales para cada uno de los modos de
cuantificación. El reparto del flujo para cada fase se facilita
entre paréntesis.
En cada uno de los 6 modos, el flujo es asignado
prioritariamente a la clase de sonorización superior,
correspondiendo la noción de sonido superior a un número de
sub-bandas con voz superior o igual.
Por ejemplo, en el modo 4, las dos tramas
consecutivas sin voz se representarán a partir del diccionario (6,
4, 4) mientras que las dos tramas consecutivas con voz se
representarán por el diccionario (7, 5, 4). En el modo 2 las dos
tramas consecutivas mixtas se representan por el diccionario (7, 5,
4) y las dos tramas consecutivas sin voz por el diccionario (6, 4,
4).
La tabla 4 reagrupa el tamaño de memoria
asociado con los diccionarios
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Un vector de m ganancias con m=8 se calcula por
ejemplo para cada super trama (2 ganancias por trama de 22,5 ms,
esquema utilizado habitualmente para la MELP) m puede tomar
cualquier valor, y se utiliza para limitar la complejidad de la
búsqueda del mejor vector en el diccionario.
El procedimiento utiliza una cuantificación
vectorial con pre-clasificación. La tabla 5 reagrupa
los flujos y el tamaño de memoria asociada con los
diccionarios.
El procedimiento calcula las ganancias, luego
reagrupa las ganancias sobre N tramas, con N= 4 en este ejemplo.
Utiliza seguidamente la cuantificación vectorial y el modo de
clasificación predefinido (a partir de la información de
sonorización) para obtener los índices asociados con las ganancias.
Los índices son seguidamente transmitidos a la parte decodificadora
del sistema.
El resumen VQ corresponde a la cuantificación
vectorial y MSVQ al método de cuantificación vectorial
multietapas.
\vskip1.000000\baselineskip
La Tabla 6 reagrupa la asignación del flujo para
la realización del codificador de palabra de tipo MELP de 600
bitios/seg una super trama de 54 bitios (90 ms).
La figura 8 representa el esquema a nivel de la
parte de decodificado del codificador de voz. El índice de
sonorización transmitido por la parte codificadora se utiliza para
generar los modos de cuantificación. Los índices de sonorización,
de cuantificación del paso, de las ganancias y de los parámetros
espectrales LSF transmitidos por la parte codificadora son
descuantificados utilizando los modos de cuantificación obtenidos.
Las diferentes etapas se realizadas según un esquema similar al
descrito para la parte codificadora del sistema. Los diferentes
parámetros descuantificados son seguidamente reagrupados antes de
ser transmitidos a la parte de síntesis del decodificador para
restituir la señal de palabra.
\vskip1.000000\baselineskip
1 - "A Mixed Excitation LPC Vocoder Model for
Low Bit Rate Speech Coding", A. V. McCree, T. P.
Barnwell III, IEEE Transactions on Speech and Audio
Processing, Vol 3, nº 4, páginas 242-250, Julio
1995.
2 - "A 2,4 kbits/s MELP Coder Candidate for
the New US Federal Standard", A. V. McCree, K.
Truong, E. B. George, T. P. Barnwell III,
Viswanathan V., Proceedings of IEEE ICASSP, páginas
200-203, 1996.
3 - "MELP: The New Federal Standard at 2400
BPS", L. Supplee, R. Cohn, J. Collura, A. V.
McCree, Proceedings of IEEE ICASSP, páginas
1591-1594, 1997.
4 - "The 1200 and 2400 bit/s NATO
Interoperable Narrow Band Voice Coder", NATO STANAG nº 4591.
Claims (12)
1. Procedimiento de codificado y de decodificado
de la palabra para las comunicaciones por voz que utilizan un
codificador de voz de flujo muy bajo, 600 bitios por segundo, que
comprende una parte de análisis para el codificado y la transmisión
de los parámetros de la señal de palabra, tales como la información
de sonorización por sub-banda, el paso, las
ganancias, los parámetros espectrales LSF y una parte de síntesis
para la recepción y el decodificado de los parámetros transmitidos
y la reconstrucción de la señal de palabra caracterizado
porque comprende al menos las etapas siguientes:
- \bullet
- reagrupar los parámetros de sonorización, paso, ganancias, coeficientes LSF en N tramas consecutivas para formar una super-trama, con N = 4,
- \bullet
- realizar una cuantificación vectorial de la información de sonorización para cada super-trama elaborando una clasificación que utiliza las informaciones sobre el encadenamiento en términos de sonorización existente en 2, tramas elementales consecutivas, la información de sonorización permite en efecto identificar clases de sonidos para los cuales la asignación del flujo y los diccionarios asociados se optimiza- rán,
- \bullet
- las clases se encuentran en número de 6 y se definen de la forma siguiente:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
- \bullet
- codificar el paso, las ganancias y los coeficientes LSF utilizando la clasificación obtenida.
\vskip1.000000\baselineskip
2. Procedimiento según la reivindicación 1,
caracterizado porque define 6 modos de cuantificación según
el encadenamiento de las clases de sonorización.
\newpage
3. Procedimiento según la reivindicación 2,
caracterizado porque N=4 y los modos de cuantificación son
los siguientes:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
4. Procedimiento según una de las
reivindicaciones 1 a 3, caracterizado porque utiliza un
método de cuantificación de tipo etapas múltiples para limitar el
tamaño de los diccionarios y reducir la complejidad de búsqueda.
5. Procedimiento según la reivindicación 1,
caracterizado porque para cuantificar los parámetros
espectrales LSF, el flujo es asignado prioritariamente a la clase
de sonido superior.
6. Procedimiento según la reivindicación 3,
caracterizado porque la asignación del flujo para cada uno de
los modos de cuantificación es el siguiente:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
7. Procedimiento según la reivindicación 1,
caracterizado porque para cuantificar el parámetro de
ganancia un vector de al menos 8 ganancias es calculado para cada
super trama.
\newpage
8. Procedimiento según la reivindicación 7,
caracterizado porque la asignación del flujo para un
codificador de tipo MELP a 600 bitio/s y para una super trama de 54
bitios es el siguiente:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
9. Procedimiento según la reivindicación 1,
caracterizado porque para la cuantificación del paso,
comprende al menos las etapas siguientes:
- \circ
- si todas las tramas son sin voz, ninguna información de paso es transmitida,
- \circ
- si una trama está provista de voz, su posición es identificada por la información de sonorización y su valor es codificado,
- \circ
- si el número de tramas con voz es superior o igual a 2, se transmite un valor de paso, se posiciona el valor de paso en una de las N tramas, se caracteriza el perfil de evolución.
10. Procedimiento según la reivindicación 9,
caracterizado porque se determina el valor de paso
transmitido, su posición y el perfil de evolución utilizando un
criterio de los menores cuadrados en la trayectoria de paso
estimada en el análisis.
11. Procedimiento según la reivindicación 10,
caracterizado porque se determinan las trayectorias por
interpolación lineal entre el último valor de paso de la super
trama precedente y el valor de paso que se transmitirá, si el valor
de paso transmitido no está posicionado en la última trama, entonces
se completa la trayectoria manteniendo el valor alcanzado o bien
volviendo al último valor de paso de la super trama precedente.
12. Utilización del procedimiento según una de
las reivindicaciones 1 a 11 en un codificador de palabra de tipo
MELP a 600 bitios/s.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0404105A FR2869151B1 (fr) | 2004-04-19 | 2004-04-19 | Procede de quantification d'un codeur de parole a tres bas debit |
FR0404105 | 2004-04-19 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2338801T3 true ES2338801T3 (es) | 2010-05-12 |
Family
ID=34945858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05733605T Active ES2338801T3 (es) | 2004-04-19 | 2005-04-14 | Procedimiento de cuantificacion de un codificador de palabra de flujo muy bajo. |
Country Status (9)
Country | Link |
---|---|
US (1) | US7716045B2 (es) |
EP (1) | EP1756806B1 (es) |
AT (1) | ATE453909T1 (es) |
CA (1) | CA2567162C (es) |
DE (1) | DE602005018637D1 (es) |
ES (1) | ES2338801T3 (es) |
FR (1) | FR2869151B1 (es) |
PL (1) | PL1756806T3 (es) |
WO (1) | WO2005114653A1 (es) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8538755B2 (en) * | 2007-01-31 | 2013-09-17 | Telecom Italia S.P.A. | Customizable method and system for emotional recognition |
US8712764B2 (en) | 2008-07-10 | 2014-04-29 | Voiceage Corporation | Device and method for quantizing and inverse quantizing LPC filters in a super-frame |
CN114333862B (zh) * | 2021-11-10 | 2024-05-03 | 腾讯科技(深圳)有限公司 | 音频编码方法、解码方法、装置、设备、存储介质及产品 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995010760A2 (en) * | 1993-10-08 | 1995-04-20 | Comsat Corporation | Improved low bit rate vocoders and methods of operation therefor |
US6263307B1 (en) * | 1995-04-19 | 2001-07-17 | Texas Instruments Incorporated | Adaptive weiner filtering using line spectral frequencies |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US5806027A (en) * | 1996-09-19 | 1998-09-08 | Texas Instruments Incorporated | Variable framerate parameter encoding |
US6081776A (en) * | 1998-07-13 | 2000-06-27 | Lockheed Martin Corp. | Speech coding system and method including adaptive finite impulse response filter |
US6377915B1 (en) * | 1999-03-17 | 2002-04-23 | Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. | Speech decoding using mix ratio table |
US7315815B1 (en) * | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
US6475145B1 (en) * | 2000-05-17 | 2002-11-05 | Baymar, Inc. | Method and apparatus for detection of acid reflux |
-
2004
- 2004-04-19 FR FR0404105A patent/FR2869151B1/fr not_active Expired - Fee Related
-
2005
- 2005-04-14 PL PL05733605T patent/PL1756806T3/pl unknown
- 2005-04-14 US US11/578,663 patent/US7716045B2/en not_active Expired - Fee Related
- 2005-04-14 EP EP05733605A patent/EP1756806B1/fr active Active
- 2005-04-14 ES ES05733605T patent/ES2338801T3/es active Active
- 2005-04-14 AT AT05733605T patent/ATE453909T1/de not_active IP Right Cessation
- 2005-04-14 WO PCT/EP2005/051661 patent/WO2005114653A1/fr active Application Filing
- 2005-04-14 CA CA2567162A patent/CA2567162C/fr not_active Expired - Fee Related
- 2005-04-14 DE DE602005018637T patent/DE602005018637D1/de active Active
Also Published As
Publication number | Publication date |
---|---|
ATE453909T1 (de) | 2010-01-15 |
WO2005114653A1 (fr) | 2005-12-01 |
FR2869151B1 (fr) | 2007-01-26 |
EP1756806B1 (fr) | 2009-12-30 |
CA2567162C (fr) | 2013-07-23 |
PL1756806T3 (pl) | 2010-06-30 |
FR2869151A1 (fr) | 2005-10-21 |
EP1756806A1 (fr) | 2007-02-28 |
US7716045B2 (en) | 2010-05-11 |
CA2567162A1 (fr) | 2005-12-01 |
DE602005018637D1 (de) | 2010-02-11 |
US20070219789A1 (en) | 2007-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7149683B2 (en) | Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding | |
US7315815B1 (en) | LPC-harmonic vocoder with superframe structure | |
US6751587B2 (en) | Efficient excitation quantization in noise feedback coding with general noise shaping | |
US6122608A (en) | Method for switched-predictive quantization | |
KR101175651B1 (ko) | 다중 압축 부호화 방법 및 장치 | |
US6871176B2 (en) | Phase excited linear prediction encoder | |
JP3114197B2 (ja) | 音声パラメータ符号化方法 | |
US8386267B2 (en) | Stereo signal encoding device, stereo signal decoding device and methods for them | |
EP3125241B1 (en) | Method and device for quantization of linear prediction coefficient and method and device for inverse quantization | |
CN102119414A (zh) | 用于在超帧中量化和逆量化线性预测系数滤波器的设备和方法 | |
US6889185B1 (en) | Quantization of linear prediction coefficients using perceptual weighting | |
CN112927703A (zh) | 对线性预测系数量化的方法和装置及解量化的方法和装置 | |
US8493244B2 (en) | Vector quantization device, vector inverse-quantization device, and methods of same | |
US20100274556A1 (en) | Vector quantizer, vector inverse quantizer, and methods therefor | |
US7206740B2 (en) | Efficient excitation quantization in noise feedback coding with general noise shaping | |
ES2338801T3 (es) | Procedimiento de cuantificacion de un codificador de palabra de flujo muy bajo. | |
US20010044717A1 (en) | Recursively excited linear prediction speech coder | |
EP0899720B1 (en) | Quantization of linear prediction coefficients | |
Özaydın et al. | Matrix quantization and mixed excitation based linear predictive speech coding at very low bit rates | |
US20100049508A1 (en) | Audio encoding device and audio encoding method | |
US7110942B2 (en) | Efficient excitation quantization in a noise feedback coding system using correlation techniques | |
Xydeas et al. | A long history quantization approach to scalar and vector quantization of LSP coefficients | |
EP0755047B1 (en) | Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits | |
CA2511516C (en) | Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding | |
Viswanathan et al. | A harmonic deviations linear prediction vocoder for improved narrowband speech transmission |