ES2373968T3 - Red de comunicación para transmitir señales de voz. - Google Patents

Red de comunicación para transmitir señales de voz. Download PDF

Info

Publication number
ES2373968T3
ES2373968T3 ES06118093T ES06118093T ES2373968T3 ES 2373968 T3 ES2373968 T3 ES 2373968T3 ES 06118093 T ES06118093 T ES 06118093T ES 06118093 T ES06118093 T ES 06118093T ES 2373968 T3 ES2373968 T3 ES 2373968T3
Authority
ES
Spain
Prior art keywords
signal
voice
prediction coefficients
prediction
coefficients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES06118093T
Other languages
English (en)
Inventor
Rakesh Taori
Andreas J. Gerrits
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of ES2373968T3 publication Critical patent/ES2373968T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Abstract

Decodificador (40) de voz para reconstruir una señal (28) de voz representada por una secuencia de símbolos que incluye una representación de una pluralidad de coeficientes de predicción (PR) y una representación de una señal de excitación (EX), comprendiendo el decodificador (40) de voz medios (70) para extraer la señal de excitación (EX) y los coeficientes de predicción (PR) de la señal (28) de voz, estando dispuesto el decodificador (40) de voz para reconstruir una señal de voz usando la señal de excitación (EX) y los coeficientes de predicción (PR), caracterizado porque el decodificador (40) de voz comprende medios (74) para extraer sólo un número reducido de coeficientes de predicción (PR) de la señal (28) de voz, y porque el decodificador (40) de voz está dispuesto para reconstruir la señal de voz usando la señal de excitación (EX) y el número reducido de coeficientes de predicción, siendo el número reducido de coeficientes de predicción los primeros coeficientes de predicción de la pluralidad de coeficientes de predicción.

Description

Red de comunicación para transmitir señales de voz.
La presente invención se refiere a un receptor para recibir una señal de voz representada por una secuencia de símbolos que incluye una representación de una pluralidad de coeficientes de predicción y una representación de una señal de excitación, comprendiendo el receptor medios para extraer la señal de excitación y los coeficientes de predicción de la señal de voz, estando dispuesto el receptor para reconstruir una señal de voz usando la señal de excitación y los coeficientes de predicción.
La presente invención también se refiere a un decodificador de voz para reconstruir una señal de voz, un método para recibir una señal de voz y un método para reconstruir una señal de voz.
Se conoce un sistema y una red de comunicación a partir del artículo “Real Time Communication on the Net” en PC Magazine, 8 de octubre de 1996, págs. 102-120.
Con un número rápidamente creciente de usuarios de Internet y los desarrollos avanzados en la codificación de voz, la telefonía basada en Internet puede convertirse en una alternativa real para la red de PSTN común. Esto sucede en particular para llamadas internacionales, debido a los ahorros sustanciales que pueden obtenerse. El sistema de comunicación conocido usa un codificador de voz para reducir la tasa de transmisión de bits requerida desde los 64 kb/s convencionales hasta una tasa de transmisión sustancialmente inferior que oscila desde los 2-16 kb/s.
La mayoría de los codificadores de voz derivan parámetros para un filtro de síntesis en el decodificador de voz junto con una señal de excitación adecuada para su aplicación al filtro de síntesis. La determinación de los parámetros de filtro se basa en los denominados parámetros de predicción que definen el espectro a corto plazo de la señal de voz de entrada. La señal de excitación puede hallarse de diferentes maneras. Una manera, el análisis por método de síntesis, implica sintetizar una señal de voz usando un número predeterminado de señales de excitación, y seleccionar la señal de excitación lo que da como resultado una señal de voz sintética que proporciona la mejor coincidencia con la señal de voz de entrada. Otra manera de hallar la señal de excitación es filtrar la señal de voz de entrada con un filtro de síntesis inverso, y codificar la señal residual en la salida de dicho filtro.
Un problema con el sistema de comunicación conocido es que es posible que se ofrezca más tráfico de voz a la red del que puede procesar. Esto puede conducir a una pérdida de conexión o un gran retardo de la señal de voz que va a transmitirse. También es posible que una señal de voz se codifique según un formato que es demasiado complejo de decodificar con el decodificador disponible en el receptor.
El objeto de la presente invención según las reivindicaciones 1 y 3 es proporcionar una red de comunicación en la que al menos se palie uno de los problemas mencionados anteriormente.
Por tanto el receptor se caracteriza porque el receptor comprende medios para extraer sólo un número reducido de coeficientes de predicción de dicha señal de voz, y porque el receptor está dispuesto para reconstruir la señal de voz usando la señal de excitación y el número reducido de coeficientes de predicción.
Si la red fuera del receptor está dispuesta para borrar una parte de la secuencia de símbolos que representa los parámetros de predicción, la carga de la red puede reducirse sustancialmente. Si el receptor está dispuesto para borrar una parte de la secuencia de símbolos que representa los parámetros de predicción, la complejidad del filtro de síntesis, y con ello la complejidad del receptor, pueden reducirse a una cantidad que el decodificador puede decodificar la parte restante de la secuencia de símbolos. Borrando una parte de la secuencia de símbolos que representa algunos de los parámetros de predicción, la señal de voz aún puede reproducirse usando un filtro de síntesis que usa sólo los parámetros de predicción que están disponibles, a expensas de una calidad de voz ligeramente degradada.
Dicha representación de coeficientes de predicción puede basarse en coeficientes de reflexión. El uso de una representación basada en coeficientes de reflexión tiene la ventaja de que incluso un número reducido de coeficientes de reflexión recibidos pueden usarse directamente para controlar el filtro de síntesis. Con algunas otras representaciones de los parámetros de predicción, tales como los parámetros a o frecuencias espectrales de línea, una síntesis basada en un número reducido de coeficientes recibidos podría conducir a una calidad de voz sustancialmente reducida.
Dicha representación de coeficientes de predicción puede comprende razones de área logarítmicas. El uso de las razones de área logarítmicas tiene la ventaja de que tienen las mismas propiedades que los coeficientes de reflexión con respecto a la adecuación para derivar fácilmente los parámetros para el filtro de síntesis. Las razones de área logarítmicas también tienen la propiedad de que la cuantificación no provoca grandes errores de síntesis si los parámetros del filtro de síntesis se derivan de razones de área logarítmicas cuantificados.
La patente US 5.353.373 da a conocer un sistema para una codificación incrustada de señales de voz. Según este sistema, un conjunto de posibles señales de excitación se subdivide en una pluralidad de subconjuntos. Uno primero de estos subconjuntos proporciona la contribución a la señal codificada necesaria para establecer una transmisión a una tasa de transmisión mínima garantizada por la red. Los demás subconjuntos suministran una contribución que, cuando se añade a la del primer subconjunto, provoca un aumento de tasa de transmisión mediante etapas sucesivas. En el lado receptor, se genera una señal decodificada usando la contribución de excitación del primer subconjunto solo si las señales codificadas se reciben a la tasa de transmisión mínima, mientras que para tasas de transmisión superiores a la tasa de transmisión mínima también se usan las contribuciones de los subconjuntos que han permitido tal aumento de tasa de transmisión.
Ahora se explicará la presente invención con referencia a los dibujos. En estos muestran:
la figura 1, una red de comunicación según la invención, en la que tiene lugar una reducción de tasa de transmisión de bits dentro de la red;
la figura 2, la constitución de una trama que comprende una secuencia de símbolos que representa la señal de voz;
la figura 3, un diagrama de bloques de un receptor que va a usarse en una red según la invención;
la figura 4, un diagrama de bloques de los medios de reducción de tasa de transmisión de bits para su uso en la red según la figura 1;
la figura 5, una implementación alternativa de la combinación de los medios 38 de reducción de tasa de transmisión de bits y un deformateador 42 de flujo de bits para su uso en el receptor según la figura 3.
En la red de comunicación según la figura 1, un transmisor 1 y un receptor 8 están conectados a una red 4 de transmisión. La entrada del transmisor 1 está conectada a una entrada de un codificador 2 de voz. Una primera salida del codificador 2 de voz, que lleva una señal PR que representa los coeficientes de predicción, está conectada a una primera entrada de un multiplexor 3. Una segunda salida del codificador 2 de voz, que lleva una señal EX que representa la señal de excitación, está conectada a una segunda entrada del multiplexor 3. La salida del multiplexor 3 está acoplada a la salida del transmisor 1.
La salida del transmisor 1 está conectada a un nodo 10 en una red 4 de transmisión. El nodo 10 está conectado a los nodos 12 y 14. El nodo 14 también está acoplado a un nodo 24. El nodo 24 comprende medios para borrar una parte de la secuencia de símbolos para hacerse referencia a los mismos como medios 26 de reducción de tasa de transmisión de bits. El nodo 24 está conectado a un nodo 16, un nodo 20 y un nodo 22.
El nodo 22 también está conectado al nodo 12. Un terminal 6 está conectado al nodo 16, nodo que también está conectado al nodo 20 y al nodo 18. El nodo 18 está conectado al nodo 20. Un receptor 8 está conectado al nodo 20 en la red 4 de transmisión.
En la explicación de la red de comunicación según la figura 1, se supone que el codificador 2 de voz está dispuesto para codificar tramas que comprenden una pluralidad de muestras de la señal de voz de entrada. En el codificador de voz una vez por trama se calcula un número de coeficientes de predicción que representan el espectro a corto plazo de la señal de voz a partir de la señal de voz. Los coeficientes de predicción pueden tener diversas representaciones. Las representaciones más básicas son los denominados parámetros a. Los parámetros a a[i] se determinan minimizando una señal de error. Se conocen diferentes tipos de señales de error que van a minimizarse. Se proporciona un ejemplo por:
NP
E =L (s(n)-La[i]. s(n -i))2 (1)
n=1 i= I
En (1) s(n) representa las muestras de voz, N representa el número de muestras en una trama de voz, P representa el orden de predicción, e i y n son parámetros de ejecución. Normalmente los parámetros a no se transmiten porque son muy sensibles a errores de cuantificación. Una mejora de este aspecto puede obtenerse usando los denominados coeficientes de reflexión o derivados de los mismos tales como razones de área logarítmicas y la transformación de seno inversa. Los coeficientes de reflexión r[i] pueden determinarse a partir de los parámetros a según la siguiente recursión:
a[i] = a[i]
(i)
r[i] =a [i] i =P, P -1,...2,1 (2)
(i)(i)(i-1)
(i-1) a [m] +a [i].a [i -m]
a [m] = 2;m =1,...,i -1
1-r[i]
Las razones de área logarítmicas y la transformación de seno inversa se definen respectivamente como:
(1-r[i]J
LAR[i] =1n (3)
1+ r[i]
y
(4)
Otra representación adecuada de los parámetros de predicción son los denominados pares de espectro de línea o frecuencias de espectro de línea. Las representaciones mencionadas anteriormente de coeficientes de predicción son bastante conocidas para los expertos en la técnica. La representación PR de los coeficientes de predicción está disponible en la primera salida del codificador de voz.
Además de la representación de los coeficientes de predicción, el codificador de voz proporciona una representación de señal EX de la señal de excitación. Para la explicación de la presente invención se supondrá que la señal de excitación se representa por índices de libros de códigos y ganancias de libros de códigos asociadas de un libro de códigos fijo y adaptativo, pero se observa que el alcance de la presente invención no se limita a tal tipo de señales de excitación. Por consiguiente la señal de excitación se forma mediante una suma de entradas de libros de códigos ponderadas con sus factores de ganancia respectivos. Estas entradas de libros de códigos y factores de ganancia se hallan mediante un análisis mediante método de síntesis.
La representación de la señal de predicción y la representación de la señal de excitación se multiplexa por el multiplexor 3 y posteriormente se transmite a la red 4 de transmisión. La red 4 de transmisión puede ser una red conmutada de paquetes tal como una red ATM o Internet basado en el protocolo TCP/IP. La señal de voz puede viajar por la red 4 a través de diferentes trayectorias al receptor 8.
Los nodos de la red 4 están dotados de medios 26 de reducción de tasa de transmisión de bits que pueden borrar la representación de algunos de los parámetros de predicción de señales de voz que van a transmitirse en el caso de condiciones de mucho tráfico de la red. La reducción de la carga de red impedirá una pérdida grave de calidad de la señal de voz transmitida en tales condiciones de mucho tráfico.
La trama 28 según la figura 2 comprende una cabecera 30 para transmitir las propiedades necesarias de dicha trama. Comprende el número real de coeficientes de predicción transmitidos en la parte 32 reservada para la representación de los coeficientes de predicción. Alternativamente, también puede indicar el número de bits usados para cada coeficiente de predicción. Las partes 34 ···· 36 en la trama representan la señal de excitación. Debido a que en un codificador de CELP la trama de las muestras de señal puede subdividirse en M subtramas cada una con su propia señal de excitación, en la trama están presentes M partes para representar la señal de excitación para la trama completa.
En el receptor 8, la señal de entrada se aplica a una entrada de un decodificador 40, opcionalmente a través de un reductor 38 de tasa de transmisión de bits. En el decodificador 40, las salidas de un deformateador 42 de flujo de bits se conectan a entradas correspondientes de un decodificador 44 de parámetros. Una primera salida del decodificador 44 de parámetros, que lleva una señal de salida C[P] que representa P parámetros de predicción, está conectada a una entrada de un interpolador 46 de coeficiente de LPC. Una segunda salida del decodificador 44 de parámetros, que lleva una señal FCBK INDEX que representa el índice de libro de códigos fijo, se conecta a una entrada de un libro 52 de códigos fijo. Una tercera salida del decodificador 44 de parámetros, que lleva una señal FCBK GAIN que representa la ganancia de libro de códigos fijo, se conecta a una primera entrada de un multiplicador 54. Una cuarta salida del decodificador 44 de parámetros, que lleva una señal ACBK INDEX que representa el índice de libro de códigos adaptativo, se conecta a una entrada de un libro 48 de códigos adaptativo. Una quinta salida del decodificador 44 de parámetros, que lleva una señal ACBK GAIN que representa la ganancia de libro de códigos adaptativo, se conecta a una primera entrada de un multiplicador 54.
Una salida del libro 48 de códigos adaptativo se conecta a una segunda entrada del multiplicador 50, y una salida del libro 52 de códigos fijo se conecta a una segunda entrada del multiplicador 54. Una salida del multiplicador 50 se conecta a una primera entrada de un sumador 56, y una salida del multiplicador 54 se conecta a una segunda 5 entrada del sumador 56. Una salida del sumador 56, que lleva la señal e[n], se conecta a una primera entrada de un filtro 60 de síntesis, y a una entrada del libro 48 de códigos adaptativo.
Una salida del interpolador 46 de coeficientes de LPC, que lleva una señal r[P] [M] que representa los coeficientes de reflexión, se conecta a una entrada de un convertidor 58. Una salida del convertidor 58, que lleva una señal
10 a[P][M] que representa los parámetros a, se conecta a una segunda entrada del filtro 60 de síntesis. En la salida del
filtro 60 de síntesis está disponible la señal de voz reconstruida s [n].
En el receptor 8 el flujo de bits en la entrada del decodificador 40 se desensambla por el deformateador 42. Dependiendo de la información hallada en la cabecera, los coeficientes de predicción se extraen del flujo de bits y se
15 pasan al interpolador 46 de coeficientes de LPC. También es posible que el receptor extraiga menos coeficientes de LPC de los disponibles en el flujo de bits para reducir su complejidad.
La determinación de los parámetros de predicción se basa en una tabla de consulta que devuelve el valor de un coeficiente de reflexión en respuesta a un índice C[i] que representa el coeficiente de reflexión de orden i. Para
20 poder consultar los coeficientes de reflexión en una sola tabla, se usa una subtabla para definir un valor de desplazamiento para cada uno de los valores de i. Se supone que un máximo de 20 parámetros de predicción está presente en las tramas de entrada.
i
Desplazamiento i Desplazamiento
0
13 10 18
1
0 11 17
2
16 12 19
3
12 13 17
4
16 14 19
5
13 15 18
6
16 16 19
7
14 17 17
8
18 18 19
9
16 19 18
25 Tabla 1
Para cada uno de los parámetros de predicción recibidos, el desplazamiento en la tabla principal (tabla 2) se determina a partir de la tabla 1, usando el número de clasificación i del coeficiente de predicción como entrada. Posteriormente la entrada en la tabla 2 se halla añadiendo el valor de desplazamiento Desplazamiento al número de 30 nivel C[i]. Usando dicha entrada, el valor del coeficiente de reflexión r[k] correspondiente se lee a partir de la tabla 2.
C[i]+ Desplazamiento
r[i] C[i]+Desplazamiento r[i]
0
-0,9896 25 0,4621
1
-0,9896 26 0,5546
2
-0,9828 27 0,6351
3
-0,9780 28 0,7039
4
-0,9719 29 0,7616
5
-0,9640 30 0,8093
6
-0,9540 31 0,8483
7
-0,9414 32 0,8798
8
-0,9253 33 0,9051
9
-0,9051 34 0,9253
10
-0,8798 35 0,9414
11
-0,8483 36 0,9540
12
-0,8093 37 0,9640
13
-0,7616 38 0,9719
14
-0,7039 39 0,9780
15
-0,6351 40 0,9828
16
0,5546 41 0,9866
17
-0,4621 42 0,9896
18
0,3584 43 0,9919
19
-0,2449 44 0,9937
20
-0,1244 45 0,9951
21
0 46 0,9961
22
0,1244 47 0,9970
23
0,2449 48 0,9977
24
0,3584
Tabla 2
El conjunto de coeficientes de reflexión determinados a partir de la tabla 2 describe el espectro a corto plazo para la subtrama de orden M de cada trama. Los parámetros de predicción para las subtramas anteriores de una trama se hallan mediante interpolación entre los parámetros de predicción para la trama actual y los coeficientes de predicción para las tramas anteriores. Sin embargo la interpolación no se basa en los coeficientes de reflexión, sino en las razones de área logarítmicas calculadas a partir de los coeficientes de reflexión. Para las razones de área logarítmicas puede escribirse:
(1-rk [i] J
l [i] =1n (5) k1+ rk [i]
Para la subtrama m de la trama k, el valor interpolado de las razones de área logarítmicas se proporciona por:
M -mm
î [i][m] = l [i] + l [i];0 i P -1;1 m M -1 (6)
kk -1 k
MM
A partir de cada razón de área logarítmica interpolada se calcula un coeficiente de reflexión interpolado según:
lˆ[i][m]
k
1-e
rˆk [i][m] = ;0 i P -1;1 m M -1 (7)
lˆ[i][m]
k
1+ e
Para m=M, no es necesario calcular r k[i][m] puesto que está directamente disponible de la tabla 2. Los parámetros a pueden derivarse a partir de los coeficientes de reflexión según la siguiente recursión:
(i)
a [i] = r[i]
i =1,2...P (8)
(i)(i-1) (i-1)
a [m] = a [m] + r[i]. a [i -m];m =1,...,i -1
Los parámetros a obtenidos por (8) se suministran al filtro 60 de síntesis. El filtro 60 de síntesis calculó la señal de salida S[n] según:
P-1
sˆ[n] = e[n] +La[i]. sˆ[n -i] (9)
i=0
En (9) e[n] es la señal de excitación.
En caso del número de coeficientes de predicción pasados al decodificador de parámetros sea menor que P debido a la reducción de tasa de transmisión de bits según la invención, el valor de P se sustituye por un valor de P’ más pequeño que P. Los cálculos según (5)-(9) se realizan para P’ parámetros en lugar de P parámetros. Los parámetros a para su uso en el filtro de síntesis con una clasificación más grande que P’ se establecen a 0.
El decodificador 44 de parámetros también extrae los parámetros de excitación ACBK INDEX, ACBK GAIN, FCKB INDEX y FCBK GAIN para cada una de las subtramas a partir del flujo de bits, y los presenta a los elementos respectivos del decodificador. El libro 52 de códigos fijo presenta una secuencia de muestras de excitación para cada subtrama en respuesta al índice de libro de códigos fijo (FCBK INDEX) recibido desde el decodificador 44 de parámetros. Estas muestras de excitación se ajustan a escala por el multiplicador 54 con un factor de ganancia determinado por la ganancia de libro de códigos fijo (FCBK GAIN) que se recibe desde el decodificador 44 de parámetros. El libro 48 de códigos adaptativo presenta una secuencia de muestras de excitación para cada subtrama en respuesta al índice de libro de códigos adaptativo (ACBK INDEX) recibido desde el decodificador 44 de parámetros. Estas muestras de excitación se ajustan a escala por el multiplicador 50 con un factor de ganancia determinado por la ganancia de libro de códigos adaptativo (ACBK GAIN) que se recibe desde el decodificador 44 de parámetros. Se añaden las muestras de salida de los multiplicadores 50 y 54 para obtener la señal de excitación final e[n] que se suministra al filtro de síntesis. Las muestras de señal de excitación para cada subtrama también se cambian en el libro de códigos adaptativo para proporcionar la adaptación de dicho libro de códigos.
En los medios 26, 38 de reducción de tasa de transmisión de bits según la figura 4, la señal de entrada se aplica a un deformateador 62. Una primera salida del deformateador, que lleva una señal H que representa la cabecera de la trama según la figura 2, se conecta a una entrada de un procesador 64 de cabecera. Una señal de control CONTROL que indica el número de coeficientes de predicción que va a pasarse por los medios de reducción de tasa de transmisión de bits se conecta a una entrada de control del procesador 64 de cabecera. Una primera salida del procesador 64 de cabecera, que lleva información de control CNTR para el multiplexor 68 se conecta a una entrada de control de dicho multiplexor 68. Una segunda salida del procesador 64 de cabecera se conecta a una unidad 66 de reducción. Una segunda salida del procesador 64 de cabecera, que lleva una señal H’ que representa una cabecera modificada a una primera entrada de señal del multiplexor 68.
Una segunda salida del deformateador 62, que lleva una señal de salida PR que representa los parámetros de predicción determinados por el codificador se conecta a una entrada de señal de los medios 66 de reducción. Una salida de los medios 66 de reducción, que lleva una señal PR’ que representa un número reducido de coeficientes de predicción, se conecta a una segunda entrada de señal del multiplexor 68.
Una tercera salida del deformateador, que lleva una señal que representa la señal de excitación, se conecta a una tercera entrada del multiplexor 68. En la salida del demultiplexor está disponible la señal de tasa de transmisión de bits reducida.
En el deformateador 62 la señal de entrada según la trama representada en la figura 2 se descompone en tres partes que son la cabecera H, los coeficientes de predicción PR y la señal de excitación EX. Se lee el contenido de la cabecera para establecer el número de coeficientes de predicción representados por la señal PR. En respuesta a la señal de control, el procesador de cabecera determina el número de coeficientes de predicción que puede pasarse a la entrada del multiplexor 68. Esta cantidad también se comunica a los medios 66 de reducción. En respuesta a esta información, la unidad 66 de reducción pasa sólo la cantidad permitida de parámetros de predicción al multiplexor 68, y los parámetros de predicción restantes se bloquean.
El procesador de cabecera proporciona una señal CNTR al multiplexor 68, para informarle acerca del ciclo de multiplexación que va a aplicarse a la señal de entrada respectiva, dando como resultado una remultiplexación correcta de la cabecera, los coeficientes de predicción y la señal de excitación.
En la combinación de los medios 38 de reducción de tasa de transmisión de bits y el deformateador 42 de flujo de bits, se aplica la señal de entrada a una entrada de un deformateador 70. Una primera salida del deformateador 70, que lleva una señal de salida que representa la cabecera, se conecta a una primera entrada de un procesador 72 de cabecera. Se aplica una señal de control a una entrada de control del procesador 72 de cabecera. Una segunda salida del deformateador 70, que lleva una señal PR que representa los parámetros de predicción, se conecta a una entrada de los medios 74 de reducción. La salida de los medios 74 de reducción se conecta a la salida de la combinación de 38 y 42. Una salida del procesador 72 de cabecera se conecta a una entrada de control de los medios 74 de reducción. Una tercera salida que lleva una señal que representa la señal de excitación se conecta a la salida de la combinación 38+74.
El funcionamiento de la combinación de 38+42 según la figura 5, es similar al de los medios de reducción de tasa de transmisión de bits según la figura 4. Puesto que el decodificador 44 de parámetros requiere que los diferentes parámetros tales como coeficientes de predicción y señales de excitación se presenten por separado, no es necesaria ninguna remultiplexación de dichas señales. Asimismo puede prescindirse de la construcción de una nueva cabecera. Por consiguiente la complejidad de la combinación 38+42 se reduce sustancialmente con respecto a una realización separada de los medios 38 de reducción de tasa de transmisión de bits y el deformateador 42 de flujo de bits.
Red de comunicación que comprende un transmisor y comprendiendo al menos uno de dichos transmisores un codificador de voz con medios para derivar desde una señal de entrada una pluralidad de coeficientes de predicción de un filtro de predicción y una señal de excitación, el transmisor comprende además un multiplexor para derivar una secuencia de símbolos que incluye una representación de dicha pluralidad de coeficientes de predicción y una representación de dicha señal de excitación, estando dispuesta la red de comunicación para transmitir la secuencia de símbolos a un receptor con un decodificador de voz, caracterizada porque la red de comunicación comprende medios para borrar una parte de la secuencia de símbolos que representa algunos de los parámetros de predicción, y porque el decodificador está dispuesto para reconstruir una señal de voz a partir de la parte restante de la secuencia de símbolos.
Red de comunicación según la reivindicación 1, caracterizada porque el decodificador de voz comprende un filtro de síntesis, y porque el decodificador de voz está dispuesto para derivar un conjunto reducido de coeficientes de filtro para el filtro de síntesis a partir de la parte de la secuencia de símbolos recibida.
Red de comunicación según la reivindicación 1 ó 2, caracterizada porque dicha representación de parámetros de predicción se basa en coeficientes de reflexión.
Red de comunicación según la reivindicación 3, caracterizada porque dicha representación comprende razones de área logarítmicas.
Receptor para recibir una señal de voz representada por una secuencia de símbolos que incluye una representación de una pluralidad de coeficientes de predicción y una representación de dicha señal de excitación, caracterizado porque el receptor está dispuesto para reconstruir una señal de voz a partir de una secuencia de símbolos en la que falta la representación de algunos de la pluralidad de coeficientes de reflexión.
Receptor según la reivindicación 5, caracterizado porque el decodificador de voz comprende un filtro de síntesis, y porque el decodificador de voz está dispuesto para derivar un conjunto reducido de coeficientes de filtro para el filtro de síntesis a partir de la parte de la secuencia de símbolos recibida.
Receptor según la reivindicación 5 ó 6, caracterizado porque dicha representación de parámetros de predicción se basa en coeficientes de reflexión.
Receptor para recibir una señal de voz representada por una secuencia de símbolos que incluye una representación de una pluralidad de coeficientes de predicción y una representación de una señal de excitación, caracterizado porque el receptor comprende medios para extraer un número reducido de coeficientes de predicción de dicha señal de entrada, y porque el receptor está dispuesto para reconstruir una señal de voz usando dicho número reducido de coeficientes de predicción.
Decodificador de voz para decodificar una señal de voz representada por una secuencia de símbolos que incluye una representación de una pluralidad de coeficientes de predicción y una representación de dicha señal de excitación, caracterizado porque el decodificador está dispuesto para reconstruir una señal de voz a partir de una secuencia de símbolos parcial recibida en la que falta la representación de algunos de la pluralidad de coeficientes de reflexión.
Decodificador de voz para reconstruir una señal de voz representada por una secuencia de símbolos que incluye una representación de una pluralidad de coeficientes de predicción y una representación de una señal de excitación, caracterizado porque el decodificador de voz comprende medios para extraer un número reducido de coeficientes de predicción de dicha señal de entrada, y porque el decodificador de voz está dispuesto para reconstruir una señal de voz usando dicho número reducido de coeficientes de predicción.
Nodo para su uso en una red de comunicación, dispuesto para recibir una secuencia de símbolos que representa una señal de voz, comprendiendo dicha secuencia de símbolos una representación de una pluralidad de coeficientes de predicción y una representación de una señal de excitación, estando dispuesto el nodo para transmitir una secuencia adicional derivada a partir de dicha secuencia a un receptor, caracterizado porque el nodo comprende medios para obtener la secuencia adicional borrando una parte de la secuencia de símbolos que representa algunos de los parámetros de predicción.
Método de comunicación dispuesto para recibir una secuencia de símbolos que representa una señal de voz, comprendiendo dicha secuencia de símbolos una representación de una pluralidad de coeficientes de predicción y una representación de una señal de excitación, comprendiendo el método la transmisión de una secuencia adicional derivada a partir de dicha secuencia, caracterizado porque el método de comunicación comprende obtener la secuencia adicional borrando una parte de la secuencia de símbolos que representa algunos de los parámetros de predicción.

Claims (4)

  1. REIVINDICACIONES
    1.
    Decodificador (40) de voz para reconstruir una señal (28) de voz representada por una secuencia de símbolos que incluye una representación de una pluralidad de coeficientes de predicción (PR) y una representación de una señal de excitación (EX), comprendiendo el decodificador (40) de voz medios (70) para extraer la señal de excitación (EX) y los coeficientes de predicción (PR) de la señal (28) de voz, estando dispuesto el decodificador (40) de voz para reconstruir una señal de voz usando la señal de excitación (EX) y los coeficientes de predicción (PR), caracterizado porque el decodificador (40) de voz comprende medios (74) para extraer sólo un número reducido de coeficientes de predicción (PR) de la señal (28) de voz, y porque el decodificador (40) de voz está dispuesto para reconstruir la señal de voz usando la señal de excitación (EX) y el número reducido de coeficientes de predicción, siendo el número reducido de coeficientes de predicción los primeros coeficientes de predicción de la pluralidad de coeficientes de predicción.
  2. 2.
    Receptor para recibir una señal (28) de voz, comprendiendo el receptor el decodificador (40) de voz según la reivindicación 1.
  3. 3.
    Método para reconstruir una señal (28) de voz representada por una secuencia de símbolos que incluye una representación de una pluralidad de coeficientes de predicción (PR) y una representación de una señal de excitación (EX), comprendiendo el método la extracción de la señal de excitación (EX) y los coeficientes de predicción (PR) de la señal (28) de voz, y la reconstrucción de una señal de voz usando la señal de excitación (EX) y los coeficientes de predicción (PR), caracterizado porque el método comprende extraer sólo un número reducido de coeficientes de predicción de la señal (28) de voz, y reconstruir una señal de voz usando la señal de excitación (EX) y el número reducido de coeficientes de predicción, siendo el número reducido de coeficientes de predicción los primeros coeficientes de predicción de la pluralidad de coeficientes de predicción.
  4. 4.
    Método para recibir una señal (28) de voz, incluyendo el método las etapas del método según la reivindicación 3.
ES06118093T 1997-02-10 1998-01-22 Red de comunicación para transmitir señales de voz. Expired - Lifetime ES2373968T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP97200358 1997-02-10
EP97200358 1997-02-10

Publications (1)

Publication Number Publication Date
ES2373968T3 true ES2373968T3 (es) 2012-02-10

Family

ID=8227998

Family Applications (1)

Application Number Title Priority Date Filing Date
ES06118093T Expired - Lifetime ES2373968T3 (es) 1997-02-10 1998-01-22 Red de comunicación para transmitir señales de voz.

Country Status (8)

Country Link
US (1) US6038530A (es)
EP (2) EP1710787B1 (es)
JP (1) JP2000512036A (es)
KR (1) KR100578263B1 (es)
CN (1) CN1135529C (es)
DE (1) DE69836454T2 (es)
ES (1) ES2373968T3 (es)
WO (1) WO1998035448A2 (es)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW439368B (en) * 1998-05-14 2001-06-07 Koninkl Philips Electronics Nv Transmission system using an improved signal encoder and decoder
KR100636317B1 (ko) * 2004-09-06 2006-10-18 삼성전자주식회사 분산 음성 인식 시스템 및 그 방법
KR101032805B1 (ko) 2006-07-27 2011-05-04 닛본 덴끼 가부시끼가이샤 음성 데이터 복호 장치 및 음성 데이터 복호 방법

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4544919A (en) * 1982-01-03 1985-10-01 Motorola, Inc. Method and means of determining coefficients for linear predictive coding
EP0245531A1 (de) * 1986-05-14 1987-11-19 Deutsche ITT Industries GmbH Verwendung von halbleitertechnischen Festwertspeichern
JP2964344B2 (ja) * 1988-06-08 1999-10-18 富士通株式会社 符号化/復号化装置
DE68916944T2 (de) * 1989-04-11 1995-03-16 Ibm Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion.
DE9006717U1 (es) * 1990-06-15 1991-10-10 Philips Patentverwaltung Gmbh, 2000 Hamburg, De
IT1241358B (it) * 1990-12-20 1994-01-10 Sip Sistema di codifica del segnale vocale con sottocodice annidato
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
JP3277679B2 (ja) * 1994-04-15 2002-04-22 ソニー株式会社 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置
JP2993396B2 (ja) * 1995-05-12 1999-12-20 三菱電機株式会社 音声加工フィルタ及び音声合成装置
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity

Also Published As

Publication number Publication date
EP0895672A2 (en) 1999-02-10
EP0895672B1 (en) 2006-11-22
EP1710787B1 (en) 2011-09-21
US6038530A (en) 2000-03-14
EP1710787A1 (en) 2006-10-11
DE69836454D1 (de) 2007-01-04
JP2000512036A (ja) 2000-09-12
KR20000064872A (ko) 2000-11-06
KR100578263B1 (ko) 2006-09-12
CN1135529C (zh) 2004-01-21
DE69836454T2 (de) 2007-10-04
CN1222995A (zh) 1999-07-14
WO1998035448A2 (en) 1998-08-13
WO1998035448A3 (en) 1998-10-08

Similar Documents

Publication Publication Date Title
EP0920693B1 (en) Method and apparatus for improving the voice quality of tandemed vocoders
ES2321147T3 (es) Codificacion de habla de tasa de transmision variable.
RU2737465C1 (ru) Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио
JPH0728495A (ja) 音声信号の組み込み式コード化システム
JPH0353300A (ja) 音声符号化装置
EP1751743A1 (en) Method and apparatus for voice trans-rating in multi-rate voice coders for telecommunications
US7486207B2 (en) Method and device for changing an encoding mode of encoded data streams
JPH06502930A (ja) 多重モード音声コーダのためのエラー保護
ES2373968T3 (es) Red de comunicación para transmitir señales de voz.
JPH0934499A (ja) 音声符号化通信方式
JP2004348120A (ja) 音声符号化装置、音声復号化装置及びこれらの方法
RU2792658C1 (ru) Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио
RU2776261C1 (ru) Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио
JP3274451B2 (ja) 適応ポストフィルタ及び適応ポストフィルタリング方法
JP2004020675A (ja) 音声符号化/復号化方法及び音声符号化/復号化装置