ES2198615T3 - Codificacion de señales de voz. - Google Patents
Codificacion de señales de voz.Info
- Publication number
- ES2198615T3 ES2198615T3 ES98104785T ES98104785T ES2198615T3 ES 2198615 T3 ES2198615 T3 ES 2198615T3 ES 98104785 T ES98104785 T ES 98104785T ES 98104785 T ES98104785 T ES 98104785T ES 2198615 T3 ES2198615 T3 ES 2198615T3
- Authority
- ES
- Spain
- Prior art keywords
- frames
- voice
- weighting
- frame
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000005311 autocorrelation function Methods 0.000 claims abstract description 24
- 230000001934 delay Effects 0.000 claims description 16
- 238000006073 displacement reaction Methods 0.000 claims description 5
- 238000010295 mobile communication Methods 0.000 claims description 2
- 230000001413 cellular effect Effects 0.000 claims 1
- 238000005314 correlation function Methods 0.000 abstract description 6
- 230000007774 longterm Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 21
- 238000011835 investigation Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 101100379142 Mus musculus Anxa1 gene Proteins 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 101000996042 Arabidopsis thaliana Putative non-specific lipid-transfer protein 14 Proteins 0.000 description 1
- 101710196804 Non-specific lipid-transfer protein 4 Proteins 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/725—Cordless telephones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
LA INVENCION SE REFIERE A UN PROCEDIMIENTO PARA CODIFICAR EL HABLA DE UNA SEÑAL DEL HABLA MUESTREADA, UTILIZANDO UNA PREDICCION A LARGO PLAZO (LTP). SE DETERMINA UN PARAMETRO DE RETARDO DE PASO LTP PARA CADA PAGINA DE LA SEÑAL DEL HABLA, DETERMINANDO PRIMERO LA FUNCION DE AUTOCORRELACION PARA LA PAGINA DENTRO DE LA SEÑAL, ENTRE UNOS RETARDOS MAXIMOS Y MINIMOS PREDEFINIDOS. ENTONCES, SE PONDERA LA FUNCION DE AUTOCORRELACION PARA ENFATIZAR LA FUNCION, PARA LOS RETARDOS EXISTENTES EN LA VECINDAD DEL PARAMETRO DE RETARDO DE PASO QUE HAN SIDO DETERMINADOS PARA LA PAGINA DE VOZ MAS RECIENTE. SE ENCUENTRA ENTONCES EL VALOR MAXIMO PARA LA FUNCION DE AUTOCORRELACION PONDERADA Y SE IDENTIFICA COMO EL PARAMETRO DE RETARDO DE PASO PARA LA PAGINA.
Description
Codificación de señales de voz.
La presente invención se refiere a la
codificación de voz y es aplicable, en particular, a métodos y
aparatos para codificar voz que utilizan un parámetro de predicción
de larga duración (LTP).
La codificación de voz es utilizada en muchas
aplicaciones de comunicaciones donde es deseable comprimir una
señal de voz de audio para reducir la cantidad de datos que deben
ser transmitidos, procesados o almacenados. En particular, se
aplica la codificación de voz de forma ampliada en las redes de
teléfonos celulares donde los teléfonos móviles y las estaciones
del controlador de base de comunicación están provistos con los
denominados ``codecs de audio'' que realizan la codificación y
decodificación de las señales de voz. La compresión de datos por la
codificación de voz en las redes de teléfonos celulares es
requerida por la necesidad de llevar al máximo la capacidad de
llamada de red.
Los codecs de voz modernos accionan típicamente
el procesamiento de las señales de voz en segmentos cortos
denominadas tramas. En el caso del sistema de teléfono celular
digital Europeo conocido como GSM (definido por European
Telecommunications Standards Institute - ETSI - especificación
06.06), la longitud de cada trama es de 20 ms, correspondiendo a
160 muestras de voz a una frecuencia de muestreo de 8 kHz. En la
estación de transmisión, cada trama de voz es analizada por un
codificador de voz para extraer un conjunto de parámetros de
codificación para la transmisión hasta la estación de recepción. En
la estación de recepción, un decodificador produce tramas de voz
sintetizados basadas en los parámetros recibidos. Un conjunto
típico de parámetros de codificación extraídos incluye parámetros
espectrales (conocido como parámetros LPC) utilizados en la
predicción de larga duración de la señal, parámetros utilizados
para predicción de larga duración (conocido como parámetros LTP) de
la señal, varios parámetros de ganancia, parámetros de excitación, y
vectores de libro de códigos.
La figura 1 muestra esquemáticamente el
codificador de un codec denominado CELP (están previstos codecs
CELP substancialmente idénticos tanto en las estaciones móviles
como en las estaciones del controlador de base). Cada trama de una
señal de voz muestreada recibida s(n), donde n indica el
número de muestra, es analizado primero por una unidad de
predicción de corta duración 1 para determinar los parámetros LPC
para la trama. Estos parámetros son suministrados a un multiplexor
2 que combina los parámetros de codificación para la transmisión
sobre la interfaz-aire. La señal residual
r(n) desde la unidad de predicción de corta duración 1, es
decir, la trama de voz después de la eliminación de la redundancia
de corta duración, es suministrada entonces a una unidad de
predicción de larga duración 3 que determina los parámetros LTP.
Estos parámetros son proporcionados, a su vez, al multiplexor
2.
El codificador comprende un filtro de síntesis
LTP 4 y un filtro de síntesis LPC 5 que reciben, respectivamente,
los parámetros de LTP y LPC. Estos filtros introducen las
redundancias de corta duración y de larga duración en una señal
c(n), producida utilizando un libro de códigos 6 para generar
una señal de voz sintetizada ss(n). La señal de voz
sintetizada es comparada en un comparador 7 con la señal de voz
real s(n), trama por trama, para producir una señal de error
e(n). Después de ponderar la señal de error con un filtro de
ponderación 8 (que resalta los ``formantes'' de la señal de un modo
conocido), la señal es aplicada a una unidad de investigación de
libro de códigos 9. La unidad de investigación 9 conduce a una
investigación del libro de códigos 6 para cada trama con el fin de
identificar qué entrada en el libro de códigos coincide más
estrechamente (después de filtración y multiplicación de LTP y LPC
por una ganancia g en un multiplicador 10) con la trama de voz
real, es decir, determinar la señal c(n) que reduce al
mínimo la señal de error e(n). El vector que identifica la
mejor entrada de coincidencia es proporcionado al multiplexor 2
para la transmisión sobre la interfaz de aire como parte de una
señal de voz codificada t(n).
La figura 2 muestra esquemáticamente un
decodificador de un codec CELP. La señal codificada recibida
t(n) es demultiplexada por un demultiplexor 11 en los
parámetros de codificación separados. Los vectores del libro de
códigos son aplicados a un libro de códigos 12, idénticos al libro
de códigos 6 en el codificador, para extraer una corriente de
entradas del libro de códigos c(n). La señal c(n) es
multiplicada entonces por la ganancia recibida g en un
multiplicador 13 antes de aplicar la señal a un filtro de síntesis
LTP 14 y un filtro de síntesis LPC 15 dispuestos en serie. Los
filtros LTP y LPC reciben los parámetros asociados desde el canal
de transmisión y reintroducen las redundancias de corta y larga
duración en la señal para producir, en la salida, una señal de voz
sintetizada ss(n).
Los parámetros LTP incluyen el llamado parámetro
de retardo de altura que describe la frecuencia fundamental de la
señal de voz. La determinación del retardo de altura para una trama
actual de la señal residual se lleva a cabo en dos etapas. En
primer lugar, se lleva a cabo una investigación de circuito abierto
que implica una investigación relativamente más extensa de la señal
residual, sujeta a un retardo máximo y mínimo predefinido para una
porción de la señal que mejor coincide con la trama actual. Una
investigación de circuito cerrado es conducida entonces sobre la
señal ya sintetizada. La investigación de circuito cerrado se lleva
a cabo sobre un pequeño intervalo de retardos en la vecindad de la
estimación del circuito abierto del retardo de altura. Es
importante indicar que si se comete un error en la investigación de
circuito abierto, el error no puede corregirse en la investigación
de circuito cerrado.
\newpage
En los codecs conocidos con anterioridad, el
análisis LTP de circuito abierto determina el retardo de altura
para una trama dada de la señal residual por la determinación de la
función de auto-correlación de la trama dentro de la
señal de voz residual, es decir:
\hat{R}(d)=\sum^{N-1}_{n=0}r(n-d)r(n)
\hskip13cmd= d_{L},...,d_{H}
donde d es el retardo, r(n) es la señal
residual, y d_{L} y d_{H} son los límites de investigación del
retardo. N es la longitud de la trama. El retardo de altura
d_{pl} puede identificarse entonces como el retardo d_{max} que
corresponde con el máximo de la función de autocorrelación
R(d). Esto se ilustra en la figura 3.
No obstante, en tales codecs existe una
posibilidad de que el máximo de la función de autocorrelación
corresponda con un múltiplo o sub-múltiplo del
retardo de altura y que el retardo de altura estimado no será por
tanto corregido. El documento EP0628947 considera este problema por
la aplicación de una función de ponderación w(d) a la
función de autocorrelación R(d), es decir,
\hat{R}_{w}(d)=w(d)\sum^{N-1}_{n=0}r(n-d)r(n) donde la función de ponderación tiene la siguiente forma:
w(d)=d^{log_{2}K} K es un parámetro de sintonización que
se ajusta a un valor lo suficientemente bajo para reducir la
probabilidad de obtener un máximo para R_{w}(d) en un
múltiplo del retardo de altura pero al mismo tiempo lo
suficientemente alto para excluir los submúltiplos del retardo de
altura.
El documento EP0628947 propone también tener en
cuenta los desplazamientos de paso determinados por los tramas
previas en la determinación del retardo de altura para una trama
actual. Más particularmente, las tramas están clasificados o bien
``con voz'' o ``sin voz'' y, para la trama actual, se lleva a cabo
una investigación para el máximo en la vecindad del retardo de
altura determinada por la trama de voz más reciente. Si el máximo
general de R_{w}(d) se establece fuera de esta vecindad, y
no excede el máximo dentro de la vecindad por un factor
predeterminado (3/2), entonces el máximo de la vecindad se
identifica como correspondiente al retardo de altura. De este modo,
se mantiene la continuidad de la estimación de retardo de altura,
reduciendo la posibilidad de cambios falsos en el retardo de
altura.
De acuerdo con un primer aspecto de la presente
invención, está previsto un método de codificación de voz de una
señal muestreada utilizando un parámetro de desplazamiento de voz
para cada uno de una serie de tramas de la señal, comprendiendo el
método para cada trama:
determinar la función de autocorrelación para la
trama dentro de la señal, entre los retardos máximo y mínimo
predefinidos;
ponderar la función de autocorrelación para
resaltar la función para retardos en la vecindad del parámetro de
retardo de altura determinado para una trama previa; e
identificar el retardo correspondiente al máximo
de la función de autocorrelación ponderada como el parámetro de
retardo de altura para la trama.
Preferentemente, dicha señal muestreada es una
señal reducida que se obtiene a partir de una señal audio
eliminando substancialmente la redundancia de corta duración desde
la señal de audio. Alternativamente, la señal muestreada puede ser
una señal audio.
Preferentemente, dicha ponderación es alcanzada
combinando la función de autocorrelación con una función de
ponderación que tiene la forma:
\newpage
donde T_{prev} es un parámetro de retardo de
altura determinado sobre la base de uno o más tramas previas,
d_{L} es dicho retardo mínimo, y K_{nw} es un parámetro de
sintonización que define la ponderación de la vecindad.
Adicionalmente, la función de ponderación puede resaltar la función
de autocorrelación para retardos más cortos con respecto a retardos
más largos. En este caso, se utiliza una función de ponderación
modificada: w(d)=(|T_{prev}-d|+d_{L})^{log_{2}k_{nw}}\cdot
d^{log_{2}k_{w}} donde k_{W} es un parámetro de sintonización
adicional.
En ciertas formas de realización de la invención,
T_{prev} es el retardo de alturas de una trama previa T_{old}.
No obstante, en otras formas de realización T_{prev} es derivado
de los desplazamientos de paso de un número de tramas previas. En
particular, T_{prev} puede corresponder con el valor medio de los
desplazamientos de paso de un número predeterminado de tramas
previas. Puede aplicarse una ponderación adicional que es
inversamente proporcional a la desviación estándar de los n
desplazamientos de paso utilizados para determinar dicho valor
medio. Utilizando este último método, es posible reducir el impacto
de los valores de retardo de altura erróneos sobre la ponderación
de la función de autocorrelación.
Preferentemente, el método comprende clasificar
dichas tramas en tramas de voz y tramas sin voz, donde
dicha(s) trama(s) previo(s) es/son
la(las) trama(s) de voz más reciente(s). Las
tramas sin voz pueden incluir tramas sin voz, y Las tramas que
contienen silencio o ruido de fondo. Más preferentemente, si
dicho(s) tramas(s) previa(s) no es/son
la(las) tramas(s) más reciente(s), se reduce la
ponderación. En una forma de realización, donde se recibe una
secuencia de tramas sin voz consecutivas, se reduce la ponderación
substancialmente en proporción con el número de tramas de la
secuencia. Para la función de ponderación w_{n}(d) dada en
el párrafo precedente, el parámetro de sintonización k_{nw} puede
modificarse de forma que:
w(d)=(|T_{prev}-d|+d_{L})^{log_{2}k_{nw}A}\cdot
d^{log_{2}k_{w}} donde A es un factor de sintonización adicional
que se incrementa siguiendo la recepción de cada tramas de una
secuencia de tramas sin voz consecutivas. La ponderación es
restablecida a su valor máximo para las siguientes tramas de voz
retornando A a su valor mínimo. El valor de A puede incrementarse de
forma similar siguiendo la recepción de una trama de voz que da
lugar a una ganancia de circuito abierto que es menor que una
ganancia umbral predefinida.
De acuerdo con un segundo aspecto de la presente
invención, está previsto un aparato para la codificación de voz de
una señal muestreada utilizando un parámetro de desplazamiento de
voz para cada serie de tramas de la señal, comprendiendo el
aparato:
medios para determinar para cada tramas de la
función de autocorrelación de la trama dentro de la señal entre los
retardos máximo y mínimo predeterminados;
medios de ponderación para ponderar la función de
autocorrelación para resaltar la función para los retardos en la
vecindad del parámetro de retardo de altura determinado para una
trama previa; y
medios para identificar el retardo
correspondiente al máximo de la función de autocorrelación
ponderada como el parámetro de retardo de altura para la trama.
De acuerdo con un tercer aspecto de la presente
invención, está previsto un dispositivo de comunicaciones móvil que
comprende el aparato del segundo aspecto anterior de la presente
invención.
De acuerdo con un cuarto aspecto de la presente
invención, está prevista una red de teléfono celular que comprende
una estación del controlador de base que tiene un aparato de
acuerdo con el segundo aspecto anterior de la presente
invención.
Para un mejor entendimiento de la presente
invención y con el fin de mostrar cómo se puede llevar a efecto, a
continuación se hará referencia a modo de ejemplo a los dibujos que
se acompañan, en los que:
La figura 1 muestra esquemáticamente un
codificador de voz CELP.
La figura 2 muestra esquemáticamente un
decodificador de voz CELP.
La figura 3 ilustra una trama de una señal de voz
que debe codificarse y retardos máximo y mínimo utilizados en la
determinación de la función de autocorrelación para la trama.
La figura 4 muestra un diagrama de flujo de las
etapas principales de un método de codificación de voz de acuerdo
con una forma de realización de la presente invención; y
La figura 5 muestra esquemáticamente un sistema
para llevar a cabo el método de la figura 4.
\newpage
Se describirá a continuación un método y aparato
para uso en la predicción de circuito abierto de parámetros de
retardo de altura para tramas de una señal de voz muestreada. Las
etapas principales del método se muestran en el diagrama de flujo
de la figura 4. Se apreciará que el método y aparato descrito puede
ser incorporado en codecs de voz convencionales de otro modo, tales
como el codec CELP ya descrito anteriormente con referencia a la
figura 1.
Una señal de voz muestreada que debe ser
codificada está dividida en tramas de longitud fija. Como se
describe anteriormente, después de la recepción, una trama es
aplicada en primer lugar a una unidad de predicción LPC 1.
Típicamente, se aplica entonces una predicción LTP de circuito
abierto a la señal residual que es esa parte de la señal de voz
original que permanece después de que se ha aplicado la predicción
LPC y la redundancia a corto plazo de la señal extraída. Esta señal
residual puede representarse por r(n) donde n indica el
número de muestra. La función de autocorrelación es determinada
para una trama por:
\hat{R}_{w}(d)=w(d)\sum^{N-1}_{n=0}r(n-d)r(n)
\hskip11cmd= d_{L},...,d_{H}
\hskip2,70cm{1}
donde w(d) es una función de ponderación
dada por: w(d)=(|T_{old}-d|+d_{L})^{log_{2}k_{nw}A}\cdot
d^{log_{2}k_{w}}\eqnum{\{2\}}
T_{old} es el retardo de altura determinado
para la trama de voz más recientemente recibido y procesado y n, N,
d_{L}, d_{H} son los identificados anteriormente. K_{nw} y K
son parámetros de sintonización que tienen típicamente un valor de
0,85. El parámetro de sintonización adicional A se describe a
continuación.
Después, los parámetros LTP de circuito abierto
son determinados para una trama, la trama es clasificada como con
voz o sin voz (para permitir la realimentación del parámetro
T_{old} para uso en la ecuación {2}).
Esta clasificación puede realizarse en un número
diferente de modos. Un método adecuado es determinar la ganancia
LTP de circuito abierto b y comparar esto con cierta ganancia de
umbral predefinida o más preferentemente, una ganancia umbral
adaptable b_{thr} dada por:
donde \alpha es una constante de
amortiguamiento (0,995) y K_{b} es un factor de escala (0,15). El
término b_{thr-1} es la ganancia umbral
determinada por la trama inmediatamente precedente. Una alternativa
o criterios adicionales para clasificación de una trama o bien con
voz o sin voz, es determinar la frecuencia ``de paso por cero'' de
la señal residual dentro de la trama. Una frecuencia relativamente
alta del paso por cero indica que la trama es sin voz mientras que
una frecuencia de paso por cero baja indica que la trama es de voz.
Un umbral adecuado es 3/4 de la longitud de la trama N.
Una alternativa adicional o criterios adicionales
para la clasificación de una trama de voz o sin voz es considerar
la velocidad a la que varía el retardo de altura. Si el retardo de
altura determinado para la trama se desvía significativamente de un
retardo de altura ``medio'' determinado para un conjunto de tramas
recientes, entonces la trama puede clasificarse como sin voz. Si
solamente existe una desviación relativamente pequeña, entonces la
trama puede clasificarse como con voz.
La función de ponderación w_{n}(d) por
{2} comprende un primer término
(|T_{old}-d|+d_{L})^{log_{2}k_{nw}A} que provoca que la función
de autocorrelación ponderada R_{w}(d) sea resaltada
en la vecindad del retardo de altura antiguo T_{old}. El segundo
término en el lateral izquierdo de la ecuación {2},
d^{log_{2}k_{w}}, provoca que los valores de desplazamiento por
paso pequeños sean resaltados. La combinación de estos dos términos
ayuda a reducir significativamente la posibilidad de múltiplos o
sub-múltiplos del retardo de altura que elevan al
máximo la función de autocorrelación ponderada.
\newpage
Si, después de determinar el retardo de altura
para una trama actual 1, cuyas tramas está clasificado como con
voz, y es determinada la ganancia del circuito abierto para la
trama por ser mayor que cierto valor umbral (por ejemplo, 0,4), el
factor de sintonización A en la ecuación {2} es ajustado a 1 para el
siguiente tramas (i+1). No obstante, si la trama actual es
clasificado como con voz, o se determina que la ganancia de
circuito abierto es menor que el valor umbral, el factor de
sintonización es modificado del siguiente modo:
El factor de sintonización A puede estar
modificado de acuerdo con la ecuación {4} para cada una de las
series de tramas sin voz consecutivas (o tramas de voz donde la
ganancia del circuito abierto es menor que el umbral). No obstante,
es preferible que la ecuación {4} sea aplicada solamente después de
que se recibe un número predefinido de tramas sin voz consecutivas,
por ejemplo, después de cada conjunto de tres tramas sin voz
consecutivas. El valor de ponderación de vecindad K_{nw} es
ajustado típicamente 0,85, donde el límite superior para la
ponderación combinada k_{nw} A es 1,0, de forma que en el límite
la ponderación es uniforme a través de todos los retardos d =
d_{L} a d_{H}.
Alternativamente, solamente puede utilizarse un
número predefinido de funciones de ponderación w(d),
por ejemplo tres. Cada función tiene asignada a esto un nivel
umbral, y una particular de las funciones es seleccionada cuando un
término adaptable, tal como se define en {4} excede este nivel
umbral. Una ventaja de definir un número limitado de funciones de
ponderación es que las funciones definidas pueden almacenarse en la
memoria. No es necesario, por lo tanto, calcular de nuevo la
función de ponderación para cada nuevo tramas.
Se ilustra esquemáticamente en la figura 5 un
sistema simplificado para llevar a cabo el método descrito
anteriormente, donde la entrada 16 al sistema es la señal residual
prevista por la unidad de predicción LPC 1. Esta señal residual 16
está prevista a un correlacionador de tramas 17 que genera la
función de correlación para cada tramas de señal residual. La
función de correlación para cada tramas es aplicada a una primera
unidad de ponderación 18 que pondera la función de correlación de
acuerdo con el segundo término en la ecuación {2}, es decir,
d^{log_{2}K_{n}}. La función ponderada es aplicada entonces a una
segunda unidad de ponderación 19 que pondera adicionalmente la
función de correlación de acuerdo con el primer término de la
ecuación {2}
(|T_{old} -d| +
d_{L})^{log_{2}k_{nw}A}\cdot
El parámetro T_{old} es mantenido en una
memoria intermedia 20 que está actualizada utilizando la salida del
sistema solamente si la unidad de clasificación 21 clasifica la
trama actual como con voz. La función de correlación ponderada es
aplicada a una unidad de investigación 22 que identifica el máximo
de la función ponderada y determina el retardo de altura de la
trama actual.
Se apreciará por un técnico en la materia que
pueden realizarse varias modificaciones a las formas de realización
descritas anteriormente sin separarnos del alcance de la presente
invención. En particular, con el fin de prevenir una estimación
errónea de retardo de altura, obtenida para la trama de voz más
reciente, desajustando una estimación actual a una extensión
demasiado grande, la memoria intermedia 20 de la figura 5 puede
estar dispuesta para almacenar los desplazamientos de paso
estimados para las n tramas con voz estimadas, donde n puede ser
por ejemplo 4. La función de ponderación aplicada por la unidad de
ponderación 19 está modificada por la sustitución del parámetro
T_{old} con un parámetro T_{med} que es el valor mediano de los
n desplazamientos de paso memorizados temporalmente.
En una modificación adicional, la ponderación
aplicada en la unidad 10 es inversamente proporcional a la
desviación estándar de los valores de los n retardo de altura
almacenados en la memoria intermedia 20. Esto tiene el efecto de
resaltar la ponderación en la vecindad del retardo de altura mediano
cuando los n retardo de altura memorizados temporalmente varían muy
poco, y a la inversa, pasar por alto la ponderación cuando los n
desplazamientos de paso varían hasta una extensión relativamente
grande. Por ejemplo, las tres funciones de ponderación pueden
emplearse del siguiente modo:
\newpage
donde Km_{1}, Km_{2}, Th_{1} y Th_{2} son
parámetros de sintonización iguales por ejemplo a 0,75, 0,95, 2 y
6, respectivamente. Con el fin de alojar las variaciones más
grandes en la desviación estándar que se producen con
desplazamientos de paso más grandes, los umbrales Th_{1},
Th_{2}, en la ecuación {5} pueden ser proporcionales al retardo
de altura medio T_{med}.
Claims (14)
1. Método de codificación de voz de una señal
muestreada utilizando un parámetro de retardo de altura para cada
una de las series de tramas de la señal, comprendiendo el método
para cada tramas:
determinar la función de autocorrelación para la
trama dentro de la señal, entre los retardos máximo y mínimo
predefinidos;
ponderar la función de autocorrelación para
resaltar la función para retardos en la vecindad del parámetro de
retardo de altura determinado para una trama previo; e
identificar el retardo correspondiente al máximo
de la función de autocorrelación ponderada como el parámetro de
retardo de altura para la trama.
2. Método de acuerdo con la reivindicación 1,
donde la función de ponderación tiene la forma:
w(d)=(|T_{old}-d|+d_{L})^{log_{2}k_{nw}} donde T_{old}
es el retardo de altura de dicha trama previa, d_{L} es dicho
retardo mínimo y K_{nw} es un parámetro de sintonización que
define la ponderación de vecindad.
3. Método de acuerdo con la reivindicación 1,
donde la función de autocorrelación es ponderada para resaltar la
función de los retardos en la vecindad del valor medio de una
pluralidad de desplazamientos de paso determinados para las
respectivas tramas.
4. Método de acuerdo con la reivindicación 3,
donde la función de vecindad tiene la forma de:
w(d)=(|T_{old}-d|+d_{L})^{log_{2}k_{nw}} donde T_{med}
es el valor medio de una pluralidad de desplazamientos de paso
determinado por las tramas previas respectivas, d_{L} es dicho
retardo mínimo y K_{nw} es un parámetro de sintonización que
define la ponderación de vecindad.
5. Método de acuerdo con la reivindicación 4,
donde la función de ponderación es modificada por la inclusión de
un factor que es inversamente proporcional a la variación estándar
de dicha pluralidad de desplazamientos de paso.
6. Método de acuerdo con una cualquiera de las
reivindicaciones precedentes, donde dicha ponderación resalta
adicionalmente los retardos más cortos respecto a los retardos más
largos.
7. Método de acuerdo con la reivindicación 4,
donde dicho énfasis es proporcionado por el factor:
d^{log_{2}k_{w}} donde K_{W}es un parámetro de ponderación
adicional.
8. Método de acuerdo con una cualquiera de las
reivindicaciones precedentes y que comprende clasificar dichas
tramas en tramas de voz y tramas sin voz, donde dicha(s)
trama(s) es/son la (las) trama(s) de voz más
recientes.
9. Método de acuerdo con la reivindicación 8,
donde si dicha trama previa, o la trama previo más reciente, no es
la trama más reciente, se reduce la ponderación.
10. Método de acuerdo con la reivindicación 8 ó
9, donde después de recibir una secuencia de tramas sin voz
consecutivas, la ponderación es reducida substancialmente en
proporción al número de tramas de la secuencia.
11. Método de acuerdo con la reivindicación 8,
cuando se toma junto a las reivindicaciones 2 ó 4, donde el
parámetro de sintonización está modificado como:
log_{2}K_{nw}A
donde A es un factor de sintonización adicional
que es aumentado siguiendo la recepción de cada trama o de una
pluralidad de tramas predefinidas, de una secuencia de tramas sin
voz consecutivas y que es restablecido a su valor mínimo para la
siguiente trama de voz.
12. Aparato para la codificación de voz de una
señal muestreada utilizando un parámetro de retardo de altura para
cada una de las series de tramas de la señal, comprendiendo el
aparato:
medios (17) para determinar para cada trama la
función de autocorrelación de la trama dentro de la señal entre los
retardos máximo y mínimo predeterminados;
medios de ponderación (19) para ponderar la
función de autocorrelación para resaltar la función para los
retardos en la vecindad del parámetro de retardo de altura
determinado para una trama previa; y
medios (22) para identificar un retardo
correspondiente al máximo de la función de autocorrelación
ponderada como el parámetro de retardo de altura para la trama.
13. Dispositivo de comunicación móvil que
comprende el aparato de la reivindicación 12.
14. Red telefónica celular que comprende una
estación de controlador de base que tiene el aparato de acuerdo con
la reivindicación 12.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI971976 | 1997-05-07 | ||
FI971976A FI971976A (fi) | 1997-05-07 | 1997-05-07 | Puhekoodaus |
FI980502 | 1998-03-05 | ||
FI980502A FI113903B (fi) | 1997-05-07 | 1998-03-05 | Puheen koodaus |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2198615T3 true ES2198615T3 (es) | 2004-02-01 |
Family
ID=26160386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES98104785T Expired - Lifetime ES2198615T3 (es) | 1997-05-07 | 1998-03-17 | Codificacion de señales de voz. |
Country Status (10)
Country | Link |
---|---|
US (1) | US6199035B1 (es) |
EP (1) | EP0877355B1 (es) |
JP (3) | JPH1124699A (es) |
KR (2) | KR100653926B1 (es) |
CN (1) | CN1120471C (es) |
AU (1) | AU739238B2 (es) |
DE (1) | DE69814517T2 (es) |
ES (1) | ES2198615T3 (es) |
FI (1) | FI113903B (es) |
WO (1) | WO1998050910A1 (es) |
Families Citing this family (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6415252B1 (en) * | 1998-05-28 | 2002-07-02 | Motorola, Inc. | Method and apparatus for coding and decoding speech |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6507814B1 (en) | 1998-08-24 | 2003-01-14 | Conexant Systems, Inc. | Pitch determination using speech classification and prior pitch estimation |
JP3180786B2 (ja) * | 1998-11-27 | 2001-06-25 | 日本電気株式会社 | 音声符号化方法及び音声符号化装置 |
US7117149B1 (en) * | 1999-08-30 | 2006-10-03 | Harman Becker Automotive Systems-Wavemakers, Inc. | Sound source classification |
US6782360B1 (en) * | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
US6959274B1 (en) | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
US7124075B2 (en) * | 2001-10-26 | 2006-10-17 | Dmitry Edward Terez | Methods and apparatus for pitch determination |
KR100463417B1 (ko) * | 2002-10-10 | 2004-12-23 | 한국전자통신연구원 | 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치 |
US8073689B2 (en) | 2003-02-21 | 2011-12-06 | Qnx Software Systems Co. | Repetitive transient noise removal |
US7725315B2 (en) * | 2003-02-21 | 2010-05-25 | Qnx Software Systems (Wavemakers), Inc. | Minimization of transient noises in a voice signal |
US7895036B2 (en) * | 2003-02-21 | 2011-02-22 | Qnx Software Systems Co. | System for suppressing wind noise |
US7885420B2 (en) * | 2003-02-21 | 2011-02-08 | Qnx Software Systems Co. | Wind noise suppression system |
US8271279B2 (en) | 2003-02-21 | 2012-09-18 | Qnx Software Systems Limited | Signature noise removal |
US8326621B2 (en) | 2003-02-21 | 2012-12-04 | Qnx Software Systems Limited | Repetitive transient noise removal |
US7949522B2 (en) | 2003-02-21 | 2011-05-24 | Qnx Software Systems Co. | System for suppressing rain noise |
TWI241557B (en) * | 2003-07-21 | 2005-10-11 | Ali Corp | Method for estimating a pitch estimation of the speech signals |
JP4490090B2 (ja) | 2003-12-25 | 2010-06-23 | 株式会社エヌ・ティ・ティ・ドコモ | 有音無音判定装置および有音無音判定方法 |
US8306821B2 (en) * | 2004-10-26 | 2012-11-06 | Qnx Software Systems Limited | Sub-band periodic signal enhancement system |
US7716046B2 (en) * | 2004-10-26 | 2010-05-11 | Qnx Software Systems (Wavemakers), Inc. | Advanced periodic signal enhancement |
US7680652B2 (en) | 2004-10-26 | 2010-03-16 | Qnx Software Systems (Wavemakers), Inc. | Periodic signal enhancement system |
US8543390B2 (en) * | 2004-10-26 | 2013-09-24 | Qnx Software Systems Limited | Multi-channel periodic signal enhancement system |
US8170879B2 (en) * | 2004-10-26 | 2012-05-01 | Qnx Software Systems Limited | Periodic signal enhancement system |
US7949520B2 (en) | 2004-10-26 | 2011-05-24 | QNX Software Sytems Co. | Adaptive filter pitch extraction |
US7610196B2 (en) * | 2004-10-26 | 2009-10-27 | Qnx Software Systems (Wavemakers), Inc. | Periodic signal enhancement system |
US8284947B2 (en) * | 2004-12-01 | 2012-10-09 | Qnx Software Systems Limited | Reverberation estimation and suppression system |
US7933767B2 (en) * | 2004-12-27 | 2011-04-26 | Nokia Corporation | Systems and methods for determining pitch lag for a current frame of information |
US7386445B2 (en) * | 2005-01-18 | 2008-06-10 | Nokia Corporation | Compensation of transient effects in transform coding |
US8027833B2 (en) | 2005-05-09 | 2011-09-27 | Qnx Software Systems Co. | System for suppressing passing tire hiss |
US8311819B2 (en) * | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
US8170875B2 (en) * | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
US9058812B2 (en) * | 2005-07-27 | 2015-06-16 | Google Technology Holdings LLC | Method and system for coding an information signal using pitch delay contour adjustment |
ATE475170T1 (de) * | 2006-03-20 | 2010-08-15 | Mindspeed Tech Inc | Tonhöhen-track-glättung in offener schleife |
US7844453B2 (en) | 2006-05-12 | 2010-11-30 | Qnx Software Systems Co. | Robust noise estimation |
US8010350B2 (en) * | 2006-08-03 | 2011-08-30 | Broadcom Corporation | Decimated bisectional pitch refinement |
US7752038B2 (en) * | 2006-10-13 | 2010-07-06 | Nokia Corporation | Pitch lag estimation |
US8326620B2 (en) | 2008-04-30 | 2012-12-04 | Qnx Software Systems Limited | Robust downlink speech and noise detector |
US8335685B2 (en) * | 2006-12-22 | 2012-12-18 | Qnx Software Systems Limited | Ambient noise compensation system robust to high excitation noise |
US8386246B2 (en) * | 2007-06-27 | 2013-02-26 | Broadcom Corporation | Low-complexity frame erasure concealment |
US8850154B2 (en) | 2007-09-11 | 2014-09-30 | 2236008 Ontario Inc. | Processing system having memory partitioning |
US8904400B2 (en) * | 2007-09-11 | 2014-12-02 | 2236008 Ontario Inc. | Processing system having a partitioning component for resource partitioning |
US8694310B2 (en) | 2007-09-17 | 2014-04-08 | Qnx Software Systems Limited | Remote control server protocol system |
US8209514B2 (en) * | 2008-02-04 | 2012-06-26 | Qnx Software Systems Limited | Media processing system having resource partitioning |
GB2466671B (en) | 2009-01-06 | 2013-03-27 | Skype | Speech encoding |
GB2466673B (en) | 2009-01-06 | 2012-11-07 | Skype | Quantization |
GB2466670B (en) | 2009-01-06 | 2012-11-14 | Skype | Speech encoding |
GB2466675B (en) | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466669B (en) | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466672B (en) | 2009-01-06 | 2013-03-13 | Skype | Speech coding |
GB2466674B (en) | 2009-01-06 | 2013-11-13 | Skype | Speech coding |
WO2010091554A1 (zh) * | 2009-02-13 | 2010-08-19 | 华为技术有限公司 | 一种基音周期检测方法和装置 |
US8452606B2 (en) | 2009-09-29 | 2013-05-28 | Skype | Speech encoding using multiple bit rates |
US9384759B2 (en) | 2012-03-05 | 2016-07-05 | Malaspina Labs (Barbados) Inc. | Voice activity detection and pitch estimation |
US9437213B2 (en) | 2012-03-05 | 2016-09-06 | Malaspina Labs (Barbados) Inc. | Voice signal enhancement |
US9020818B2 (en) * | 2012-03-05 | 2015-04-28 | Malaspina Labs (Barbados) Inc. | Format based speech reconstruction from noisy signals |
US9123328B2 (en) * | 2012-09-26 | 2015-09-01 | Google Technology Holdings LLC | Apparatus and method for audio frame loss recovery |
ES2760934T3 (es) * | 2013-07-18 | 2020-05-18 | Nippon Telegraph & Telephone | Dispositivo, método, programa y medio de almacenamiento de análisis de predicción lineal |
ES2819032T3 (es) | 2013-12-19 | 2021-04-14 | Ericsson Telefon Ab L M | Estimación de ruido de fondo en señales de audio |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4486900A (en) | 1982-03-30 | 1984-12-04 | At&T Bell Laboratories | Real time pitch detection by stream processing |
JP2585214B2 (ja) * | 1986-02-21 | 1997-02-26 | 株式会社日立製作所 | ピッチ抽出方法 |
US4969192A (en) | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
CA2010830C (en) | 1990-02-23 | 1996-06-25 | Jean-Pierre Adoul | Dynamic codebook for efficient speech coding based on algebraic codes |
JPH04264600A (ja) * | 1991-02-20 | 1992-09-21 | Fujitsu Ltd | 音声符号化装置および音声復号装置 |
US5179594A (en) * | 1991-06-12 | 1993-01-12 | Motorola, Inc. | Efficient calculation of autocorrelation coefficients for CELP vocoder adaptive codebook |
US5339384A (en) * | 1992-02-18 | 1994-08-16 | At&T Bell Laboratories | Code-excited linear predictive coding with low delay for speech or audio signals |
FI95085C (fi) | 1992-05-11 | 1995-12-11 | Nokia Mobile Phones Ltd | Menetelmä puhesignaalin digitaaliseksi koodaamiseksi sekä puhekooderi menetelmän suorittamiseksi |
US5327520A (en) * | 1992-06-04 | 1994-07-05 | At&T Bell Laboratories | Method of use of voice message coder/decoder |
FI91345C (fi) | 1992-06-24 | 1994-06-10 | Nokia Mobile Phones Ltd | Menetelmä kanavanvaihdon tehostamiseksi |
CA2102080C (en) * | 1992-12-14 | 1998-07-28 | Willem Bastiaan Kleijn | Time shifting for generalized analysis-by-synthesis coding |
IT1270438B (it) * | 1993-06-10 | 1997-05-05 | Sip | Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce |
JP3321933B2 (ja) * | 1993-10-19 | 2002-09-09 | ソニー株式会社 | ピッチ検出方法 |
US5517595A (en) * | 1994-02-08 | 1996-05-14 | At&T Corp. | Decomposition in noise and periodic signal waveforms in waveform interpolation |
FI98163C (fi) | 1994-02-08 | 1997-04-25 | Nokia Mobile Phones Ltd | Koodausjärjestelmä parametriseen puheenkoodaukseen |
JP3418005B2 (ja) * | 1994-08-04 | 2003-06-16 | 富士通株式会社 | 音声ピッチ検出装置 |
US5781880A (en) * | 1994-11-21 | 1998-07-14 | Rockwell International Corporation | Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual |
US5664053A (en) | 1995-04-03 | 1997-09-02 | Universite De Sherbrooke | Predictive split-matrix quantization of spectral parameters for efficient coding of speech |
US5699485A (en) * | 1995-06-07 | 1997-12-16 | Lucent Technologies Inc. | Pitch delay modification during frame erasures |
-
1998
- 1998-03-05 FI FI980502A patent/FI113903B/fi not_active IP Right Cessation
- 1998-03-13 KR KR1020047005340A patent/KR100653926B1/ko not_active IP Right Cessation
- 1998-03-13 WO PCT/FI1998/000229 patent/WO1998050910A1/en not_active Application Discontinuation
- 1998-03-13 AU AU64032/98A patent/AU739238B2/en not_active Expired
- 1998-03-13 KR KR1019997009481A patent/KR100653932B1/ko not_active IP Right Cessation
- 1998-03-13 CN CN98804901A patent/CN1120471C/zh not_active Expired - Lifetime
- 1998-03-17 EP EP98104785A patent/EP0877355B1/en not_active Expired - Lifetime
- 1998-03-17 DE DE69814517T patent/DE69814517T2/de not_active Expired - Lifetime
- 1998-03-17 ES ES98104785T patent/ES2198615T3/es not_active Expired - Lifetime
- 1998-04-23 JP JP10113808A patent/JPH1124699A/ja not_active Withdrawn
- 1998-05-06 US US09/073,697 patent/US6199035B1/en not_active Expired - Lifetime
-
2003
- 2003-10-09 JP JP2003350824A patent/JP2004038211A/ja active Pending
-
2009
- 2009-04-17 JP JP2009101116A patent/JP4866438B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
KR100653926B1 (ko) | 2006-12-05 |
FI980502A (fi) | 1998-11-08 |
FI980502A0 (fi) | 1998-03-05 |
KR100653932B1 (ko) | 2006-12-04 |
KR20010006394A (ko) | 2001-01-26 |
AU739238B2 (en) | 2001-10-04 |
US6199035B1 (en) | 2001-03-06 |
FI113903B (fi) | 2004-06-30 |
JP2004038211A (ja) | 2004-02-05 |
JP4866438B2 (ja) | 2012-02-01 |
DE69814517D1 (de) | 2003-06-18 |
EP0877355A2 (en) | 1998-11-11 |
AU6403298A (en) | 1998-11-27 |
CN1120471C (zh) | 2003-09-03 |
CN1255226A (zh) | 2000-05-31 |
JP2009223326A (ja) | 2009-10-01 |
WO1998050910A1 (en) | 1998-11-12 |
JPH1124699A (ja) | 1999-01-29 |
EP0877355A3 (en) | 1999-06-16 |
DE69814517T2 (de) | 2004-04-08 |
KR20040037265A (ko) | 2004-05-04 |
EP0877355B1 (en) | 2003-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2198615T3 (es) | Codificacion de señales de voz. | |
ES2212642T3 (es) | Dispositivo de codificacion perceptual y metodo para la codificacion eficaz de señales de banda ancha. | |
EP0544101B1 (en) | Method and apparatus for the transmission of speech signals | |
US8019599B2 (en) | Speech codecs | |
EP1159736B1 (en) | Distributed voice recognition system | |
ES2265958T3 (es) | Discretizacion de magnitud espectral para un codificador de voz. | |
EP1953736A1 (en) | Stereo encoding device, and stereo signal predicting method | |
RU2713605C1 (ru) | Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио | |
KR20020093943A (ko) | 보이스화된 음성을 예측적으로 양자화하는 방법 및 장치 | |
JPH0863200A (ja) | 線形予測係数信号生成方法 | |
ES2287150T3 (es) | Metodo y sistema para estimacion artificial de una señal de banda alta en un codificador-decodificador de voz. | |
JPH07311597A (ja) | 音声信号合成方法 | |
WO2004015689A1 (en) | Bandwidth-adaptive quantization | |
KR20020033737A (ko) | 음성 코더에서 선스펙트럼 정보 양자화법을 인터리빙하는방법및 장치 | |
JPH07325594A (ja) | 復号器において使用されるパラメータ信号アダプタの動作方法 | |
Cellario et al. | CELP coding at variable rate | |
KR101164834B1 (ko) | 제 1 비트 레이트와 연관된 제 1 패킷을 제 2 비트 레이트와 연관된 제 2 패킷으로 디밍하는 시스템 및 방법 | |
RU2792658C1 (ru) | Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио | |
RU2776261C1 (ru) | Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио | |
WO2008001991A1 (en) | Apparatus and method for extracting noise-robust speech recognition vector by sharing preprocessing step used in speech coding | |
KR960011132B1 (ko) | 씨이엘피(celp) 보코더에서의 피치검색방법 | |
JP5511839B2 (ja) | トーン判定装置およびトーン判定方法 | |
Boyd et al. | A speech codec for the Skyphone service | |
JPH10105196A (ja) | 音声符号化装置 |