ES2198615T3 - Codificacion de señales de voz. - Google Patents

Codificacion de señales de voz.

Info

Publication number
ES2198615T3
ES2198615T3 ES98104785T ES98104785T ES2198615T3 ES 2198615 T3 ES2198615 T3 ES 2198615T3 ES 98104785 T ES98104785 T ES 98104785T ES 98104785 T ES98104785 T ES 98104785T ES 2198615 T3 ES2198615 T3 ES 2198615T3
Authority
ES
Spain
Prior art keywords
frames
voice
weighting
frame
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES98104785T
Other languages
English (en)
Inventor
Ari Lakaniemi
Janne Vainio
Pasi Ojala
Petri Haavisto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from FI971976A external-priority patent/FI971976A/fi
Application filed by Nokia Oyj filed Critical Nokia Oyj
Application granted granted Critical
Publication of ES2198615T3 publication Critical patent/ES2198615T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/725Cordless telephones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

LA INVENCION SE REFIERE A UN PROCEDIMIENTO PARA CODIFICAR EL HABLA DE UNA SEÑAL DEL HABLA MUESTREADA, UTILIZANDO UNA PREDICCION A LARGO PLAZO (LTP). SE DETERMINA UN PARAMETRO DE RETARDO DE PASO LTP PARA CADA PAGINA DE LA SEÑAL DEL HABLA, DETERMINANDO PRIMERO LA FUNCION DE AUTOCORRELACION PARA LA PAGINA DENTRO DE LA SEÑAL, ENTRE UNOS RETARDOS MAXIMOS Y MINIMOS PREDEFINIDOS. ENTONCES, SE PONDERA LA FUNCION DE AUTOCORRELACION PARA ENFATIZAR LA FUNCION, PARA LOS RETARDOS EXISTENTES EN LA VECINDAD DEL PARAMETRO DE RETARDO DE PASO QUE HAN SIDO DETERMINADOS PARA LA PAGINA DE VOZ MAS RECIENTE. SE ENCUENTRA ENTONCES EL VALOR MAXIMO PARA LA FUNCION DE AUTOCORRELACION PONDERADA Y SE IDENTIFICA COMO EL PARAMETRO DE RETARDO DE PASO PARA LA PAGINA.

Description

Codificación de señales de voz.
La presente invención se refiere a la codificación de voz y es aplicable, en particular, a métodos y aparatos para codificar voz que utilizan un parámetro de predicción de larga duración (LTP).
La codificación de voz es utilizada en muchas aplicaciones de comunicaciones donde es deseable comprimir una señal de voz de audio para reducir la cantidad de datos que deben ser transmitidos, procesados o almacenados. En particular, se aplica la codificación de voz de forma ampliada en las redes de teléfonos celulares donde los teléfonos móviles y las estaciones del controlador de base de comunicación están provistos con los denominados ``codecs de audio'' que realizan la codificación y decodificación de las señales de voz. La compresión de datos por la codificación de voz en las redes de teléfonos celulares es requerida por la necesidad de llevar al máximo la capacidad de llamada de red.
Los codecs de voz modernos accionan típicamente el procesamiento de las señales de voz en segmentos cortos denominadas tramas. En el caso del sistema de teléfono celular digital Europeo conocido como GSM (definido por European Telecommunications Standards Institute - ETSI - especificación 06.06), la longitud de cada trama es de 20 ms, correspondiendo a 160 muestras de voz a una frecuencia de muestreo de 8 kHz. En la estación de transmisión, cada trama de voz es analizada por un codificador de voz para extraer un conjunto de parámetros de codificación para la transmisión hasta la estación de recepción. En la estación de recepción, un decodificador produce tramas de voz sintetizados basadas en los parámetros recibidos. Un conjunto típico de parámetros de codificación extraídos incluye parámetros espectrales (conocido como parámetros LPC) utilizados en la predicción de larga duración de la señal, parámetros utilizados para predicción de larga duración (conocido como parámetros LTP) de la señal, varios parámetros de ganancia, parámetros de excitación, y vectores de libro de códigos.
La figura 1 muestra esquemáticamente el codificador de un codec denominado CELP (están previstos codecs CELP substancialmente idénticos tanto en las estaciones móviles como en las estaciones del controlador de base). Cada trama de una señal de voz muestreada recibida s(n), donde n indica el número de muestra, es analizado primero por una unidad de predicción de corta duración 1 para determinar los parámetros LPC para la trama. Estos parámetros son suministrados a un multiplexor 2 que combina los parámetros de codificación para la transmisión sobre la interfaz-aire. La señal residual r(n) desde la unidad de predicción de corta duración 1, es decir, la trama de voz después de la eliminación de la redundancia de corta duración, es suministrada entonces a una unidad de predicción de larga duración 3 que determina los parámetros LTP. Estos parámetros son proporcionados, a su vez, al multiplexor 2.
El codificador comprende un filtro de síntesis LTP 4 y un filtro de síntesis LPC 5 que reciben, respectivamente, los parámetros de LTP y LPC. Estos filtros introducen las redundancias de corta duración y de larga duración en una señal c(n), producida utilizando un libro de códigos 6 para generar una señal de voz sintetizada ss(n). La señal de voz sintetizada es comparada en un comparador 7 con la señal de voz real s(n), trama por trama, para producir una señal de error e(n). Después de ponderar la señal de error con un filtro de ponderación 8 (que resalta los ``formantes'' de la señal de un modo conocido), la señal es aplicada a una unidad de investigación de libro de códigos 9. La unidad de investigación 9 conduce a una investigación del libro de códigos 6 para cada trama con el fin de identificar qué entrada en el libro de códigos coincide más estrechamente (después de filtración y multiplicación de LTP y LPC por una ganancia g en un multiplicador 10) con la trama de voz real, es decir, determinar la señal c(n) que reduce al mínimo la señal de error e(n). El vector que identifica la mejor entrada de coincidencia es proporcionado al multiplexor 2 para la transmisión sobre la interfaz de aire como parte de una señal de voz codificada t(n).
La figura 2 muestra esquemáticamente un decodificador de un codec CELP. La señal codificada recibida t(n) es demultiplexada por un demultiplexor 11 en los parámetros de codificación separados. Los vectores del libro de códigos son aplicados a un libro de códigos 12, idénticos al libro de códigos 6 en el codificador, para extraer una corriente de entradas del libro de códigos c(n). La señal c(n) es multiplicada entonces por la ganancia recibida g en un multiplicador 13 antes de aplicar la señal a un filtro de síntesis LTP 14 y un filtro de síntesis LPC 15 dispuestos en serie. Los filtros LTP y LPC reciben los parámetros asociados desde el canal de transmisión y reintroducen las redundancias de corta y larga duración en la señal para producir, en la salida, una señal de voz sintetizada ss(n).
Los parámetros LTP incluyen el llamado parámetro de retardo de altura que describe la frecuencia fundamental de la señal de voz. La determinación del retardo de altura para una trama actual de la señal residual se lleva a cabo en dos etapas. En primer lugar, se lleva a cabo una investigación de circuito abierto que implica una investigación relativamente más extensa de la señal residual, sujeta a un retardo máximo y mínimo predefinido para una porción de la señal que mejor coincide con la trama actual. Una investigación de circuito cerrado es conducida entonces sobre la señal ya sintetizada. La investigación de circuito cerrado se lleva a cabo sobre un pequeño intervalo de retardos en la vecindad de la estimación del circuito abierto del retardo de altura. Es importante indicar que si se comete un error en la investigación de circuito abierto, el error no puede corregirse en la investigación de circuito cerrado.
\newpage
En los codecs conocidos con anterioridad, el análisis LTP de circuito abierto determina el retardo de altura para una trama dada de la señal residual por la determinación de la función de auto-correlación de la trama dentro de la señal de voz residual, es decir: \hat{R}(d)=\sum^{N-1}_{n=0}r(n-d)r(n)
\hskip13cm
d= d_{L},...,d_{H}
donde d es el retardo, r(n) es la señal residual, y d_{L} y d_{H} son los límites de investigación del retardo. N es la longitud de la trama. El retardo de altura d_{pl} puede identificarse entonces como el retardo d_{max} que corresponde con el máximo de la función de autocorrelación R(d). Esto se ilustra en la figura 3.
No obstante, en tales codecs existe una posibilidad de que el máximo de la función de autocorrelación corresponda con un múltiplo o sub-múltiplo del retardo de altura y que el retardo de altura estimado no será por tanto corregido. El documento EP0628947 considera este problema por la aplicación de una función de ponderación w(d) a la función de autocorrelación R(d), es decir, \hat{R}_{w}(d)=w(d)\sum^{N-1}_{n=0}r(n-d)r(n) donde la función de ponderación tiene la siguiente forma: w(d)=d^{log_{2}K} K es un parámetro de sintonización que se ajusta a un valor lo suficientemente bajo para reducir la probabilidad de obtener un máximo para R_{w}(d) en un múltiplo del retardo de altura pero al mismo tiempo lo suficientemente alto para excluir los submúltiplos del retardo de altura.
El documento EP0628947 propone también tener en cuenta los desplazamientos de paso determinados por los tramas previas en la determinación del retardo de altura para una trama actual. Más particularmente, las tramas están clasificados o bien ``con voz'' o ``sin voz'' y, para la trama actual, se lleva a cabo una investigación para el máximo en la vecindad del retardo de altura determinada por la trama de voz más reciente. Si el máximo general de R_{w}(d) se establece fuera de esta vecindad, y no excede el máximo dentro de la vecindad por un factor predeterminado (3/2), entonces el máximo de la vecindad se identifica como correspondiente al retardo de altura. De este modo, se mantiene la continuidad de la estimación de retardo de altura, reduciendo la posibilidad de cambios falsos en el retardo de altura.
De acuerdo con un primer aspecto de la presente invención, está previsto un método de codificación de voz de una señal muestreada utilizando un parámetro de desplazamiento de voz para cada uno de una serie de tramas de la señal, comprendiendo el método para cada trama:
determinar la función de autocorrelación para la trama dentro de la señal, entre los retardos máximo y mínimo predefinidos;
ponderar la función de autocorrelación para resaltar la función para retardos en la vecindad del parámetro de retardo de altura determinado para una trama previa; e
identificar el retardo correspondiente al máximo de la función de autocorrelación ponderada como el parámetro de retardo de altura para la trama.
Preferentemente, dicha señal muestreada es una señal reducida que se obtiene a partir de una señal audio eliminando substancialmente la redundancia de corta duración desde la señal de audio. Alternativamente, la señal muestreada puede ser una señal audio.
Preferentemente, dicha ponderación es alcanzada combinando la función de autocorrelación con una función de ponderación que tiene la forma:
w(d)=(|T_{prev}-d|+d_{L})^{log_{2}k_{nw}}
\newpage
donde T_{prev} es un parámetro de retardo de altura determinado sobre la base de uno o más tramas previas, d_{L} es dicho retardo mínimo, y K_{nw} es un parámetro de sintonización que define la ponderación de la vecindad. Adicionalmente, la función de ponderación puede resaltar la función de autocorrelación para retardos más cortos con respecto a retardos más largos. En este caso, se utiliza una función de ponderación modificada: w(d)=(|T_{prev}-d|+d_{L})^{log_{2}k_{nw}}\cdot d^{log_{2}k_{w}} donde k_{W} es un parámetro de sintonización adicional.
En ciertas formas de realización de la invención, T_{prev} es el retardo de alturas de una trama previa T_{old}. No obstante, en otras formas de realización T_{prev} es derivado de los desplazamientos de paso de un número de tramas previas. En particular, T_{prev} puede corresponder con el valor medio de los desplazamientos de paso de un número predeterminado de tramas previas. Puede aplicarse una ponderación adicional que es inversamente proporcional a la desviación estándar de los n desplazamientos de paso utilizados para determinar dicho valor medio. Utilizando este último método, es posible reducir el impacto de los valores de retardo de altura erróneos sobre la ponderación de la función de autocorrelación.
Preferentemente, el método comprende clasificar dichas tramas en tramas de voz y tramas sin voz, donde dicha(s) trama(s) previo(s) es/son la(las) trama(s) de voz más reciente(s). Las tramas sin voz pueden incluir tramas sin voz, y Las tramas que contienen silencio o ruido de fondo. Más preferentemente, si dicho(s) tramas(s) previa(s) no es/son la(las) tramas(s) más reciente(s), se reduce la ponderación. En una forma de realización, donde se recibe una secuencia de tramas sin voz consecutivas, se reduce la ponderación substancialmente en proporción con el número de tramas de la secuencia. Para la función de ponderación w_{n}(d) dada en el párrafo precedente, el parámetro de sintonización k_{nw} puede modificarse de forma que: w(d)=(|T_{prev}-d|+d_{L})^{log_{2}k_{nw}A}\cdot d^{log_{2}k_{w}} donde A es un factor de sintonización adicional que se incrementa siguiendo la recepción de cada tramas de una secuencia de tramas sin voz consecutivas. La ponderación es restablecida a su valor máximo para las siguientes tramas de voz retornando A a su valor mínimo. El valor de A puede incrementarse de forma similar siguiendo la recepción de una trama de voz que da lugar a una ganancia de circuito abierto que es menor que una ganancia umbral predefinida.
De acuerdo con un segundo aspecto de la presente invención, está previsto un aparato para la codificación de voz de una señal muestreada utilizando un parámetro de desplazamiento de voz para cada serie de tramas de la señal, comprendiendo el aparato:
medios para determinar para cada tramas de la función de autocorrelación de la trama dentro de la señal entre los retardos máximo y mínimo predeterminados;
medios de ponderación para ponderar la función de autocorrelación para resaltar la función para los retardos en la vecindad del parámetro de retardo de altura determinado para una trama previa; y
medios para identificar el retardo correspondiente al máximo de la función de autocorrelación ponderada como el parámetro de retardo de altura para la trama.
De acuerdo con un tercer aspecto de la presente invención, está previsto un dispositivo de comunicaciones móvil que comprende el aparato del segundo aspecto anterior de la presente invención.
De acuerdo con un cuarto aspecto de la presente invención, está prevista una red de teléfono celular que comprende una estación del controlador de base que tiene un aparato de acuerdo con el segundo aspecto anterior de la presente invención.
Para un mejor entendimiento de la presente invención y con el fin de mostrar cómo se puede llevar a efecto, a continuación se hará referencia a modo de ejemplo a los dibujos que se acompañan, en los que:
La figura 1 muestra esquemáticamente un codificador de voz CELP.
La figura 2 muestra esquemáticamente un decodificador de voz CELP.
La figura 3 ilustra una trama de una señal de voz que debe codificarse y retardos máximo y mínimo utilizados en la determinación de la función de autocorrelación para la trama.
La figura 4 muestra un diagrama de flujo de las etapas principales de un método de codificación de voz de acuerdo con una forma de realización de la presente invención; y
La figura 5 muestra esquemáticamente un sistema para llevar a cabo el método de la figura 4.
\newpage
Se describirá a continuación un método y aparato para uso en la predicción de circuito abierto de parámetros de retardo de altura para tramas de una señal de voz muestreada. Las etapas principales del método se muestran en el diagrama de flujo de la figura 4. Se apreciará que el método y aparato descrito puede ser incorporado en codecs de voz convencionales de otro modo, tales como el codec CELP ya descrito anteriormente con referencia a la figura 1.
Una señal de voz muestreada que debe ser codificada está dividida en tramas de longitud fija. Como se describe anteriormente, después de la recepción, una trama es aplicada en primer lugar a una unidad de predicción LPC 1. Típicamente, se aplica entonces una predicción LTP de circuito abierto a la señal residual que es esa parte de la señal de voz original que permanece después de que se ha aplicado la predicción LPC y la redundancia a corto plazo de la señal extraída. Esta señal residual puede representarse por r(n) donde n indica el número de muestra. La función de autocorrelación es determinada para una trama por: \hat{R}_{w}(d)=w(d)\sum^{N-1}_{n=0}r(n-d)r(n)
\hskip11cm
d= d_{L},...,d_{H}
\hskip2,70cm
{1}
donde w(d) es una función de ponderación dada por: w(d)=(|T_{old}-d|+d_{L})^{log_{2}k_{nw}A}\cdot d^{log_{2}k_{w}}\eqnum{\{2\}}
T_{old} es el retardo de altura determinado para la trama de voz más recientemente recibido y procesado y n, N, d_{L}, d_{H} son los identificados anteriormente. K_{nw} y K son parámetros de sintonización que tienen típicamente un valor de 0,85. El parámetro de sintonización adicional A se describe a continuación.
Después, los parámetros LTP de circuito abierto son determinados para una trama, la trama es clasificada como con voz o sin voz (para permitir la realimentación del parámetro T_{old} para uso en la ecuación {2}).
Esta clasificación puede realizarse en un número diferente de modos. Un método adecuado es determinar la ganancia LTP de circuito abierto b y comparar esto con cierta ganancia de umbral predefinida o más preferentemente, una ganancia umbral adaptable b_{thr} dada por:
b_{thr} = (1-\alpha) K_{b}b + \alpha b_{thr-1}\eqnum{\{3\}}
donde \alpha es una constante de amortiguamiento (0,995) y K_{b} es un factor de escala (0,15). El término b_{thr-1} es la ganancia umbral determinada por la trama inmediatamente precedente. Una alternativa o criterios adicionales para clasificación de una trama o bien con voz o sin voz, es determinar la frecuencia ``de paso por cero'' de la señal residual dentro de la trama. Una frecuencia relativamente alta del paso por cero indica que la trama es sin voz mientras que una frecuencia de paso por cero baja indica que la trama es de voz. Un umbral adecuado es 3/4 de la longitud de la trama N.
Una alternativa adicional o criterios adicionales para la clasificación de una trama de voz o sin voz es considerar la velocidad a la que varía el retardo de altura. Si el retardo de altura determinado para la trama se desvía significativamente de un retardo de altura ``medio'' determinado para un conjunto de tramas recientes, entonces la trama puede clasificarse como sin voz. Si solamente existe una desviación relativamente pequeña, entonces la trama puede clasificarse como con voz.
La función de ponderación w_{n}(d) por {2} comprende un primer término (|T_{old}-d|+d_{L})^{log_{2}k_{nw}A} que provoca que la función de autocorrelación ponderada R_{w}(d) sea resaltada en la vecindad del retardo de altura antiguo T_{old}. El segundo término en el lateral izquierdo de la ecuación {2}, d^{log_{2}k_{w}}, provoca que los valores de desplazamiento por paso pequeños sean resaltados. La combinación de estos dos términos ayuda a reducir significativamente la posibilidad de múltiplos o sub-múltiplos del retardo de altura que elevan al máximo la función de autocorrelación ponderada.
\newpage
Si, después de determinar el retardo de altura para una trama actual 1, cuyas tramas está clasificado como con voz, y es determinada la ganancia del circuito abierto para la trama por ser mayor que cierto valor umbral (por ejemplo, 0,4), el factor de sintonización A en la ecuación {2} es ajustado a 1 para el siguiente tramas (i+1). No obstante, si la trama actual es clasificado como con voz, o se determina que la ganancia de circuito abierto es menor que el valor umbral, el factor de sintonización es modificado del siguiente modo:
A_{1+1} = 1,01A_{i}\eqnum{\{4\}}
El factor de sintonización A puede estar modificado de acuerdo con la ecuación {4} para cada una de las series de tramas sin voz consecutivas (o tramas de voz donde la ganancia del circuito abierto es menor que el umbral). No obstante, es preferible que la ecuación {4} sea aplicada solamente después de que se recibe un número predefinido de tramas sin voz consecutivas, por ejemplo, después de cada conjunto de tres tramas sin voz consecutivas. El valor de ponderación de vecindad K_{nw} es ajustado típicamente 0,85, donde el límite superior para la ponderación combinada k_{nw} A es 1,0, de forma que en el límite la ponderación es uniforme a través de todos los retardos d = d_{L} a d_{H}.
Alternativamente, solamente puede utilizarse un número predefinido de funciones de ponderación w(d), por ejemplo tres. Cada función tiene asignada a esto un nivel umbral, y una particular de las funciones es seleccionada cuando un término adaptable, tal como se define en {4} excede este nivel umbral. Una ventaja de definir un número limitado de funciones de ponderación es que las funciones definidas pueden almacenarse en la memoria. No es necesario, por lo tanto, calcular de nuevo la función de ponderación para cada nuevo tramas.
Se ilustra esquemáticamente en la figura 5 un sistema simplificado para llevar a cabo el método descrito anteriormente, donde la entrada 16 al sistema es la señal residual prevista por la unidad de predicción LPC 1. Esta señal residual 16 está prevista a un correlacionador de tramas 17 que genera la función de correlación para cada tramas de señal residual. La función de correlación para cada tramas es aplicada a una primera unidad de ponderación 18 que pondera la función de correlación de acuerdo con el segundo término en la ecuación {2}, es decir, d^{log_{2}K_{n}}. La función ponderada es aplicada entonces a una segunda unidad de ponderación 19 que pondera adicionalmente la función de correlación de acuerdo con el primer término de la ecuación {2}
(|T_{old} -d| + d_{L})^{log_{2}k_{nw}A}\cdot
El parámetro T_{old} es mantenido en una memoria intermedia 20 que está actualizada utilizando la salida del sistema solamente si la unidad de clasificación 21 clasifica la trama actual como con voz. La función de correlación ponderada es aplicada a una unidad de investigación 22 que identifica el máximo de la función ponderada y determina el retardo de altura de la trama actual.
Se apreciará por un técnico en la materia que pueden realizarse varias modificaciones a las formas de realización descritas anteriormente sin separarnos del alcance de la presente invención. En particular, con el fin de prevenir una estimación errónea de retardo de altura, obtenida para la trama de voz más reciente, desajustando una estimación actual a una extensión demasiado grande, la memoria intermedia 20 de la figura 5 puede estar dispuesta para almacenar los desplazamientos de paso estimados para las n tramas con voz estimadas, donde n puede ser por ejemplo 4. La función de ponderación aplicada por la unidad de ponderación 19 está modificada por la sustitución del parámetro T_{old} con un parámetro T_{med} que es el valor mediano de los n desplazamientos de paso memorizados temporalmente.
En una modificación adicional, la ponderación aplicada en la unidad 10 es inversamente proporcional a la desviación estándar de los valores de los n retardo de altura almacenados en la memoria intermedia 20. Esto tiene el efecto de resaltar la ponderación en la vecindad del retardo de altura mediano cuando los n retardo de altura memorizados temporalmente varían muy poco, y a la inversa, pasar por alto la ponderación cuando los n desplazamientos de paso varían hasta una extensión relativamente grande. Por ejemplo, las tres funciones de ponderación pueden emplearse del siguiente modo:
5
\newpage
donde Km_{1}, Km_{2}, Th_{1} y Th_{2} son parámetros de sintonización iguales por ejemplo a 0,75, 0,95, 2 y 6, respectivamente. Con el fin de alojar las variaciones más grandes en la desviación estándar que se producen con desplazamientos de paso más grandes, los umbrales Th_{1}, Th_{2}, en la ecuación {5} pueden ser proporcionales al retardo de altura medio T_{med}.

Claims (14)

1. Método de codificación de voz de una señal muestreada utilizando un parámetro de retardo de altura para cada una de las series de tramas de la señal, comprendiendo el método para cada tramas:
determinar la función de autocorrelación para la trama dentro de la señal, entre los retardos máximo y mínimo predefinidos;
ponderar la función de autocorrelación para resaltar la función para retardos en la vecindad del parámetro de retardo de altura determinado para una trama previo; e
identificar el retardo correspondiente al máximo de la función de autocorrelación ponderada como el parámetro de retardo de altura para la trama.
2. Método de acuerdo con la reivindicación 1, donde la función de ponderación tiene la forma: w(d)=(|T_{old}-d|+d_{L})^{log_{2}k_{nw}} donde T_{old} es el retardo de altura de dicha trama previa, d_{L} es dicho retardo mínimo y K_{nw} es un parámetro de sintonización que define la ponderación de vecindad.
3. Método de acuerdo con la reivindicación 1, donde la función de autocorrelación es ponderada para resaltar la función de los retardos en la vecindad del valor medio de una pluralidad de desplazamientos de paso determinados para las respectivas tramas.
4. Método de acuerdo con la reivindicación 3, donde la función de vecindad tiene la forma de: w(d)=(|T_{old}-d|+d_{L})^{log_{2}k_{nw}} donde T_{med} es el valor medio de una pluralidad de desplazamientos de paso determinado por las tramas previas respectivas, d_{L} es dicho retardo mínimo y K_{nw} es un parámetro de sintonización que define la ponderación de vecindad.
5. Método de acuerdo con la reivindicación 4, donde la función de ponderación es modificada por la inclusión de un factor que es inversamente proporcional a la variación estándar de dicha pluralidad de desplazamientos de paso.
6. Método de acuerdo con una cualquiera de las reivindicaciones precedentes, donde dicha ponderación resalta adicionalmente los retardos más cortos respecto a los retardos más largos.
7. Método de acuerdo con la reivindicación 4, donde dicho énfasis es proporcionado por el factor: d^{log_{2}k_{w}} donde K_{W}es un parámetro de ponderación adicional.
8. Método de acuerdo con una cualquiera de las reivindicaciones precedentes y que comprende clasificar dichas tramas en tramas de voz y tramas sin voz, donde dicha(s) trama(s) es/son la (las) trama(s) de voz más recientes.
9. Método de acuerdo con la reivindicación 8, donde si dicha trama previa, o la trama previo más reciente, no es la trama más reciente, se reduce la ponderación.
10. Método de acuerdo con la reivindicación 8 ó 9, donde después de recibir una secuencia de tramas sin voz consecutivas, la ponderación es reducida substancialmente en proporción al número de tramas de la secuencia.
11. Método de acuerdo con la reivindicación 8, cuando se toma junto a las reivindicaciones 2 ó 4, donde el parámetro de sintonización está modificado como:
log_{2}K_{nw}A
donde A es un factor de sintonización adicional que es aumentado siguiendo la recepción de cada trama o de una pluralidad de tramas predefinidas, de una secuencia de tramas sin voz consecutivas y que es restablecido a su valor mínimo para la siguiente trama de voz.
12. Aparato para la codificación de voz de una señal muestreada utilizando un parámetro de retardo de altura para cada una de las series de tramas de la señal, comprendiendo el aparato:
medios (17) para determinar para cada trama la función de autocorrelación de la trama dentro de la señal entre los retardos máximo y mínimo predeterminados;
medios de ponderación (19) para ponderar la función de autocorrelación para resaltar la función para los retardos en la vecindad del parámetro de retardo de altura determinado para una trama previa; y
medios (22) para identificar un retardo correspondiente al máximo de la función de autocorrelación ponderada como el parámetro de retardo de altura para la trama.
13. Dispositivo de comunicación móvil que comprende el aparato de la reivindicación 12.
14. Red telefónica celular que comprende una estación de controlador de base que tiene el aparato de acuerdo con la reivindicación 12.
ES98104785T 1997-05-07 1998-03-17 Codificacion de señales de voz. Expired - Lifetime ES2198615T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
FI971976 1997-05-07
FI971976A FI971976A (fi) 1997-05-07 1997-05-07 Puhekoodaus
FI980502 1998-03-05
FI980502A FI113903B (fi) 1997-05-07 1998-03-05 Puheen koodaus

Publications (1)

Publication Number Publication Date
ES2198615T3 true ES2198615T3 (es) 2004-02-01

Family

ID=26160386

Family Applications (1)

Application Number Title Priority Date Filing Date
ES98104785T Expired - Lifetime ES2198615T3 (es) 1997-05-07 1998-03-17 Codificacion de señales de voz.

Country Status (10)

Country Link
US (1) US6199035B1 (es)
EP (1) EP0877355B1 (es)
JP (3) JPH1124699A (es)
KR (2) KR100653926B1 (es)
CN (1) CN1120471C (es)
AU (1) AU739238B2 (es)
DE (1) DE69814517T2 (es)
ES (1) ES2198615T3 (es)
FI (1) FI113903B (es)
WO (1) WO1998050910A1 (es)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6415252B1 (en) * 1998-05-28 2002-07-02 Motorola, Inc. Method and apparatus for coding and decoding speech
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6507814B1 (en) 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
JP3180786B2 (ja) * 1998-11-27 2001-06-25 日本電気株式会社 音声符号化方法及び音声符号化装置
US7117149B1 (en) * 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6959274B1 (en) 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US7124075B2 (en) * 2001-10-26 2006-10-17 Dmitry Edward Terez Methods and apparatus for pitch determination
KR100463417B1 (ko) * 2002-10-10 2004-12-23 한국전자통신연구원 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US7725315B2 (en) * 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
TWI241557B (en) * 2003-07-21 2005-10-11 Ali Corp Method for estimating a pitch estimation of the speech signals
JP4490090B2 (ja) 2003-12-25 2010-06-23 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
US8306821B2 (en) * 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US7716046B2 (en) * 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US7680652B2 (en) 2004-10-26 2010-03-16 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US8543390B2 (en) * 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US8170879B2 (en) * 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US7610196B2 (en) * 2004-10-26 2009-10-27 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US8284947B2 (en) * 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
US7933767B2 (en) * 2004-12-27 2011-04-26 Nokia Corporation Systems and methods for determining pitch lag for a current frame of information
US7386445B2 (en) * 2005-01-18 2008-06-10 Nokia Corporation Compensation of transient effects in transform coding
US8027833B2 (en) 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8311819B2 (en) * 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US9058812B2 (en) * 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
ATE475170T1 (de) * 2006-03-20 2010-08-15 Mindspeed Tech Inc Tonhöhen-track-glättung in offener schleife
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8010350B2 (en) * 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
US7752038B2 (en) * 2006-10-13 2010-07-06 Nokia Corporation Pitch lag estimation
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8335685B2 (en) * 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US8386246B2 (en) * 2007-06-27 2013-02-26 Broadcom Corporation Low-complexity frame erasure concealment
US8850154B2 (en) 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8904400B2 (en) * 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
US8209514B2 (en) * 2008-02-04 2012-06-26 Qnx Software Systems Limited Media processing system having resource partitioning
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466670B (en) 2009-01-06 2012-11-14 Skype Speech encoding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466669B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466672B (en) 2009-01-06 2013-03-13 Skype Speech coding
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
WO2010091554A1 (zh) * 2009-02-13 2010-08-19 华为技术有限公司 一种基音周期检测方法和装置
US8452606B2 (en) 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
US9384759B2 (en) 2012-03-05 2016-07-05 Malaspina Labs (Barbados) Inc. Voice activity detection and pitch estimation
US9437213B2 (en) 2012-03-05 2016-09-06 Malaspina Labs (Barbados) Inc. Voice signal enhancement
US9020818B2 (en) * 2012-03-05 2015-04-28 Malaspina Labs (Barbados) Inc. Format based speech reconstruction from noisy signals
US9123328B2 (en) * 2012-09-26 2015-09-01 Google Technology Holdings LLC Apparatus and method for audio frame loss recovery
ES2760934T3 (es) * 2013-07-18 2020-05-18 Nippon Telegraph & Telephone Dispositivo, método, programa y medio de almacenamiento de análisis de predicción lineal
ES2819032T3 (es) 2013-12-19 2021-04-14 Ericsson Telefon Ab L M Estimación de ruido de fondo en señales de audio

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4486900A (en) 1982-03-30 1984-12-04 At&T Bell Laboratories Real time pitch detection by stream processing
JP2585214B2 (ja) * 1986-02-21 1997-02-26 株式会社日立製作所 ピッチ抽出方法
US4969192A (en) 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
CA2010830C (en) 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
JPH04264600A (ja) * 1991-02-20 1992-09-21 Fujitsu Ltd 音声符号化装置および音声復号装置
US5179594A (en) * 1991-06-12 1993-01-12 Motorola, Inc. Efficient calculation of autocorrelation coefficients for CELP vocoder adaptive codebook
US5339384A (en) * 1992-02-18 1994-08-16 At&T Bell Laboratories Code-excited linear predictive coding with low delay for speech or audio signals
FI95085C (fi) 1992-05-11 1995-12-11 Nokia Mobile Phones Ltd Menetelmä puhesignaalin digitaaliseksi koodaamiseksi sekä puhekooderi menetelmän suorittamiseksi
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
FI91345C (fi) 1992-06-24 1994-06-10 Nokia Mobile Phones Ltd Menetelmä kanavanvaihdon tehostamiseksi
CA2102080C (en) * 1992-12-14 1998-07-28 Willem Bastiaan Kleijn Time shifting for generalized analysis-by-synthesis coding
IT1270438B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
JP3321933B2 (ja) * 1993-10-19 2002-09-09 ソニー株式会社 ピッチ検出方法
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
FI98163C (fi) 1994-02-08 1997-04-25 Nokia Mobile Phones Ltd Koodausjärjestelmä parametriseen puheenkoodaukseen
JP3418005B2 (ja) * 1994-08-04 2003-06-16 富士通株式会社 音声ピッチ検出装置
US5781880A (en) * 1994-11-21 1998-07-14 Rockwell International Corporation Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
US5664053A (en) 1995-04-03 1997-09-02 Universite De Sherbrooke Predictive split-matrix quantization of spectral parameters for efficient coding of speech
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures

Also Published As

Publication number Publication date
KR100653926B1 (ko) 2006-12-05
FI980502A (fi) 1998-11-08
FI980502A0 (fi) 1998-03-05
KR100653932B1 (ko) 2006-12-04
KR20010006394A (ko) 2001-01-26
AU739238B2 (en) 2001-10-04
US6199035B1 (en) 2001-03-06
FI113903B (fi) 2004-06-30
JP2004038211A (ja) 2004-02-05
JP4866438B2 (ja) 2012-02-01
DE69814517D1 (de) 2003-06-18
EP0877355A2 (en) 1998-11-11
AU6403298A (en) 1998-11-27
CN1120471C (zh) 2003-09-03
CN1255226A (zh) 2000-05-31
JP2009223326A (ja) 2009-10-01
WO1998050910A1 (en) 1998-11-12
JPH1124699A (ja) 1999-01-29
EP0877355A3 (en) 1999-06-16
DE69814517T2 (de) 2004-04-08
KR20040037265A (ko) 2004-05-04
EP0877355B1 (en) 2003-05-14

Similar Documents

Publication Publication Date Title
ES2198615T3 (es) Codificacion de señales de voz.
ES2212642T3 (es) Dispositivo de codificacion perceptual y metodo para la codificacion eficaz de señales de banda ancha.
EP0544101B1 (en) Method and apparatus for the transmission of speech signals
US8019599B2 (en) Speech codecs
EP1159736B1 (en) Distributed voice recognition system
ES2265958T3 (es) Discretizacion de magnitud espectral para un codificador de voz.
EP1953736A1 (en) Stereo encoding device, and stereo signal predicting method
RU2713605C1 (ru) Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио
KR20020093943A (ko) 보이스화된 음성을 예측적으로 양자화하는 방법 및 장치
JPH0863200A (ja) 線形予測係数信号生成方法
ES2287150T3 (es) Metodo y sistema para estimacion artificial de una señal de banda alta en un codificador-decodificador de voz.
JPH07311597A (ja) 音声信号合成方法
WO2004015689A1 (en) Bandwidth-adaptive quantization
KR20020033737A (ko) 음성 코더에서 선스펙트럼 정보 양자화법을 인터리빙하는방법및 장치
JPH07325594A (ja) 復号器において使用されるパラメータ信号アダプタの動作方法
Cellario et al. CELP coding at variable rate
KR101164834B1 (ko) 제 1 비트 레이트와 연관된 제 1 패킷을 제 2 비트 레이트와 연관된 제 2 패킷으로 디밍하는 시스템 및 방법
RU2792658C1 (ru) Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио
RU2776261C1 (ru) Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио
WO2008001991A1 (en) Apparatus and method for extracting noise-robust speech recognition vector by sharing preprocessing step used in speech coding
KR960011132B1 (ko) 씨이엘피(celp) 보코더에서의 피치검색방법
JP5511839B2 (ja) トーン判定装置およびトーン判定方法
Boyd et al. A speech codec for the Skyphone service
JPH10105196A (ja) 音声符号化装置