ES2363181T3 - Síntesis de bloques perdidos de una señal audio-digital. - Google Patents

Síntesis de bloques perdidos de una señal audio-digital. Download PDF

Info

Publication number
ES2363181T3
ES2363181T3 ES07871872T ES07871872T ES2363181T3 ES 2363181 T3 ES2363181 T3 ES 2363181T3 ES 07871872 T ES07871872 T ES 07871872T ES 07871872 T ES07871872 T ES 07871872T ES 2363181 T3 ES2363181 T3 ES 2363181T3
Authority
ES
Spain
Prior art keywords
signal
samples
repetition period
amplitude
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES07871872T
Other languages
English (en)
Inventor
Balazs Kovesi
Stéphane RAGOT
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Application granted granted Critical
Publication of ES2363181T3 publication Critical patent/ES2363181T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)
  • Stereophonic System (AREA)

Abstract

Método de síntesis de una señal audio-digital representado por bloques sucesivos de muestras, en donde, a la recepción de dicha señal, para sustituir al menos un bloque no válido, se genera un bloque de sustitución a partir de muestras de al menos un bloque válido, comprendiendo el método las etapas siguientes: a) determinar (402) un periodo de repetición en al menos un bloque válido y b) volver a copiar (403) las muestras del periodo de repetición en al menos un bloque de sustitución, correspondiendo dicho periodo de repetición a un periodo de tono de frecuencia fundamental si la señal es vocalizada o a un valor determinado arbitrariamente o a partir de una función de correlación si la señal no está vocalizada, caracterizado porque: - en la etapa a), se determina un último periodo de repetición (Tj) en al menos un bloque válido que precede inmediatamente a un bloque no válido, - en la etapa b), se corrige muestras (e(3)) del dicho último periodo de repetición (Tj) en función de muestras e(2- T0), e(3-T0), e(4-T0)) de un periodo de repetición (Tj-1) que precede a dicho último periodo de repetición, para limitar la amplitud de una posible señal transitoria en dicho último periodo de repetición y se recopian las muestras así corregidas en dicho bloque de sustitución (Tj+1, Tj+2) efectuándose dicha corrección con respecto a una proximidad centrada en torno a una muestra temporalmente situada en un periodo de repetición antes de la muestra corriente.

Description

La presente invención se refiere al procesamiento de señales audio-digitales (señales de voz, en particular).
Interviene en un sistema de codificación/decodificación adaptado para la transmisión/recepción de dichas señales. Más en particular, la presente invención se refiere a un procesamiento en la recepción que permite mejorar la calidad de las señales decodificadas en presencia de pérdidas de bloques de datos.
Diferentes técnicas existen para convertir bajo forma digital y comprimir una señal audio-digital. Las técnicas más frecuentes son:
-los métodos de codificación de forma de onda, tales como la codificación MIC (Modulación por Impulsos Codificados) y MICDA (Modulación por Impulso y Codificación Diferencial Adaptativa), en adelante denominados simplemente “PCM” y “ADPCM”;
-los métodos de codificación paramétrica mediante análisis por síntesis tal como la codificación CELP (Predicción Lineal Inducida por Código) y
-los métodos de codificación perceptual en sub-bandas o mediante una transformada.
Estas técnicas procesan la señal de entrada de forma secuencial, muestra por muestra (MIC o MICDA) o mediante bloques de muestras denominados “tramas” (CELP y codificación por transformada).
Se recuerda, rápidamente, que una señal de voz puede ser predecida a partir de su ‘transmisión reciente’ (por ejemplo, de 8 a 12 muestras a 8 kHz) por medio de parámetros evaluados en ventanas cortas (10 a 20 ms, en este ejemplo). Estos parámetros de predicción a corto plazo, representativos de la función de transferencia del conducto vocal (por ejemplo para pronunciar consonantes), se obtienen por métodos de análisis LPC (Codificación de Predicción Lineal). Existe también una correlación, a más largo plazo, asociada a las cuasi-periodicidades de la palabra (por ejemplo, de sonidos vocalizados, tales como las vocales) que son debidos a la vibración de las cuerdas vocales. Se trata, por lo tanto, de determinar al menos la frecuencia fundamental de la señal vocalizada que suele variar desde 60 Hz (voz grave) a 600 Hz (voz aguda) según quien habla. Se determina, entonces, mediante un análisis de LTP (Predicción a Largo Plazo), los parámetros LTP de un predictor a largo plazo y en particular, la inversa de la frecuencia fundamental, que suele denominarse “periodo de tono fundamental”. Se define, entonces, el número de muestras en un periodo de tono fundamental por la relación Fe/F0 (o su parte entera), en donde:
-Fe es la cadencias de muestreo y
-F0 es la frecuencia fundamental.
Se considerará, por lo tanto, que los parámetros de predicción a largo plazo LTP, que corresponde al periodo de tono fundamental, representan la vibración fundamental de la señal de voz (cuando es vocalizada), mientras que los parámetros de predicción a corto plazo LPC representan la envolvente espectral de esta señal.
En algunos codificadores, el conjunto de estos parámetros LPC y LTP, que resultan, por lo tanto, de una codificación de voz, se pueden transmitir por bloques hacia un decodificador homólogo, a través de una o varias redes de telecomunicación, para restituir, a continuación, la señal de voz inicial.
Sin embargo, se interesa en la descripción siguiente (a título de ejemplo) por el sistema de codificación G.722 de 48, 56 y 64 kbits/s normalizado por la UIT-T para la transmisión de señales de voz en banda ancha (que se muestrean a 16 kHz). El codificador G.722 presenta un esquema de codificación MICDA en dos sub-bandas obtenidas por un banco de filtros QMF (Filtro Espejo en Cuadratura). Para más detalles, conviene referirse al texto de la recomendación G.722.
La Figura 1 de la técnica anterior ilustra la estructura de codificación y de decodificación según la recomendación G.722. Los bloques 101 a 103 representan el banco de filtros QMF de transmisión (separación espectral en altas 102 y bajas 100 frecuencias y un sub-muestreo 101 y 103), aplicado a la señal de entrada Se. Los bloques siguientes 104 y 105 corresponden, respectivamente, a los codificadores MICDA en banda baja y alta. El caudal de transmisión del codificador MICDA, en banda baja, está especificado por un modo con un valor de 0, 1 o 2, que indica, respectivamente, un caudal de transmisión de 6, 5 o 4 bits por muestra, mientras que el caudal del codificador MICDA en banda alta es fijo (dos bits por muestra). Se encuentra, en el decodificador, los bloques equivalentes de decodificación MICDA (bloques 106 y 107), cuyas salidas están combinadas en el banco de filtros QMF de recepción (sobre-muestreo 108 y 110, filtros inversos 109, 111 y reunión de las bandas de frecuencias bajas y altas 112) para generar la señal de síntesis Ss.
Un problema general, aquí estudiado, se refiere a la corrección de pérdidas de bloques en la decodificación. En efecto, el tren binario procedente de la codificación está, en general, en formato de bloques binarios para la transmisión en numerosos tipos de redes. Se habla, por ejemplo, de “paquetes IP” (Protocolo de Internet) para bloques transmitidos a través de la red Internet, de “tramas” para bloques transmitidos a través de redes ATM (Modo de Transferencia Asíncrona) u otras. Los bloques transmitidos, después de la codificación, pueden perderse por diversos motivos:
-si un encaminador de la red está saturado y vacío sin cola de espera;
-si el bloque se recibe con retardo (por lo tanto, no tomado en cuenta) en el momento de una decodificación de flujo continuo y en tiempo real;
-si un bloque recibido está operativamente viciado (por ejemplo, si su código de paridad CRC no está verificado).
En el momento de una pérdida de uno o varios bloques consecutivos, el decodificador debe reconstruir la señal sin información sobre los bloques perdidos o erróneos. Se basa en la información decodificada anteriormente a partir de los bloques válidos recibidos. Este problema, denominado “corrección de bloques perdidos” (o también, a continuación, “corrección de tramas suprimidas”) es, en realidad, más general que la simple extrapolación de información ausente porque la pérdida de tramas ocasiona, a menudo, una pérdida de sincronización entre el codificador y decodificador, en particular cuando estos últimos son predictivos así como problemas de continuidad entre la información extrapolada y la información decodificada después de una pérdida. La corrección de tramas suprimidas engloba, por lo tanto, también técnicas de reestablecimiento de estados, de reconvergencia y otros.
El anexo 1 de la recomendación UIT-T G.711 describe una corrección de tramas suprimidas adaptada a la codificación MIC. Al no ser predictiva la codificación MIC, la corrección de pérdidas de tramas se resume, por lo tanto, simplemente en extrapolar la información ausente y garantizar la continuidad entre una trama reconstruida y tramas correctamente recibidas, como resultado de una pérdida. La extrapolación se pone en práctica por repetición de la señal transmitida de forma síncrona con la frecuencia fundamental (o a la inversa, “periodo de tono fundamental”), es decir, repitiendo simplemente periodos de tono fundamental. La continuidad está garantizada por un desvanecimiento cruzado (o “fundido encadenado” correspondiente al término inglés “cross-fading”) entre muestras recibidas y muestras extrapoladas.
En el documento:
“A Packet Loss Concealment Method using Pitch Waveform Repetition and Internal State Update on the Decoded Speech for the Sub-band ADPCM Wideband Speech Codec”, M. Serizawa y Y. Nozawa, IEEE Speech Coding Workshop, páginas 68-70 (2002), se ha dado a conocer una corrección de tramas suprimidas para el codificador/decodificador normalizado G.722 extrapolando una trama perdida con la ayuda de un algoritmo de repetición de los periodos de tono fundamental (repetición que puede ser similar a la descrita en el anexo 1 de la recomendación G.711). Para actualizar los estados del codificador G.722 (memoria de los filtros y memoria de adaptación de paso), la trama así extrapolada se divide en dos sub-bandas que son codificadas de nuevo por la codificación MICDA.
Sin embargo, tales técnicas de corrección de pérdidas de trama por repetición de periodos de tono fundamental solamente pueden funcionar correctamente si la señal transmitida es estacionaria o al menos ciclo-estacionaria. Se basan, por lo tanto, en el supuesto implícito de que la señal asociada a la trama perdida (que es preciso extrapolar) es “similar” a la señal decodificada hasta la pérdida de trama. En el caso de la señal de voz, este supuesto de estacionalidad solamente es rigurosamente válido para sonidos tales como una parte de vocales a repetir. Por ejemplo, una vocal “a”, se puede repetir varias veces (lo que da “aaaa…” sin ocasionar ruidos molestos en la escucha). Ahora bien, una señal de voz comprende sonidos denominados “transitorios” (sonidos no estacionarios que incluyen típicamente los ataques (inicios) de vocales y los sonidos denominados “plosivos” que corresponden a las consonantes breves tales como “p”, “b”, “d”, “t”, “k”). Así, si por ejemplo una trama se pierde inmediatamente después del sonido “t”, una corrección de pérdida de trama, por simple repetición, generará una secuencia muy desagradable a la escucha de “t” (que sonará como “te-te-te-te-te”) en ráfaga para una pérdida de varias tramas sucesivas (por ejemplo, cinco pérdidas consecutivas).
Las Figuras 2a y 2b ilustran este efecto acústico en el caso de una señal en banda ancha codificada por un codificador según la recomendación G.722. Más en particular, la Figura 2a representa una señal de voz decodificada en un canal ideal (sin pérdida de trama). Esta señal corresponde, en el ejemplo representado, a la palabra francesa “temps” dividida en dos fonemas: /t/ y luego /an/. Las líneas verticales en trazos indican las fronteras entre tramas. Se considera aquí el caso de tramas de longitud del orden de 10 ms (milisegundos). La Figura 2b representa la señal decodificada según una técnica similar a la referencia Serizawa et al anterior cuando una pérdida de trama sigue inmediatamente el fonema /t/. Esta Figura 2b ilustra claramente el problema de la repetición de la señal transmitida. Se constata que el fonema /t/ se repite en la trama extrapolada. Está también presente en la o las tramas siguientes porque la extrapolación es ligeramente prolongada después de una pérdida, en el ejemplo representado, con el fin de realizar un ‘fundido encadenado’ con la decodificación en condiciones normales (es decir, en presencia de informaciones útiles en la señal recibida).
El problema de repetición de las consonantes plosivas nunca fue planteado en la técnica anterior conocida.
La presente invención, tal como se define por las reivindicaciones adjuntas, tiene como objetivo mejorar la situación.
A este respecto, da a conocer un método de síntesis de una señal audio-digital representada por bloques sucesivos de muestras, en donde a la recepción de una tal señal, para sustituir al menos un bloque no válido, se genera un bloque de sustitución a partir de muestras de al menos un bloque válido.
De una forma general, el método comprende las etapas siguientes:
a) definir un periodo de repetición de la señal en al menos un bloque válido y
b) recopiar las muestras del periodo de repetición en al menos un bloque de sustitución.
En el método según la invención:
-en la etapa a), se determina un último periodo de repetición en al menos un bloque válido que precede inmediatamente a un bloque no válido y
-en la etapa b), se corrige muestras del último periodo de repetición en función de muestras de un periodo de repetición precedente y con el fin de limitar la amplitud de una posible señal transitoria que estuviera presente en el último periodo de repetición.
Se recopia, a continuación, las muestras así corregidas en el bloque de sustitución.
El método según la invención se aplica ventajosamente al procesamiento de una señal de voz, tanto en el caso de una señal vocalizada como en el caso de una señal no vocalizada. De este modo, si la señal es vocalizada, el periodo de repetición consiste simplemente en el periodo de tono fundamental y la etapa a) del método considera, en particular, la determinación de un periodo de tono fundamental (dado normalmente por la inversa de una frecuencia fundamental) de un tono de la señal (por ejemplo, el tono de una voz en una señal de voz) en al menos un bloque válido que precede a la pérdida.
Si la señal válida recibida no está vocalizada, no existe realmente periodo de tono fundamental detectable. En este caso, puede estar previsto fijar un número dado de muestras arbitrario que será considerado como la longitud del periodo de tono fundamental (que puede entonces denominarse, de forma genérica “periodo de repetición”) y realizar el método, según la invención, sobre la base de este periodo de repetición. Por ejemplo, se puede elegir un periodo de tono fundamental lo más largo posible, normalmente 20 ms (correspondiente a 50 Hz de una voz muy grave) o sea, 160 muestras a 8 kHz de frecuencia de muestreo. Además, es posible tomar el valor correspondiente al máximo de una función de correlación limitando la búsqueda dentro de un intervalo de valor (por ejemplo entre MAX_PITCH/2 y MAX_PITCH, en donde MAX_PITCH es el valor máximo en la búsqueda de periodos de tono fundamental).
Preferentemente, si una pluralidad de bloques no válidos consecutivos deben sustituirse a la recepción y cuando estos bloques se extienden en al menos un periodo de repetición, la etapa de corrección de muestras b) se aplica a todas las muestras del último periodo de repetición, tomado uno a uno en tanto como muestra corriente.
Además, si estos bloques no válidos llegan a extenderse en varios periodos de repetición, se recopia varias veces el periodo de repetición así corregido en la etapa b) para formar los bloques de sustitución.
En una realización particular, para la corrección de muestras antes citadas, que se efectúa en la etapa b), se puede proceder como sigue. Para una muestra corriente del último periodo de repetición, se compara:
-la amplitud de esta muestra corriente, en valor absoluto,
-con la amplitud, en valor absoluto, de al menos una muestra temporalmente situada prácticamente en un periodo de repetición antes de la muestra corriente,
y se asigna, a la muestra corriente, la amplitud mínima, en valor absoluto, entre estas dos amplitudes, asignándole también, por supuesto, el signo de su amplitud inicial.
Se entiende aquí por los términos “posicionado prácticamente” el hecho de que se busca, dentro del periodo de repetición precedente, una proximidad a asociar a la muestra corriente. Así, preferentemente, para una muestra corriente del último periodo de repetición:
-se constituye un conjunto de muestras en una proximidad centrada en torno a una muestra temporalmente situada en un periodo de repetición antes de la muestra corriente,
-se determina una amplitud elegida entre las amplitudes de las muestras de dicha proximidad, tomadas en valor absoluto,
-y se compara esta amplitud elegida con la amplitud de la muestra corriente, en valor absoluto, para asignar a la muestra corriente la amplitud mínima, en valor absoluto, entre la amplitud elegida y la amplitud de la muestra corriente.
Esta amplitud elegida entre las amplitudes de las muestras de dicha proximidad es, preferentemente, la amplitud máxima en valor absoluto.
Por otro lado, se suele aplicar un amortiguamiento (atenuación progresiva) de la amplitud de las muestras en los bloques de sustitución. En este caso, de forma ventajosa, se detecta un carácter transitorio de la señal antes de la pérdida de bloques y, si así es el caso, se aplica un amortiguamiento más rápido que para una señal estacionaria (no transitoria).
Se puede, como complemento o como variante, efectuar también una actualización (RAZ) de las memorias de los filtros siguientes en el procesamiento de síntesis, específicamente adaptada a los sonidos transitorios, para evitar encontrar la influencia de tales sonidos transitorios en el procesamiento de los bloques válidos siguiente.
Preferentemente, la detección de una señal transitoria que precede a la pérdida de bloque se efectúa como sigue:
-para una pluralidad de muestras corrientes del último periodo de repetición, medir una relación, en valor absoluto, de la amplitud de una muestra corriente respecto a la amplitud elegida antes citada (determinada en la proximidad como se indicó anteriormente) y
-contar, a continuación, el número de ocurrencias, para las muestras corrientes, para las cuales la relación antes citada es superior a un primer umbral predeterminado (un valor próximo a 4, por ejemplo, como se verá más adelante) y
-detectar la presencia de una señal transitoria si el número de ocurrencias es superior a un segundo umbral predeterminado (por ejemplo, si hay más de una ocurrencia, como se verá más adelante).
Estas etapas anteriores pueden ser de utilidad para iniciar también la etapa de corrección b) según la invención, en caso de detección de un sonido transitorio en el periodo de repetición que precede inmediatamente a la pérdida de un bloque.
Sin embargo, para decidir aplicar, o no, la etapa de corrección b) según el método de la invención, se procede preferentemente como sigue. Si la señal audio-digital es una señal de voz, se detecta ventajosamente un grado de proximidad en la señal de voz y no se pone en práctica la corrección de la etapa b) si la señal de voz es fuertemente vocalizada (lo que se pone de manifiesto por un coeficiente de corrección próximo a “1” en la búsqueda de un periodo de tono fundamental). En otros términos, solamente se pone en práctica esta corrección si la señal no es vocalizada o si está débilmente vocalizada.
Se evita, así, aplicar la corrección de la etapa b) y atenuar inútilmente la señal en los bloques de sustitución, si la señal válida recibida es fuertemente vocalizada (por lo tanto, estacionaria) lo que corresponde, en realidad, a la pronunciación de una vocal estable (por ejemplo “aaaa”).
Así, en resumen, la presente invención considera la modificación de la señal antes de la repetición del periodo de repetición (o “tono fundamental” para una señal de voz vocalizada), para la síntesis de bloques perdidos en la decodificación de señales audio-digitales. Los efectos de repetición de transitorios se evitan comparando las muestras de un periodo de tono fundamental con los del periodo de tono fundamental precedente. La señal se modifica, preferentemente, tomando el mínimo entre la muestra corriente y al menos una muestra prácticamente de la misma posición del periodo de tono fundamental precedente.
La invención ofrece varias ventajas, en particular, dentro del contexto de la decodificación en presencia de pérdidas de bloques. Permite, en particular, evitar los ‘artefactos’ (parásitos operativos) que proceden de la repetición errónea de transitorios (cuando se utiliza una simple repetición de periodo de tono fundamental). Además, realiza una detección de transitorios que puede servir para adaptar el control de energía de la señal extrapolada (mediante una atenuación variable).
Otras ventajas y características de la invención serán más evidentes examinando la descripción detallada, dada a título de ejemplo a continuación, y los dibujos adjuntos en donde, además de las Figuras 1, 2a y 2b anteriormente presentadas:
-la Figura 2c ilustra, a título de comparación, el efecto del procesamiento según la invención sobre la misma señal que la representada en las Figuras 2a y 2b, para la cual se ha perdido una trama TP,
-la Figura 3 representa el decodificador según la recomendación G.722, pero modificado integrando un dispositivo de corrección de tramas suprimidas según la invención,
-la Figura 4 ilustra el principio de extrapolación de la banda baja, -la Figura 5 ilustra el principio de la repetición del tono fundamental (en el dominio de la excitación),
-la Figura 6 ilustra la modificación de la señal de excitación, según la invención, seguida por la repetición del tono (pitch),
-la Figura 7 ilustra las etapas del método de la invención, según una realización particular,
-la Figura 8 ilustra, de forma esquemática, un dispositivo de síntesis para la puesta en práctica del método según la invención,
-la Figura 8a ilustra la estructura general de un banco de filtros en cuadratura (QMF) con dos canales,
-la Figura 8b representa los espectros de las señales x(n), xl(n), xh(n) de la Figura 8a cuando los filtros L(z) y H(z) son ideales (o sea, f’e=2fe).
Una forma de realización de la invención que se basa, a título de ejemplo, en el sistema de codificación según la recomendación G.722 que se describe a continuación. No se recupera aquí la descripción del codificador G.722 (anteriormente descrito a la Figura 1). Se limita aquí a la descripción de un decodificador G.722 modificado, que integra un corrector de periodos de tono fundamental a reproducir en caso de pérdida de tramas.
Con referencia a la Figura 3, el decodificador, según la invención (aquí según la recomendación G.722) presenta, de nuevo, una arquitectura en dos sub-bandas con los bancos de filtros QMF de recepción (bloques 310 a 314). Con respecto al decodificador de la Figura 1, el decodificador de la Figura 3 integra, además, un dispositivo 320 de corrección de las tramas suprimidas.
El decodificador G.722 genera una señal de salida Ss muestreada a 16 kHz y fragmentada en tramas temporales (o bloques de muestras) de 10, 20 o 40 ms. Su funcionamiento difiere según la presencia, o no, de pérdida de tramas.
En la ausencia total de pérdida de tramas (por lo tanto, si todas las tramas son recibidas y válidas), el tren binario de la banda de bajas frecuencias BF se decodifica por el bloque 300 del dispositivo 320 según la invención, no se realiza ningún fundido encadenado (bloque 303) y la señal reconstruida se da simplemente por zl = xl. Del mismo modo, el tren binario de la banda de frecuencias altas HF se decodifica por el bloque 304. El conmutador 307 selecciona la vía uh = xh y el conmutador 309 selecciona la vía zh = uh = xh.
No obstante, en caso de pérdida de una o varias tramas, en la banda baja BF, la trama suprimida es extrapolada en el bloque 301 a partir de la señal xl transmitida (recopia de paso fundamental, en particular) y los estados del decodificador MICDA son actualizados en el bloque 302. La trama suprimida se reconstruye como zl = yl. Este proceso se repite en tanto que se detecte una pérdida de tramas. Es importante señalar que el bloque de extrapolación 301 no se soporta solamente para generar una señal extrapolada en la trama corriente (perdida): genera, además, 10 ms de señal para la trama siguiente, con el fin de realizar un fundido encadenado en el bloque 303.
A continuación, cuando se recibe una trama válida, se decodifica por el bloque 300 y se realiza un fundido encadenado 303 durante los 10 primeros milisegundos entre la trama válida xl y la trama anteriormente extrapolada yl.
En la banda alta de HF, la trama suprimida se extrapola en el bloque 305 a partir de la señal xh transmitida y los estados del decodificador MICDA se actualizan en el bloque 306. En el modo de realización privilegiado, la extrapolación yh es una simple repetición del último periodo de la señal xh transmitida. El conmutador 307 selecciona la vía uh = yh. Esta señal uh es ventajosamente filtrada para proporcionar la señal vh. En efecto, la codificación G.722 es un esquema de codificación predictivo recursivo (del tipo denominado “backward”). Utiliza, en cada sub-banda, una operación de predicción de tipo ARMA (Auto-Regressive Moving Average - Filtro Autoregresivo de Media Móvil) y un procedimiento de adaptación de paso de cuantificación y de adaptación del filtro ARMA, idénticos para el codificador y el decodificador. La predicción y la adaptación del paso se basan en las informaciones decodificadas (error de predicción, señal reconstruida).
Los errores de transmisión, más en particular, las pérdidas de tramas, conducen a una desincronización entre las variables del decodificador y del codificador. Los procedimientos de adaptación de paso y de predicción son, entonces, erróneos y sesgados en un gran periodo de tiempo (hasta 300 – 500 ms). En la banda alta, este sesgo puede resultar, entre otros artefactos operativos, en la aparición de una componente continua de amplitud muy débil (del orden de magnitud de + 10 para una señal de dinámica máxima + 32767). Sin embargo, después del paso por el banco de filtros QMF de síntesis, esta componente continua se encuentra bajo la forma de una sinusoide de 8 kHz audible y muy molesta para la audición.
La transformación de la componente continua (o “componente DC”), en una sinusoide de 8 kHz, se explica más adelante. La Figura 8a representa un banco de filtros en cuadratura (QMF) con dos canales. La señal x(n) se descompone en dos sub-bandas por el banco de análisis. Se obtiene así una banda baja xl(n) y una banda alta xh(n). Estas señales se definen por su transformada en z:
imagen1
5 Al estar en cuadratura los filtros de paso bajo L(z) y de paso alto H(z), se tiene: H(z) = L(-z).
Si L(z) verifica las limitaciones de reconstrucción perfecta, la señal obtenida, después del banco de filtro de síntesis, es idéntica a la señal x(n) con un desplazamiento de fase.
10 Así, si la frecuencia de muestreo de la señal x(n) es fe’, las señales xl(n) y xh(n) son muestreadas a la frecuencia fe = fe’/2. En condiciones normales, se suele tener fe’ = 16 kHz, o sea, fe = 8 kHz. Se indica, además, que los filtros L(z) y H(z) pueden ser, por ejemplo, los filtros QMF de 24 coeficientes especificados en la recomendación UIT-T G.722.
15 La Figura 8b ilustra el espectro de las señales x(n), xl(n) y xh(n) en el caso de que los filtros L(z) y H(z) sean filtros de banda media ideales. La respuesta en frecuencia de L(z) en el intervalo [-f’e/2, +fe’/2] es entonces dada, en el caso ideal, por:
imagen1
20 Se hace constar que el espectro de xh(n) corresponde a la banda alta replegada. Esta propiedad de repliegue (o “folding” en la jerga inglesa), bien conocida en la técnica anterior, se explica visualmente, así como por medio de la ecuación anterior que define XH(z). El repliegue de la banda alta es “invertido” por el banco de filtros de síntesis, que reestablece el espectro de la banda alta en el orden natural de las frecuencias.
25 Sin embargo, en la práctica, los filtros L(z) y H(z) no son ideales. Su carácter no ideal tiene, por consecuencia, la aparición de una componente de repliegue espectral que es anulada por el banco de síntesis. La banda alta permanece, no obstante invertida.
30 El bloque 308 realiza, entonces, un filtrado de paso alto (HPF acrónimo inglés de “high pass filter”) que suprime la componente continua (“DC remove” en la jerga inglesa). La utilización de un tal filtro es particularmente ventajosa, incluyendo fuera del marco de la corrección del periodo de tono fundamental en la banda baja según la invención.
Por otro lado, la utilización de un tal filtro HPF (bloque 308), que elimina la componente continua en la banda alta, podría
35 ser objeto de una protección separada, dentro de un contexto general de pérdida de tramas en la decodificación. En términos genéricos, se comprenderá, por lo tanto, que en el contexto de la decodificación de una señal recibida con separación de esta señal en banda de frecuencias alta y en banda de frecuencias bajas, por lo tanto, en al menos dos canales como en la decodificación según la norma G.722, cuando se produce una pérdida de señal seguida por una síntesis de una señal de sustitución, de forma general, en la vía de las altas frecuencias del decodificador, ello puede
40 traer consigo la presencia de una componente continua en la señal de sustitución. El efecto de esta componente continua puede prolongarse también en la señal decodificada, durante un determinado tiempo, cuando la señal codificada recibida es, de nuevo, válida, sin embargo, a causa de la desincronización entre el codificador y el decodificador y de la capacidad de memoria de los filtros.
45 Se prevé, ventajosamente, un filtro de paso alto 308 en la vía de las altas frecuencias. Este filtro de paso alto 308 está ventajosamente previsto en sentido ascendente, por ejemplo, del banco de filtros QMF de esta vía de las altas frecuencias del decodificador G.722. Esta disposición permite evitar el repliegue de la componente continua a 8 kHz (valor deducido de la tasa de muestreo f’e) cuando se aplica al banco de filtros QMF. Más en general, cuando el decodificador hace intervenir un banco de filtros al final del procesamiento en la vía de las altas frecuencias, se prevé
50 preferentemente el filtro de paso alto (308) flujo arriba de este banco de filtros.
Así, con referencia de nuevo a la Figura 3, el conmutador 309 selecciona la vía zh = vh, en tanto que exista una pérdida de tramas.
55 A continuación, desde el momento en que se recibe una trama válida, esta última se decodifica por el bloque 304 y el conmutador 307 selecciona la vía uh = xh. Durante algunos instantes siguientes (por ejemplo, después de 4 segundos), el conmutador 309 selecciona también la vía zh = vh, pero transcurridos algunos segundos, se vuelve al funcionamiento “normal” en donde el conmutador 309 selecciona, de nuevo, la vía zh = uh contorneando el bloque 308 y por lo tanto, sin aplicación del filtro de paso alto 308.
En términos genéricos, se comprenderá, por lo tanto, que, preferentemente, se aplica de forma temporal (en algunos segundos, por ejemplo) este filtro de paso alto 308 durante y después de una pérdida de bloques, aún cuando se reciban, de nuevo, bloques válidos. El filtro 308 podría utilizarse de forma permanente. No obstante, solamente es activado en caso de pérdidas de tramas, porque la perturbación debido a la componente continua solamente se genera en este caso, de modo que la salida del decodificador G.722 modificado (puesto que integra el mecanismo de corrección de pérdidas) es idéntica a la del decodificador UIT-T G.722 en la ausencia de pérdida de tramas. Este filtro 308 se aplica únicamente durante la corrección de pérdida de tramas y durante algunos segundos consecutivos a una pérdida. En efecto, en caso de pérdida, el decodificador G.722 es desincronizado del codificador durante un periodo de 100 a 500 ms tras una pérdida y la componente continua en la banda alta solamente suele estar presente en una duración de 1 a 2 segundos. El filtro 308 se mantiene un poco más de tiempo para tener un margen de seguridad (por ejemplo, cuatro segundos).
No se describe, con más detalle, el decodificador objeto de la Figura 3, en el entendido de que la invención se pone en práctica, en particular, en el bloque 301 de extrapolación de la banda baja. Este bloque 301 se ilustra en la Figura 4.
Haciendo referencia a la Figura 4, la extrapolación de la banda baja se basa en un análisis de la señal transmitida xl (parte de la Figura 4 con referencia ANALYS) seguida por una síntesis de la señal yl a entregar (parte de la Figura 4 con referencia SYNTH). El bloque 400 realiza un análisis por predicción lineal (LPC) sobre la señal transmitida xl. Este análisis es similar al realizado, en particular, en el codificador normalizado G.729. Puede consistir en la definición de ventanas para la señal, calcular la autocorrelación y encontrar los coeficientes de predicción lineal mediante el algoritmo de Levinson-Durbin. En una forma de realización preferida, solamente los 10 últimos segundos de la señal se utilizan y el orden de LPC está fijado en 8. Se obtienen, por lo tanto, nueve coeficientes LPC (indicados en adelante a0, a1 ….ap) bajo la forma:
A(z) = a0 + a1 z-1 + …+ ap z-p con p = 8 y a0 = 1.
Después del análisis LPC, la señal de excitación transmitida se calcula por el bloque 401. La señal de excitación transmitida se indica por e(n) con n = -M, …,-1, en donde M corresponde al número de muestras transmitidas y almacenadas.
El bloque 402 realiza una estimación de la frecuencia fundamental o de su inversa: el periodo de tono fundamental T0. Esta estimación se realiza, por ejemplo, de una forma similar al análisis del tono fundamental (denominado “en bucle abierto”, en particular, como en el codificador normalizado G.729).
El tono fundamental T0, así estimado, se utiliza por el bloque 403 para extrapolar la excitación de la trama corriente.
Por otro lado, la señal transmitida xl se clasifica en el bloque 404. Se puede buscar aquí detectar la presencia de transitorios, por ejemplo, la presencia de una consonante plosiva para aplicar la corrección del periodo de tono fundamental según la invención, pero, en una variante de realización preferida, se busca más bien detectar si la señal Se está fuertemente vocalizada (por ejemplo, cuando la correlación con respecto al periodo de tono fundamental es muy próxima a 1). Si la señal es fuertemente vocalizada (lo que corresponde a la pronunciación de una vocal estable, por ejemplo “aaaa…”) entonces la señal Se está exenta de transitorios y la corrección del periodo de tono fundamental, según la invención, no se puede poner en práctica. Si no es así, preferentemente, se aplicará la corrección del periodo de tono fundamental según la invención en todos los demás casos.
Los detalles de la detección de un grado de vocalización no se presentan aquí puesto que son conocidos por sí mismos y quedan fuera del marco de la presente invención.
Con referencia de nuevo a la Figura 4, la síntesis SYNTH sigue el modelo bien conocido en la técnica anterior y denominado “fuente–filtro”. Consiste en filtrar la excitación extrapolada por un filtro LPC. Aquí, la excitación extrapolada e(n) (en donde ahora n=0,…., L-1, siendo L la longitud de la trama a extrapolar) se filtra por el filtro inverso 1/A(z) (bloque 405). A continuación, la señal obtenida se atenúa por el bloque 407 en función de una atenuación calculada en el bloque 406, para ser finalmente entregada en yl.
La invención, en tanto como tal, se realiza por el bloque 403 de la Figura 4, cuyas funciones se describirán con detalle más adelante.
En la Figura 5 se ha representado, a título ilustrativo, el principio de la simple repetición de excitación tal como se realiza en la técnica anterior. La excitación se puede extrapolar repitiendo simplemente el último periodo de tono fundamental T0, es decir, copiando la sucesión de las últimas muestras de la excitación transmitida, correspondiendo el número de muestras en esta sucesión al número de muestras que comprende el periodo de tono fundamental T0.
Haciendo referencia ahora a la Figura 6, antes de repetir el último periodo de tono fundamental T0, se modifica este último, según la invención, como sigue.
Para cada muestra n= -T0, …, -1, la muestra e(n) es modificada en emod(n) según una fórmula del tipo:
imagen1
Según fue anteriormente indicado, preferentemente, esta modificación de la señal no es aplicada si la señal xl (y por lo tanto, la señal de entrada Se) es fuertemente vocalizada. En efecto, en el caso de una señal fuertemente vocalizada, la repetición simple del último periodo de tono fundamental, sin modificación, puede dar un mejor resultado, mientras que una modificación del último periodo de tono fundamental y su repetición podrían traer consigo una ligera degradación de la calidad.
En la Figura 7 se ha representado el procesamiento correspondiente a la aplicación de esta fórmula, bajo la forma de un organigrama, para ilustrar las etapas del método según una forma de realización de la invención. Se parte aquí de la señal transmitida e(n) que entrega el bloque 401. En la etapa 70, se obtiene la información según la cual la señal xl es fuertemente vocalizada, o no, a partir del módulo 404 que determina el grado de vocalización. Si la señal está fuertemente vocalizada (flecha O a la salida del test 71), se recopia el último periodo de tono fundamental de los bloques válidos, tal cual, en el bloque 403 de la Figura 4 y el procesamiento se prosigue directamente, a continuación, mediante la aplicación del filtrado inverso 1/A(z) por el módulo 405.
Por el contrario, si la señal xl no está fuertemente vocalizada (flecha N a la salida del test 71), se buscará modificar las últimas muestras de la señal de excitación e(n) correspondientes a los últimos bloques válidos recibidos, extendiéndose estas muestras en todo un periodo de tono fundamental T0 (etapa 73), dado por el módulo 402 de la Figura 4 (en la etapa 72). En la realización ilustrada en la Figura 7, se busca modificar todas las muestras e(n) en todo un periodo de tono fundamental T0, con n comprendida entre n1 –T0 +1 y n1, correspondiendo e(n1), por lo tanto, a la última muestra válida
recibida (etapa 74). Se comprenderá así, con estas notaciones, que una muestra e(n) con n comprendida entre n1 -T0 +1 y n1 pertenece simplemente al último periodo de tono fundamental válidamente recibido.
En la etapa 75, se hace corresponder a cada muestra e(n) del último periodo de tono fundamental una proximidad NEIGH en el periodo de tono fundamental precedente, por lo tanto, en el penúltimo periodo de tono fundamental. Esta medida es ventajosa pero no es necesaria. La ventaja que proporciona se describirá más adelante. Se indica simplemente aquí que esta proximidad comprende un número de muestras impar 2k+1, en el ejemplo descrito. Por supuesto, como variante, este número puede ser par. Por otro lado, en el ejemplo de la Figura 6, se tiene k=1. En efecto, haciendo referencia también a la Figura 6, se constata que la tercera muestra del último periodo de tono fundamental indicado e(3) se selecciona (etapa 74) y las muestras de la proximidad NEIGH, que le están asociadas, en el penúltimo periodo de tono fundamental (etapa 75) se representan en negrillas y son e(2-T0), e(3-T0) y e(4-T0). Por lo tanto, están
distribuidas en torno a e(3-T0).
En la etapa 76, se determina el máximo, en valor absoluto, entre las muestras de la proximidad NEIGH (o sea la muestra e(2-T0) en el ejemplo de la Figura 6). Esta característica es ventajosa pero no es necesaria. La ventaja que proporciona será descrita más adelante. En condiciones normales, como variante, se podría elegir determinar la media en la proximidad NEIGH, por ejemplo.
En la etapa 77, se determina el mínimo, en valor absoluto, entre el valor de la muestra corriente e(n) y el valor del máximo M encontrado en la proximidad NEIGH en la etapa 76. En el ejemplo ilustrado en la Figura 6, este mínimo entre e(3) y e(2-T0) es la muestra del penúltimo periodo de tono fundamental e(2-T0). Siempre en esta etapa 77, se sustituye, entonces, la amplitud de la muestra corriente e(n) por este mínimo. En la Figura 6, la amplitud de la muestra e(3) se hace igual a la amplitud de la muestra e(2-T0). El mismo método se aplica a todas las muestras del último periodo, desde e(1) a e(12). En la Figura 6, se ha representado las muestras corregidas mediante líneas de trazos. Las muestras de los periodos de tono fundamental extrapoladas Tj+1, Tj+2, corregidas según la invención, se representan por flechas cerradas.
Por lo tanto, se comprenderá que, mediante la puesta en práctica ventajosa de esta etapa 77, si una consonante plosiva está presente en el último periodo del tono fundamental Tj (con alta intensidad de la señal, en valor absoluto, según se representa en la Figura 6), se determinará el mínimo entre esta intensidad de la plosiva y la de las muestras prácticamente en la misma posición temporal en el periodo de tono fundamental precedente (el término “prácticamente” significa aquí “en la proximidad de + k después”, de aquí la ventaja de la realización de la etapa 75) y sustituir, si llega el caso, la intensidad de la plosiva por una intensidad más débil que pertenece al penúltimo periodo de tono fundamental Tj
1. Por el contrario, si la intensidad de las muestras del último periodo de tono fundamental Tj es inferior a la del penúltimo periodo de Tj-1, seleccionando el mínimo entre la muestra actual e(3) y el valor de intensidad e(2-T0) en el penúltimo periodo de tono fundamental Tj-1, no se modifica el último periodo y se evita así el riesgo de que una plosiva (de fuerte intensidad) pueda recopiarse desde el penúltimo periodo de tono fundamental Tj-1.
Así, en la etapa 76, se determina el máximo M en valor absoluto, de las muestras de la proximidad (y no otro parámetro tal como la media en esta proximidad, por ejemplo) de modo que se compense el efecto de elegir el mínimo en la etapa 77 para efectuar la sustitución del valor e(n). Esta medida permite, por lo tanto, no limitar demasiado la amplitud de los periodos de tono fundamental de sustitución Tj+1, Tj+2 (Figura 6).
Por otro lado, la etapa 75, de determinación de proximidad, se pone en práctica, de forma ventajosa, puesto que un periodo de tono fundamental no es siempre periódico y, si una muestra e(n) tiene una intensidad máxima en un periodo de tono fundamental T0, no es siempre lo mismo para una muestra e(n+T0) en un periodo de tono fundamental siguiente. Por otro lado, un periodo de tono fundamental se puede extender hasta una posición temporal que cae entre dos muestras (con una frecuencia de muestreo dada). Se habla de “tono fundamental fraccionario”. Por lo tanto, es siempre preferible tomar una proximidad centrada alrededor de una muestra e(n-T0) si es preciso asociar esta muestra e(n-T0) a una muestra e(n) situada en un periodo de tono fundamental siguiente.
Por último, puesto que el procesamiento de las etapas 75 a 77 influyen esencialmente sobre los valores absolutos de las muestras, la etapa 78 consiste simplemente en reasignar el signo de la muestra inicial e(n) a la muestra modificada emod(n).
Se reitera las etapas 75 a 78 para una muestra e(n) siguiente (n debiendo ser n+1 en la etapa 79), hasta el agotamiento del periodo de tono fundamental T0 (o sea, por lo tanto, hasta llegar a la última muestra válida e(n1 )).
Se proporciona así la señal modificada emod(n) al filtro inverso 1/A(z) (referencia 405 de la Figura 4) como resultado de la decodificación.
Conviene, no obstante, señalar también dos variantes posibles de realización. Es posible corregir así el último periodo de tono fundamental Tj, aplicar esta corrección T’j a este último periodo de tono fundamental Tj y recopiar la corrección para los periodos de tono fundamental siguientes, o sea: Tj=Tj+1=Tj+2=T’j .
En una variante, se deja intacto el último periodo de tono fundamental Tj y se recopia, por el contrario, su corrección T’j en los periodos de tono fundamental siguientes Tj+1 y Tj+2.
La comparación de las Figuras 5 y 6 demuestra en qué es ventajosa la modificación de la excitación así realizada. Así, en resumen, en el caso de que una plosiva esté presente en el último periodo de tono fundamental, esta última será automáticamente eliminada antes de la repetición del tono fundamental puesto que no tendrá equivalente en el penúltimo periodo de tono fundamental. Esta realización permite, así, eliminar uno de los artefactos operativos más molestos de la repetición de tono fundamental y que consiste en la repetición de consonantes plosivas.
Por otro lado, se prevé ventajosamente una atenuación más rápida de la señal sintetizada y repetida, si se detecta una plosiva en el último periodo de tono fundamental. Un ejemplo de realización de una detección de transitorio, de manera general, puede consistir en contar el número de ocurrencias de la condición (1) siguiente:
imagen1
Si esta condición se verifica, por ejemplo, más de una vez en la trama corriente, entonces la señal transmitida xl comprende un transitorio (por ejemplo, una consonante plosiva), lo que permite forzar una atenuación rápida por el bloque 406 en la señal de síntesis yl (por ejemplo, una atenuación en 10 ms).
Al Figura 2c ilustra, entonces, la señal decodificada cuando la invención se pone en práctica, a título de comparación con las Figuras 2a y 2b para las cuales estaba perdida una trama que comprende la plosiva /t/. La repetición del fonema /t/ es aquí evitada, gracias a la puesta en práctica de la invención. Las diferencias que siguen a la pérdida de trama no están relacionadas con la detección de plosivas propiamente dicha. En realidad, la atenuación de la señal, después de la pérdida de trama en la Figura 2c, se explica por el hecho de que en este caso, el decodificador G.722 es reinicializado (actualización completa de los estados en el bloque 302 de la Figura 3), mientras que en el caso de la Figura 2b, el decodificador G.722 no está reinicializado. Se comprenderá, no obstante, que la invención se refiere a la detección de plosivas para la extrapolación de una trama suprimida y no en el problema del rearranque después de una pérdida de trama. No obstante, en la escucha, la señal ilustrada en la Figura 2c es de mejor calidad que la representada en la Figura 2b.
La presente invención se refiere, además, a un programa de ordenador destinado a almacenarse en memoria de un dispositivo de síntesis de una señal audio-digital. Este programa comprende, entonces, instrucciones para la puesta en práctica del método según la invención, cuando se ejecuta por un procesador de un tal dispositivo de síntesis. Por otra parte, la Figura 7, anteriormente descrita, puede ilustrar un organigrama de un tal programa de ordenador.
Por otro lado, la presente invención se refiere, además, a un dispositivo de síntesis de una señal audio-digital constituida por una sucesión de bloques. Este dispositivo podría comprender, por otro lado, una memoria que almacena el programa de ordenador antes citado y podría consistir en el bloque 403 de la Figura 4 con las funcionalidades anteriormente descritas. Haciendo referencia a la Figura 8, este dispositivo SYN comprende:
-una entrada E para recibir bloques de la señal e(n), que preceden al menos a un bloque corriente a sintetizar y
-una salida S para entregar la señal sintetizada emod(n) y que comprende al menos este bloque corriente sintetizado.
El dispositivo de síntesis SYN, según la invención, comprende medios tales como una memoria de trabajo MEM (o de almacenamiento del programa de ordenador antes citado) y un procesador PROC que coopera con esta memoria MEM para la puesta en práctica del método según la invención y para sintetizar así el bloque corriente a partir de al menos uno de los bloques precedentes de la señal e(n).
La presente invención se refiere, además, a un decodificador de una señal audio-digital constituido por una sucesión de bloques, incluyendo este decodificador el dispositivo 403, según la invención, para sintetizar bloques no válidos.
De manera más general, la presente invención no se limita a las formas de realización anteriormente descritas a título de ejemplo, sino que se extiende a otras variantes.
En realizaciones variantes, los parámetros de corrección de periodo de tono fundamental y/o de detección de transitorios pueden ser los siguientes. Se puede considerar un intervalo que comprende un número diferente de tres muestras en el penúltimo periodo de tono fundamental. Se puede tomar, por ejemplo, k= 2 para tener cinco muestras consideradas en total. Del mismo modo, el valor del umbral para la detección de transitorio (de ¼ en el ejemplo de la condición (1) anterior) se puede adaptar en este caso. Además, se puede declarar la señal como transitoria si se verifica la condición de detección al menos m veces, con m> 1.
Por otro lado, la invención puede ser aplicada, además, a otros contextos distintos al anteriormente descrito.
Por ejemplo, la detección y la modificación de la señal se pueden realizar en el dominio de la señal (más bien que en el dominio de la excitación). En condiciones normales, para la corrección de pérdidas de trama en un decodificador CELP (que funciona también según el modelo de fuente-filtro), la excitación es extrapolada por repetición del tono fundamental y posiblemente, la adición de una contribución aleatoria y esta excitación se filtra por un filtro de tipo 1/A(z) en donde A(z) se deriva del último filtro predictor correctamente recibido.
Además, se puede aplicar a un decodificador según la norma G.711, también de forma natural.
Por supuesto, recopiar simplemente el penúltimo periodo de tono fundamental Tj-1 para constituir los nuevos periodos sintetizados Tj+1, Tj+2 permitiría ya resolver el problema de repetición de plosivas si, además, se tiene el cuidado de detectar plosivas en el penúltimo periodo de tono fundamental (por ejemplo, utilizando una condición del tipo de la
condición (1) anterior).
Por otro lado, para mayor claridad de la exposición anterior, se ha descrito una corrección de muestras, en la etapa b), seguida del recopiado de las muestras corregidas en los bloques de sustitución. Por supuesto, y de forma estrictamente equivalente, desde el punto de vista técnico, es posible también recopiar primero las muestras del último periodo de repetición y corregirlas a continuación en los bloques de sustitución. Así, la corrección de muestras y el recopiado pueden ser etapas que puedan realizarse en cualquier orden y, en particular, ser invertidas.

Claims (12)

  1. REIVINDICACIONES
    1. Método de síntesis de una señal audio-digital representado por bloques sucesivos de muestras, en donde, a la recepción de dicha señal, para sustituir al menos un bloque no válido, se genera un bloque de sustitución a partir de muestras de al menos un bloque válido, comprendiendo el método las etapas siguientes:
    a) determinar (402) un periodo de repetición en al menos un bloque válido y
    b) volver a copiar (403) las muestras del periodo de repetición en al menos un bloque de sustitución,
    correspondiendo dicho periodo de repetición a un periodo de tono de frecuencia fundamental si la señal es vocalizada o a un valor determinado arbitrariamente o a partir de una función de correlación si la señal no está vocalizada, caracterizado porque:
    -en la etapa a), se determina un último periodo de repetición (Tj) en al menos un bloque válido que precede inmediatamente a un bloque no válido,
    -en la etapa b), se corrige muestras (e(3)) del dicho último periodo de repetición (Tj) en función de muestras e(2T0), e(3-T0), e(4-T0)) de un periodo de repetición (Tj-1) que precede a dicho último periodo de repetición, para limitar la amplitud de una posible señal transitoria en dicho último periodo de repetición y se recopian las muestras así corregidas en dicho bloque de sustitución (Tj+1, Tj+2) efectuándose dicha corrección con respecto a una proximidad centrada en torno a una muestra temporalmente situada en un periodo de repetición antes de
    la muestra corriente.
  2. 2.
    El método, según la reivindicación 1, en donde la señal es una señal de voz vocalizada, caracterizado porque el periodo de repetición es un periodo de tono fundamental que corresponde a la inversa de una frecuencia fundamental de la señal.
  3. 3.
    El método, según una de las reivindicaciones 1 y 2, caracterizado porque en la etapa b) se corrige una muestra corriente (e(3)) del último periodo de repetición, comparando: -la amplitud de esta muestra corriente, en valor absoluto, -con la amplitud, en valor absoluto, de al menos una muestra (e(2-T0 )) temporalmente situada sensiblemente en
    un periodo de repetición antes de la muestra corriente, y asignando, a la muestra corriente, la amplitud mínima, en valor absoluto, entre estas dos amplitudes.
  4. 4.
    El método, según la reivindicación 3, caracterizado porque, para una muestra corriente (e(3)) del último periodo de repetición:
    -se constituye un conjunto de muestras (75) en una proximidad centrada en torno a una muestra (e(3-T0) temporalmente situada en un periodo de repetición antes de la muestra corriente,
    -se determina una amplitud elegida (76) entre las amplitudes de las muestras de dicha proximidad, tomadas en valor absoluto,
    - y se compara esta amplitud elegida con la amplitud de la muestra corriente, en valor absoluto, para asignar (77) a la muestra corriente (e(3)) la amplitud mínima, en valor absoluto, entre la amplitud elegida y la amplitud de la muestra corriente.
  5. 5.
    El método, según la reivindicación 4, caracterizado porque la amplitud elegida, entre las amplitudes de las muestras de dicha proximidad, es la amplitud máxima en valor absoluto (M).
  6. 6.
    El método, según una de las reivindicaciones precedentes, en donde se aplica un amortiguamiento de la amplitud de las muestras en dicho bloque de sustitución, caracterizado porque se detecta un posible carácter transitorio de la señal en el último periodo de repetición y, si fuera el caso, la corrección de la etapa b) se efectúa aplicando un amortiguamiento más rápido que para una señal estacionaria.
  7. 7.
    El método, según la reivindicación 6, tomado en combinación con una de las reivindicaciones 3 y 4, caracterizado porque:
    - para una pluralidad de muestras corrientes del último periodo de repetición, se mide una relación, en valor absoluto, de la amplitud de una muestra corriente con respecto a dicha amplitud elegida y
    -se cuenta el número de ocurrencias, para dichas muestras corrientes, para las cuales dicha relación es superior a un primer umbral predeterminado y
    -se detecta la presencia de un carácter transitorio si el número de ocurrencias es superior a un segundo umbral predeterminado.
  8. 8.
    El método, según una de las reivindicaciones precedentes, caracterizado porque, en el caso de una recepción de una pluralidad de bloques no válidos consecutivos, que se extiende en al menos un periodo de repetición, la etapa de corrección de muestras b) se aplica a todas las muestras del último periodo de repetición, tomadas una a una en tanto como la muestra corriente.
  9. 9.
    El método, según la reivindicación 8, caracterizado porque, en el caso de una recepción de una pluralidad de bloques no válidos consecutivos, que se extienden en varios periodos de repetición, para sustituir dicha pluralidad de bloques no válidos, se recopia varias veces el periodo de repetición corregido en la etapa b) para formar los bloques de sustitución.
  10. 10.
    Un programa de ordenador destinado a almacenarse en memoria de un dispositivo de síntesis de una señal audiodigital, caracterizado porque contiene instrucciones adaptadas para la puesta en práctica del método, según una de las reivindicaciones 1 a 9, cuando se ejecuta por un procesador de un tal dispositivo de síntesis.
  11. 11.
    Un dispositivo de síntesis de una señal audio-digital constituido por una sucesión de bloques que comprende:
    -una entrada (E) para recibir bloques de la señal (e(n)), que preceden a al menos un bloque corriente a sintetizar y
    -una salida (S) para proporcionar la señal sintetizada (emod(n)) y que comprende al menos dicho bloque corriente,
    caracterizado porque comprende medios (MEM, PROC) adaptados para la puesta en práctica del método según una de las reivindicaciones 1 a 9, para sintetizar el bloque corriente a partir de al menos uno de dichos bloques precedentes.
  12. 12. Un decodificador de una señal audio-digital constituido por una sucesión de bloques, caracterizado porque comprende, además, un dispositivo (403) según la reivindicación 11, para sintetizar bloques no válidos.
ES07871872T 2006-10-20 2007-10-17 Síntesis de bloques perdidos de una señal audio-digital. Active ES2363181T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0609227 2006-10-20
FR0609227A FR2907586A1 (fr) 2006-10-20 2006-10-20 Synthese de blocs perdus d'un signal audionumerique,avec correction de periode de pitch.

Publications (1)

Publication Number Publication Date
ES2363181T3 true ES2363181T3 (es) 2011-07-26

Family

ID=37735201

Family Applications (1)

Application Number Title Priority Date Filing Date
ES07871872T Active ES2363181T3 (es) 2006-10-20 2007-10-17 Síntesis de bloques perdidos de una señal audio-digital.

Country Status (14)

Country Link
US (1) US8417519B2 (es)
EP (1) EP2080195B1 (es)
JP (1) JP5289320B2 (es)
KR (1) KR101406742B1 (es)
CN (1) CN101627423B (es)
AT (1) ATE502376T1 (es)
BR (1) BRPI0718422B1 (es)
DE (1) DE602007013265D1 (es)
ES (1) ES2363181T3 (es)
FR (1) FR2907586A1 (es)
MX (1) MX2009004211A (es)
PL (1) PL2080195T3 (es)
RU (1) RU2432625C2 (es)
WO (1) WO2008096084A1 (es)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706479B2 (en) * 2008-11-14 2014-04-22 Broadcom Corporation Packet loss concealment for sub-band codecs
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
JP5456370B2 (ja) * 2009-05-25 2014-03-26 任天堂株式会社 発音評価プログラム、発音評価装置、発音評価システムおよび発音評価方法
US8976675B2 (en) * 2011-02-28 2015-03-10 Avaya Inc. Automatic modification of VOIP packet retransmission level based on the psycho-acoustic value of the packet
JP5932399B2 (ja) * 2012-03-02 2016-06-08 キヤノン株式会社 撮像装置及び音声処理装置
CN105976830B (zh) 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
FR3001593A1 (fr) * 2013-01-31 2014-08-01 France Telecom Correction perfectionnee de perte de trame au decodage d'un signal.
US9478221B2 (en) 2013-02-05 2016-10-25 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced audio frame loss concealment
KR102238376B1 (ko) 2013-02-05 2021-04-08 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오 프레임 손실 은폐를 제어하기 위한 방법 및 장치
BR112015017222B1 (pt) 2013-02-05 2021-04-06 Telefonaktiebolaget Lm Ericsson (Publ) Método e decodificador configurado para ocultar um quadro de áudio perdido de um sinal de áudio recebido, receptor, e, meio legível por computador
PL3011555T3 (pl) * 2013-06-21 2018-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja ramki sygnału mowy
SG11201510463WA (en) 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
KR101854296B1 (ko) 2013-10-31 2018-05-03 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
PT3288026T (pt) 2013-10-31 2020-07-20 Fraunhofer Ges Forschung Descodificador áudio e método para fornecer uma informação de áudio descodificada utilizando uma ocultação de erro baseada num sinal de excitação no domínio de tempo
NO2780522T3 (es) 2014-05-15 2018-06-09
US9706317B2 (en) * 2014-10-24 2017-07-11 Starkey Laboratories, Inc. Packet loss concealment techniques for phone-to-hearing-aid streaming
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
GB2547877B (en) * 2015-12-21 2019-08-14 Graham Craven Peter Lossless bandsplitting and bandjoining using allpass filters
CN106970950B (zh) * 2017-03-07 2021-08-24 腾讯音乐娱乐(深圳)有限公司 相似音频数据的查找方法及装置
WO2022045395A1 (ko) * 2020-08-27 2022-03-03 임재윤 파열음 제거를 위한 오디오데이터를 보정하는 방법 및 장치

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3369077A (en) * 1964-06-09 1968-02-13 Ibm Pitch modification of audio waveforms
WO1994026036A1 (en) * 1993-05-04 1994-11-10 Motorola Inc. Apparatus and method for substantially eliminating noise in an audible output signal
US6597961B1 (en) * 1999-04-27 2003-07-22 Realnetworks, Inc. System and method for concealing errors in an audio transmission
JP2001228896A (ja) * 2000-02-14 2001-08-24 Iwatsu Electric Co Ltd 欠落音声パケットの代替置換方式
US6584438B1 (en) * 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
US20030163304A1 (en) * 2002-02-28 2003-08-28 Fisseha Mekuria Error concealment for voice transmission system
US20030220787A1 (en) * 2002-04-19 2003-11-27 Henrik Svensson Method of and apparatus for pitch period estimation
US7411985B2 (en) * 2003-03-21 2008-08-12 Lucent Technologies Inc. Low-complexity packet loss concealment method for voice-over-IP speech transmission
KR20060011854A (ko) * 2003-05-14 2006-02-03 오끼 덴끼 고오교 가부시끼가이샤 소거된 주기 신호 데이터를 은닉하는 장치 및 방법
JP4135621B2 (ja) * 2003-11-05 2008-08-20 沖電気工業株式会社 受信装置および方法
CN1989548B (zh) * 2004-07-20 2010-12-08 松下电器产业株式会社 语音解码装置及补偿帧生成方法
US8005678B2 (en) * 2006-08-15 2011-08-23 Broadcom Corporation Re-phasing of decoder states after packet loss

Also Published As

Publication number Publication date
WO2008096084A1 (fr) 2008-08-14
JP2010507121A (ja) 2010-03-04
RU2432625C2 (ru) 2011-10-27
CN101627423A (zh) 2010-01-13
US8417519B2 (en) 2013-04-09
EP2080195B1 (fr) 2011-03-16
CN101627423B (zh) 2012-05-02
US20100318349A1 (en) 2010-12-16
PL2080195T3 (pl) 2011-09-30
EP2080195A1 (fr) 2009-07-22
KR20090082415A (ko) 2009-07-30
BRPI0718422A2 (pt) 2013-11-12
MX2009004211A (es) 2009-07-02
ATE502376T1 (de) 2011-04-15
KR101406742B1 (ko) 2014-06-12
BRPI0718422B1 (pt) 2020-02-11
RU2009118929A (ru) 2010-11-27
JP5289320B2 (ja) 2013-09-11
DE602007013265D1 (de) 2011-04-28
FR2907586A1 (fr) 2008-04-25

Similar Documents

Publication Publication Date Title
ES2363181T3 (es) Síntesis de bloques perdidos de una señal audio-digital.
ES2434947T3 (es) Procedimiento y dispositivo para la ocultación eficiente de un borrado de trama en códecs de voz
ES2625895T3 (es) Método y dispositivo para la ocultación eficiente del borrado de tramas en códecs de voz basados en la predicción lineal
RU2667029C2 (ru) Аудиодекодер и способ обеспечения декодированной аудиоинформации с использованием маскирования ошибки, модифицирующего сигнал возбуждения во временной области
ES2387943T3 (es) Ocultación de error de transmisión en una señal de audio digital en una estructura de decodificación jerárquica
ES2309969T3 (es) Procedimiento y dispositivo para la ampliacion artificial de la anchura de banda de señales de voz.
ES2739477T3 (es) Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo
ES2656022T3 (es) Detección y codificación de altura tonal muy débil
BRPI0715978A2 (pt) quadros de alinhamento temporal de vocoder de banda larga
ES2378972T3 (es) Atenuación de la sobresonorización, en particular para la generación de una excitación en un decodificador, en ausencia de información
ES2676834T3 (es) Gestión de la pérdida de trama en un contexto de transición FD/LPD
EP0804787A1 (en) Method and device for resynthesizing a speech signal
ES2676832T3 (es) Determinación de un presupuesto de codificación de una trama de transición LPD/FD
CN111312261B (zh) 突发帧错误处理