ES2881510T3 - Método y aparato para controlar la ocultación de pérdida de trama de audio - Google Patents

Método y aparato para controlar la ocultación de pérdida de trama de audio Download PDF

Info

Publication number
ES2881510T3
ES2881510T3 ES19178384T ES19178384T ES2881510T3 ES 2881510 T3 ES2881510 T3 ES 2881510T3 ES 19178384 T ES19178384 T ES 19178384T ES 19178384 T ES19178384 T ES 19178384T ES 2881510 T3 ES2881510 T3 ES 2881510T3
Authority
ES
Spain
Prior art keywords
frame
spectrum
signal
magnitude
loss concealment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19178384T
Other languages
English (en)
Inventor
Stefan Bruhn
Jonas Svedberg
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of ES2881510T3 publication Critical patent/ES2881510T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Stereophonic System (AREA)
  • Auxiliary Devices For Music (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Error Detection And Correction (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

Un método para la adaptación de un método de ocultación de pérdida de trama en la decodificación de audio, comprendiendo el método : - detectar (101, 122) un transitorio en una señal de audio previamente recibida y reconstruida; - modificar (102, 125) el método de ocultación de pérdida de trama mediante el ajuste selectivo de una magnitud del espectro de un espectro de una trama de sustitución en respuesta a un transitorio detectado; - detectar (101, 121) adicionalmente una pérdida de ráfaga con varias pérdidas de tramas consecutivas; y - modificar (102, 123) adicionalmente el método de ocultación de pérdida de trama mediante el ajuste selectivo de la magnitud del espectro del espectro de la trama de sustitución en respuesta a la pérdida de ráfaga detectada.

Description

DESCRIPCIÓN
Método y aparato para controlar la ocultación de pérdida de trama de audio
Campo de la técnica
La aplicación se refiere a los métodos y aparatos para controlar un método de ocultación para una trama de audio perdida de una señal de audio recibida.
Antecedentes
Los sistemas de comunicación convencionales de audio trasmiten la voz y las señales de audio en tramas, lo que significa que el lado emisor primero organiza la señal en pequeños segmentos o tramas de por ejemplo 20-40 ms los cuales se codifican y transmiten posteriormente como una unidad lógica en por ejemplo un paquete de transmisión. El receptor decodifica cada una de estas unidades y reconstruye las correspondientes tramas de señal, que a su vez se emiten finalmente como una secuencia continua de muestras de señal reconstruidas. Antes de codificar hay normalmente un paso de conversión de analógico a digital (A/D) que convierte la voz o la señal de audio analógica de un micrófono a una secuencia de muestras de audio. A la inversa, en el extremo receptor, hay normalmente un paso de conversión D/A final que convierte la secuencia de muestras de señal digital reconstruida en una señal analógica continua en el tiempo para su reproducción por altavoz.
Sin embargo, dicho sistema de transmisión para voz y señales de audio puede sufrir errores de transmisión, que podrían llevar a una situación en la que una o varias de las tramas transmitidas no estén disponibles en el receptor para la reconstrucción. En ese caso, el decodificador tiene que generar una señal de sustitución para cada una de las tramas eliminadas, esto es, no disponibles. Esto se hace en la denominada unidad de pérdida de trama o de ocultación de error del decodificador de señal del extremo receptor. El propósito de la ocultación de la pérdida de trama es hacer la pérdida de trama tan inaudible como sea posible y por lo tanto mitigar el impacto de la pérdida de trama en la calidad de la señal reconstruida tanto como sea posible.
Los métodos convencionales de ocultación de pérdida de trama pueden depender de la estructura o arquitectura del códec, por ejemplo aplicando una forma de repetición de los parámetros del códec previamente recibidos. Tales técnicas de repetición de parámetros son claramente dependientes de los parámetros específicos del códec usado y por tanto no son fácilmente aplicables a otros códec con una estructura diferente. Los métodos de ocultación de pérdida de trama pueden por ejemplo aplicar el concepto de congelación y extrapolación de parámetros de una trama recibida previamente para generar una trama de sustitución para la trama perdida.
Estos métodos de ocultación de trama del estado de la técnica de incorporan algunos esquemas de manejo de ráfagas de pérdida. En general, después de un número de pérdidas de trama en una fila la señal sintetizada se atenúa hasta que es completamente silenciada después de largas ráfagas de errores. Además, los parámetros de codificación que son esencialmente repetidos y extrapolados se modifican de tal manera que la atenuación se termina y los picos espectrales se aplanan.
Las técnicas de ocultación de pérdida de trama del estado de la técnica actual normalmente aplican el concepto de congelación y extrapolación de parámetros de una trama previamente recibida a fin de generar una trama de sustitución para la trama perdida. Muchos códec paramétricos de voz tales como los códec predictivos lineales como el AMR o AMR-WB normalmente congelan los parámetros previamente recibidos o usan alguna extrapolación de los mismos y usan el decodificador con ellos. En esencia, el principio es tener un modelo dado para codificar/decodificar y aplicar el mismo modelo con parámetros congelados o extrapolados. Las técnicas de ocultación de pérdida de trama del AMR y AMR-WB pueden ser consideradas como representativas. Se especifican en detalle en las correspondientes especificaciones de los estándares o normas.
Muchos códec fuera de la categoría de los códec de audio aplican para codificar técnicas del dominio de la frecuencia. Esto significa que después de alguna transformada en el dominio de la frecuencia se aplica un modelo de codificación sobre los parámetros espectrales. El decodificador reconstruye el espectro de la señal a partir de los parámetros recibidos y finalmente transforma el espectro de vuelta a una señal de tiempo. Normalmente, la señal de tiempo se reconstruye trama a trama, Tales tramas se combinan por técnicas de superposición-suma a la señal reconstruida final. Incluso en dicho caso de códec de audio, la ocultación de error del estado de la técnica normalmente aplica el mismo modelo o al menos un modelo de decodificación similar para las tramas perdidas. Los parámetros del dominio de la frecuencia procedentes de una trama previamente recibida se congelan o se extrapolan adecuadamente y luego se usan en la conversión del dominio de la frecuencia al del tiempo. Ejemplos para tales técnicas se proporcionan con los códec de audio 3GPP según los estándares 3GPP.
El documento US2004/122680 describe un sistema para la ocultación de errores de trama que enseña ajustar la magnitud de la trama de sustitución según el número de tramas consecutivas perdidas. El documento EP 1722359 A1 describe un método de ocultación que incluye la detección de transitorios.
Compendio
Las actuales soluciones del estado de la técnica de para la ocultación de pérdida de trama normalmente sufren de deficiencia de calidad. El principal problema es que la técnica de congelación y extrapolación de parámetros y la aplicación de nuevo del mismo modelo de decodificador incluso para tramas perdidas no siempre garantiza una evolución de señal uniforme y fiel desde las tramas de señal previamente decodificadas a la trama perdida. Esto lleva normalmente a discontinuidades de señal audibles con el correspondiente impacto en la calidad.
Se describen nuevos esquemas para la ocultación de pérdida de trama para sistemas de transmisión de voz y de audio. Los nuevos esquemas mejoran la calidad en caso de pérdida de trama sobre la calidad alcanzable con técnicas de ocultación de trama de técnicas previas.
El objetivo de la presente realización es controlar un esquema de ocultación de pérdida de trama que preferiblemente sea del tipo de los nuevos métodos descritos referidos de tal modo que se alcance la mejor calidad de sonido posible de la señal reconstruida. Las realizaciones buscan optimizar esta calidad de reconstrucción tanto con respecto a las propiedades de la señal como a la distribución temporal de las pérdidas de trama. Particularmente problemáticos para la ocultación de pérdida de trama para proporcionar buena calidad son los casos cuando la señal de audio tiene propiedades fuertemente variables tales como inicios o cese de energías o si es espectralmente muy fluctuante. En ese caso los métodos de ocultación descritos pueden repetir el inicio, cese o la fluctuación espectral que lleven a grandes desviaciones respecto a la señal original y a la correspondiente calidad del servicio.
Otro caso problemático es si ráfagas de pérdidas de tramas ocurren en una fila. Conceptualmente, el esquema para la ocultación de la pérdida de trama según los métodos descritos puede hacer frente a tales casos, aunque como resultado puedan ocurrir molestos defectos tonales. Es otro objetivo de la presente realización mitigar tales defectos en el mayor grado posible.
Según un primer aspecto, se ha descrito un método para la adaptación de un método de ocultación de pérdida de trama en la decodificación de audio según la reivindicación 1.
Según un segundo aspecto, se describe un aparato para la adaptación de un método de ocultación de pérdida de trama según la reivindicación 12.
Según un tercer aspecto, un programa de ordenador comprende instrucciones que al ser ejecutadas en un aparato provocan que el aparato realice el método según el primer aspecto descrito más arriba.
Según un cuarto aspecto, un producto de programa de ordenador incluye un medio legible por ordenador que almacena un programa de ordenador según el tercer aspecto descrito anteriormente.
Una ventaja con una realización se dirige al control de los métodos de ocultación de pérdida de tramas de adaptación que permiten mitigar el impacto audible de la pérdida de trama en la transmisión de voz y señales de audio codificadas incluso más allá de la calidad alcanzada con sólo los métodos de ocultación descritos. El beneficio general de las realizaciones es proporcionar una evolución uniforme y fiel de la señal reconstruida incluso por tramas perdidas. El impacto audible de las pérdidas de trama se reduce notablemente en comparación a la utilización de técnicas del estado de la técnica.
Breve descripción de los dibujos
Para una comprensión más completa de las realizaciones ejemplares de la presente invención, se hace ahora referencia a la siguiente descripción tomada en conexión con los dibujos adjuntos en los cuales:
La Figura 1 muestra una función de ventana rectangular
La Figura 2 muestra una combinación de la ventana de Hamming con la ventana rectangular.
La Figura 3 muestra un ejemplo de un espectro de magnitud de una función de ventana.
La Figura 4 muestra un espectro de una señal sinusoidal con ventana con la frecuencia fk.
La Figura 5 ilustra una línea de espectro de una señal sinusoidal ejemplar con la frecuencia fk.
La Figura 6 ilustra barras correspondientes a la magnitud de los puntos de la cuadrícula de una DFT, basada en una trama de análisis.
La Figura 7 ilustra un ajuste de una parábola a través de los puntos de la cuadrícula de DFT P1, P2 y P3
La Figura 8 ilustra un ajuste de un lóbulo principal de un espectro de ventana.
La Figura 9 ilustra un ajuste de la función de aproximación P de lóbulo principal a través de los puntos de la cuadrícula de DFT P1 y P2.
La Figura 10 es un diagrama de flujo que ilustra un método ejemplar según las realizaciones de la invención para controlar un método de ocultación para una trama de audio perdida de una señal de audio recibida.
La Figura 11 es un diagrama de flujo que ilustra otro método ejemplar según las realizaciones de la invención para controlar un método de ocultación para una trama de audio perdida de una señal de audio recibida.
La Figura 12 ilustra otra realización ejemplar de la invención.
La Figura 13 muestra un ejemplo de un aparato según una realización de la invención.
La Figura 14 muestra otro ejemplo de un aparato según una realización de la invención.
La Figura 15 muestra otro ejemplo de un aparato según una realización de la invención.
Descripción detallada
El nuevo esquema de control para las nuevas técnicas de ocultación de trama perdida descritas implican los siguientes pasos como se muestra en la Figura 10. Se debería notar que el método se puede implementar en un controlador en un decodificador.
1. Detectar condiciones en las propiedades de la señal de audio previamente recibida y reconstruida o en las propiedades estadísticas de las tramas perdidas observadas para las que la sustitución de una trama perdida según los métodos descritos proporciona una calidad relativamente reducida, 101.
2. En el caso tal de que dicha condición sea detectada en el paso 1, modificar el elemento de los métodos según el cual el espectro de la trama de sustitución se calcula como z(m) = Y(m) ■ ej0k, ajustando selectivamente las fases o las magnitudes del espectro, 102.
Análisis sinusoidal
Un primer paso de la técnica de ocultación de pérdida de trama al que la nueva técnica de control puede aplicarse implica un análisis sinusoidal de una parte de la señal previamente recibida. El propósito de este análisis sinusoidal es encontrar las frecuencias de las sinusoides principales de esa señal, y la subyacente asunción es que la señal se compone de un número limitado de sinusoides individuales, es decir, esta es una señal multi-sinuosidal del siguiente tipo:
K f
s in ) = Y j ak ' cos(2^ y - n (Pk)
k=1 Js
En esta ecuación K es el número de sinusoides de las que se supone que consiste la señal. Para cada una de las sinusoides con índice k= 1...K, ak es la amplitud, fk es la frecuencia, y $k es la fase. La frecuencia de muestreo se denomina como fs y el índice de tiempo de las muestras de señal de tiempo discreto s(n) como n.
Es de principal importancia encontrar frecuencias de las sinusoides tan exactas como sea posible. Mientras una señal sinusoidal ideal tendía un espectro de línea con frecuencias de línea fk, encontrar sus valores reales en principio requeriría un tiempo de medición infinito. Por lo tanto, hay una dificultad práctica para encontrar estas frecuencias ya que pueden sólo ser estimadas en base a un corto periodo de medición, que corresponde al segmento de señal usado para el análisis de señal sinusoidal descrito aquí; a este segmento de señal se referirá de aquí en adelante como una trama de análisis. Otra dificultad es que la señal puede en la práctica ser variable en el tiempo, lo que significa que los parámetros de la ecuación anterior varían con el tiempo. Por lo tanto, por un lado es deseable usar una trama de análisis larga, que haga la medición más precisa, por el otro lado sería necesario un periodo de medición corto a fin de hacer frente mejor a posibles variaciones de señal. Una buena solución intermedia es usar una longitud de trama de análisis del orden de por ejemplo 20-40 ms.
Una posibilidad preferida para identificar las frecuencias de las sinusoides fk, es hacer un análisis en el dominio de la frecuencia de la trama de análisis. Para tal fin la trama de análisis se transforma al dominio de la frecuencia, por ejemplo mediante DFT o DCT o transformadas similares en el dominio de la frecuencia. En caso de que se use una DFT de la trama de análisis, el espectro viene dado por:
¿-1
X ( m ) = DFT ( w(n ) • x(n)) = ^ e J L ™ • w(n) x(n)
n -0
En esta ecuación w(n) denota la función ventana con la cual la trama de análisis de longitud L se extrae y se pondera. Funciones de ventana típicas son por ejemplo ventanas rectangulares que son iguales a 1 para n [0...L-1] y de lo contrario 0 como se muestra en la Figura 1. Se supone aquí que los índices de tiempo de la señal de audio previamente recibida están configurados de tal modo que la trama de análisis se referencia por los índices de tiempo n=0...L-1. Otras funciones de ventana que pueden ser más ajustables para el análisis espectral son, por ejemplo, ventana de Hamming, ventana de Hanning, ventana de Kaiser o ventana de Blackman, Una función de ventana que se ha encontrado particularmente útil es una combinación de la ventana de Hamming con la ventana rectangular. Esta ventana tiene una forma de borde ascendente como la mitad izquierda de una ventana de Hamming de longitud L1 y un borde descendente como la mitad derecha de una ventana de Hamming de longitud L1 y entre los bordes ascendente y descendente la ventana es igual a 1 para la longitud de L-L1, como se muestra en la Figura 2.
Los picos del espectro de magnitud de la trama de análisis con ventana |X(m)| constituyen una aproximación de las frecuencias sinusoidales requeridas fk. La precisión de esta aproximación está sin embargo limitada por la separación de frecuencias de la DFT. Con la DFT con longitud de bloque L la precisión se limita a:
A
2L
Los experimentos muestran que este nivel de precisión puede ser demasiado bajo en el alcance de los métodos descritos aquí. Se puede obtener una precisión mejorada basada en los resultados de la siguiente consideración:
El espectro de la trama de análisis con ventana viene dado por la convolución del espectro de la función de ventana con el espectro de línea del modelo de señal sinusoidal S(Q), posteriormente muestreado en los puntos de cuadrícula de la DFT.
Figure imgf000005_0001
Mediante el uso de la expresión del espectro del modelo de señal sinusoidal, esto se puede escribir como:
Figure imgf000005_0002
Por lo tanto, el espectro muestreado viene dado por:
Figure imgf000005_0003
con
Figure imgf000005_0004
Basado en esta consideración se asume que los picos observados en el espectro de magnitud de la trama de análisis provienen de una señal sinusoidal con ventana con k sinusoides donde las frecuencias de sinusoide auténticas se encuentran en las inmediaciones de los picos.
Supongamos que mk es el índice de la DFT (puntos de cuadrícula) del pico késimo observado, entonces la frecuencia correspondiente es
Figure imgf000005_0005
la cual puede ser considerada una aproximación de la frecuencia sinusoidal auténtica fk. La frecuencia sinusoidal verdadera fk se puede suponer situada en el intervalo
Figure imgf000005_0006
Para mayor claridad se hace notar que la convolución del espectro de la función ventana con el espectro del espectro de línea del modelo sinusoidal de señal se puede entender como una superposición de versiones desplazadas en frecuencia del espectro de la función ventana, por lo que las frecuencias de desplazamiento son las frecuencias de las sinusoides. Esta superposición se muestrea luego en los puntos de la cuadrícula de la DFT, Estos pasos se ilustran por las siguientes figuras. La Figura 3 muestra un ejemplo del espectro de magnitud de una función ventana. La Figura 4 muestra el espectro de magnitud (espectro de línea) de un ejemplo de señal sinusoidal con una sinusoide de frecuencia individual. La Figura 5 muestra el espectro de magnitud de la señal sinusoidal con ventana que replica y superpone los espectros de ventana desplazada en frecuencia a las frecuencias de la sinusoide. Las barras en la Figura 6 corresponden a la magnitud de los puntos de la cuadrícula de la DFT de la sinusoide con ventana que se obtienen calculando la DFT de la trama de análisis. Debería observarse que todos los espectros son periódicos con el parámetro de frecuencia normalizada Q donde Q = 2n que corresponde a la frecuencia de muestreo fs.
La descripción anterior y la ilustración de la figura 6 sugieren que una mejor aproximación de las frecuencias sinusoidales auténticas sólo se puede encontrar aumentando la resolución de la búsqueda sobre la resolución de frecuencia de la transformada en el dominio de la frecuencia usada.
Una forma preferida de encontrar mejores aproximaciones de las frecuencias fk de las sinusoides es aplicar interpolación parabólica. Tal enfoque es ajustar parábolas a través de la matriz de puntos de cuadrícula del espectro de magnitud de DFT que rodean los picos y calcular las respectivas frecuencias pertenecientes a los máximos de parábola. Una elección apropiada para el orden de la parábola es 2. Se puede aplicar en detalle el siguiente procedimiento:
1. Identificar los picos de la DFT de la trama de análisis con ventana . La búsqueda de picos dará el número de picos K y los correspondientes índices DFT de los picos. La búsqueda de picos se puede hacer normalmente en el espectro de magnitud de la DFT o en el espectro de magnitud de la DFT logarítmico.
2. Para cada pico k (con k=1...K) con el correspondiente índice mk de DFT ajustar una parábola a través de los tres puntos {P1; P2; P3} = {(mk -1, log(|X(mk -1)|); (mk, log(|X(mk)|); (mk 1, log(|X(mk 1)|)}. Esto da como resultado coeficientes de parábola bk(0), bk(1), bk(2) de la parábola definida por
Figure imgf000006_0001
El ajuste de parábola se muestra en la Figura 7.
3. Para cada una de las K parábolas calcular el índice mk de frecuencia interpolada que corresponde al valor de q para el cual la parábola tiene su máximo. Usar fk = m k ■ fs/L como aproximación para la frecuencia sinusoidal fk. La aproximación descrita proporciona buenos resultados pero puede tener algunas limitaciones ya que las parábolas no se aproximan a la forma del lóbulo principal del espectro de magnitud |W(Q)| de la función ventana. Un esquema alternativo que hace esto es una estimación de frecuencia mejorada que usa una aproximación de lóbulo principal, descrita a continuación. La principal idea de esta alternativa es ajustar una función P(q), que se aproxima al lóbulo
Figure imgf000006_0002
principal de L mediante la matriz de puntos de cuadrícula del espectro de magnitud de DFT que rodea los picos y calcular las respectivas frecuencias pertenecientes a la función máxima. La función P(q) podría ser idéntica al 'Jtt
m ~ { q - q ) ) |
espectro de magnitud desplazado en frecuencia L de la función ventana. Por simplicidad numérica aunque debería ser más bien como ejemplo un polinomio que permita un cálculo sencillo de la función máxima. Se puede aplicar el siguiente procedimiento detallado:
1. Identificar los picos de la DFT de la trama de análisis con ventana . La búsqueda de picos dará el número de picos K y los correspondientes índices DFT de los picos. La búsqueda de picos se puede hacer normalmente en el espectro de magnitud de la DFT o en el espectro de magnitud de la DFT logarítmica.
2. Derivar la función P(q) que aproxima el espectro de magnitud
Figure imgf000006_0003
de la función ventana o del espectro
Figure imgf000006_0004
que aproxima el lóbulo principal del espectro de la ventana se muestra en la Figura 8.
3. Para cada pico k (con k=1...K) con el correspondiente índice mk de DFT ajustar la función desplazada en frecuencia P(q - q k) mediante los dos puntos de cuadrícula de la DFT que rodean el esperado pico real del espectro continuo de la señal sinusoidal con ventana . Por lo tanto, si |X(mk - 1)| es mayor que |X(mk 1)| ajustar P(q - q k) mediante los puntos.
{P1; P2} = {(mk-1, log(|X(mk-1)|); (mk, log(|X(mk)|)} y en otro caso a través de los puntos {P1; P2} = {(mk, log(|X(mk)|); (mk+1, log(|X(mk+1)|)}. P(q) se puede elegir por simplicidad para que sea un polinomio de orden 2 o 4. Esto hace de la aproximación del paso 2 un simple cálculo de regresión lineal y el cálculo de q k simple. El intervalo (q1,q2) se puede escoger para ser fijo e idéntico para todos los picos, por ejemplo (q1,q2) = (-1,1), o adaptativo.
En la aproximación adaptativa el intervalo se puede escoger tal que la función P(q-qk) ajuste el lóbulo principal del espectro de la función ventana en el rango de los puntos de cuadrícula de DFT pertinentes {P1; P2}. El proceso de ajuste se visualiza en la Figura 9.
4. Para cada uno de los K parámetros de desplazamiento de frecuencia qk para los que el espectro continuo de la señal sinusoidal con ventana se espera que tenga su pico calcular fk = q k ■ fs/L como aproximación de la frecuencia de sinusoide fk.
Hay muchos casos donde la señal transmitida es armónica lo cual significa que la señal consiste en curvas sinusoidales cuyas frecuencias son múltiples enteros de alguna frecuencia fundamental f0. Este es el caso cuando una señal es muy periódica como por ejemplo la voz o los tonos sostenidos de algún instrumento musical . Esto significa que las frecuencias del modelo sinusoidal de las realizaciones no son independientes sino que más bien tienen una relación armónica y provienen de la misma frecuencia fundamental. Teniendo esta propiedad armónica en cuenta se puede mejorar por consiguiente el análisis de las frecuencias componentes sinusoidales substancialmente.
Una posibilidad de mejora se resume como sigue:
1. Comprobar si la señal es armónica. Esto puede por ejemplo hacerse evaluando la periodicidad de la señal antes de la pérdida de trama. Un método sencillo es realizar un análisis de autocorrelación de la señal. Se puede usar como un indicador el máximo de dicha función de auto correlación para algún retardo de tiempo t > 0. Si el valor de este máximo sobrepasa un umbral dado, la señal puede ser considerada armónica.
El correspondiente retardo de tiempo t entonces corresponde al periodo de la señal que se relaciona con la frecuencia
fundamental mediante
Figure imgf000007_0001
Muchos métodos de codificación de voz predictivos lineales aplican la predicción de tono de los denominados bucles abiertos o cerrados o codificación CELP que usa libros de códigos adaptativos. La ganancia de tono y los parámetros asociados de retardo de tono derivados por dichos métodos de codificación son también indicadores útiles de si la señal es armónica y, respectivamente, para el retardo de tiempo.
Un método adicional para obtener f0 se describe a continuación.
2. Para cada índice armónico j en el rango entero 1...Jmax comprobar si hay un pico en el espectro de magnitud de la DFT (logarítmica) de la trama de análisis en las proximidades de la frecuencia armónica fj = j ■ f0. La proximidad de fj se puede definir como el rango delta alrededor de fj donde delta corresponde a la resolución de frecuencia de la DFT L
T ’
^ esto es, el intervalo
Figure imgf000007_0002
En el caso de que tal pico con la correspondiente frecuencia sinusoidal estimada fk esté presente, sustituir fk por fk = j ■ f0.
Para el procedimiento de dos pasos dado más arriba existe también la posibilidad de comprobar si la señal es armónica y la derivación de la frecuencia fundamental implícita y posiblemente de forma iterativa sin usar necesariamente indicadores de algún método separado . Un ejemplo para dicha técnica se da de la manera siguiente:
Para cada f0,p fuera de un conjunto de valores candidatos {f0,1 ... f0,p} aplicar el paso 2 del procedimiento, aunque sin sustituir fk pero contando cuantos picos de la DFT están presentes en la proximidad alrededor de las frecuencias armónicas, esto es, los múltiples enteros de f0,p. Identificar la frecuencia fundamental fc.pmax para la cual se obtiene el mayor número de picos en o alrededor de las frecuencias armónicas. Si este mayor número de picos excede de un umbral dado, entonces se asume que la señal es armónica. En ese caso se puede asumir que f0,pmax sea la frecuencia fundamental con la que se ejecuta después el paso 2 que lleva a frecuencias sinusoidales mejoradas fk. Una alternativa más preferible es sin embargo optimizar en primer lugar la frecuencia fundamental f0 basada en las frecuencias de pico fk que se haya encontrado que coinciden con frecuencias armónicas. Asumir un conjunto de M armónicos, esto es múltiples enteros {m ... nM} de alguna frecuencia fundamental que se haya encontrado que coincide con algún conjunto de M picos espectrales en las frecuencias fk(m), m = 1...M, a continuación la frecuencia fundamental subyacente (optimizada) fo.opt se puede calcular para minimizar el error entre las frecuencias de armónicos y las M
E 2 = T . ( nm -fo - fk (m )Y . frecuencias de picos espectrales. Si el error a minimizar es el error cuadrático medio m -1
entonces la frecuencia fundamental óptima se calcula como
Figure imgf000007_0003
El conjunto inicial de valores candidatos {f0,1 ... f0,p} se puede obtener a partir de las frecuencias de los picos de la DFT o de las frecuencias sinusoidales estimadas fk.
Una posibilidad adicional para mejorar la precisión de las frecuencias sinusoidales estimadas fk es considerar su evolución temporal. Para tal fin, las estimaciones de las frecuencias sinusoidales de múltiples tramas de análisis se pueden combinar por ejemplo por medio de promedio o predicción. Antes de promediar o predecir un pico se puede aplicar seguimiento que conecte los picos espectrales estimados a las mismas sinusoides subyacentes respectivas.
Aplicación del modelo sinusoidal
La aplicación de un modelo sinusoidal a fin de realizar una operación de ocultación de pérdida de trama aquí descrita se puede describir como sigue:
Se asume que un segmento dado de la señal codificada no puede ser reconstruido por el decodificador ya que la correspondiente información codificada no está disponible. Además se asume que una parte de la señal previa a este segmento está disponible. Supongamos que y(n) con n=0...N-1 sea el segmento no disponible para el que una trama de sustitución z(n) tiene que ser generada y que y(n) con n<0 sea la señal decodificada previamente disponible. Entonces, en un primer paso una trama prototipo de la señal disponible de longitud L e índice de inicio n-i se extrae con una función ventana w(n) y se transforma al dominio de frecuencia, por ejemplo mediante la DFT
L
\- 1 ,2n
F-iCm) = 2 ^ y ( n — n- i ) ' w (n ) ' e 1 L mn
71 = 0 _
La función ventana puede ser una de las funciones ventana descritas más arriba en el análisis sinusoidal. Preferiblemente, a fin de reducir la complejidad numérica, la trama transformada al dominio de la frecuencia debería ser idéntica a la usada durante el análisis sinusoidal.
En un siguiente paso se aplica la asunción de modelo sinusoidal. Según eso la DFT de la trama prototipo se puede escribir como sigue:
Figure imgf000008_0001
El siguiente paso es darse cuenta que el espectro de la función de ventada usada tiene sólo una contribución significativa en un rango de frecuencia cercano a cero. Como se muestra en la Figura 3 el espectro de magnitud de la función ventana es grande para frecuencias cercanas a cero y pequeño en caso contrario (en el rango de frecuencia normalizado de -n a n , correspondiente a la mitad de la frecuencia de muestreo). Por lo tanto, se asume como aproximación que el espectro de ventana W(m) es distinto de cero sólo para un intervalo M= [-mmin, mmax], siendo mmin y mmax números positivos pequeños. En particular, una aproximación del espectro de la función ventana se usa de tal modo que para cada k las contribuciones de los espectros de ventana desplazados en la expresión anterior son estrictamente no superpuestas. Por lo tanto en la ecuación anterior para cada índice de frecuencia hay siempre sólo como máximo la contribución de un sumando, esto es, de un espectro de ventana desplazado. Esto significa que la expresión anterior se reduce a la siguiente expresión aproximada:
Figure imgf000008_0002
anteriormente explicada de tal modo que los intervalos no se solapen. Una elección adecuada para m ajustarlos a un valor entero pequeño 5, por ejemplo 5=3. Si en cambio los índices DFT relacionados a dos frecuencias redondear 0 - redondear (
sinusoidales adyacentes fk y fk+i son menores que 25, entonces 5 se fija a suelo
de tal modo que se asegure que los intervalos no se están solapando. La función suelo (•) es el entero más cercano al argumento de la función que es más pequeño o igual a éste.
El siguiente paso según la realización es aplicar el modelo sinusoidal según la expresión anterior y evolucionar sus K sinusoides en el tiempo. La asunción de que el índice de tiempo del segmento eliminado comparado con el índice de tiempo de la trama prototipo difiere en n-i muestras significa que las fases de las sinusoides se adelantan en
fk
9k = 2n • — n _ !
fs
Por lo tanto, el espectro de la DFT del modelo sinusoidal evolucionado viene dado por:
Figure imgf000009_0001
Aplicando de nuevo la aproximación según la cual los espectros de ventana desplazados no se solapan, se obtiene
Figure imgf000009_0002
para m e Mk no negativo y para cada k.
Comparando la DFT de la trama prototipo Y-1(m) con la DFT del modelo sinusoidal Y0(m) evolucionado al usar la aproximación, encontramos que el espectro de magnitud permanece sin cambios mientras que la fase se desplaza en
Figure imgf000009_0003
para cada m e Mk. Por tanto, los coeficientes del espectro de frecuencia de la trama prototipo en la proximidad de cada sinusoide están desplazados proporcionalmente a la frecuencia sinusoidal fk y a la diferencia de tiempo entre la trama de audio perdida y la trama prototipo n-1.
Por lo tanto, según la realización la trama de sustitución se puede calcular por la siguiente expresión:
z(n) = ID T F { Z { m ) j con Z{m ) = Y(m) ■ e /6/- para meMk no negativas y para cada k Una realización específica se ocupa de hacer aleatoria la fase para índices DFT no pertenecientes a ningún intervalo Mk. Como se describió anteriormente, los intervalos Mk k=1...K tienen que ser ajustados de tal modo que estén estrictamente no solapados lo que se hace usando algunos parámetros 5 que controlan el tamaño de los intervalos. Puede ocurrir que 5 sea pequeño en relación a la distancia de frecuencia de dos sinusoides vecinas. Por lo tanto, en ese caso ocurre que hay un espacio entre dos intervalos. Por consiguiente, para los correspondientes índices m de DFT no se define desplazamiento de fase según la anterior expresión Z(m) = Y(m) ■ ej0k. Una elección adecuada según esta realización es aleatorizar la fase para estos índices, haciendo Z(m) = Y(m) ■ ej2naleat(), donde la función aleat(-) devuelve algún número aleatorio.
Se ha encontrado beneficioso para la calidad de las señales reconstruidas optimizar el tamaño de los intervalos Mk. En particular, los intervalos deberían ser mayores si la señal es muy tonal, esto es cuando tiene picos espectrales claros y distintos. Este es el caso por ejemplo cuando la señal es armónica con una clara periodicidad. En otros casos donde la señal tiene una estructura espectral menos pronunciada con máximos espectrales más amplios, se ha encontrado que usar pequeños intervalos lleva a una mejor calidad. Este descubrimiento lleva a una mejora adicional según la cual el tamaño del intervalo se adapta según las propiedades de la señal. Una realización es usar un detector de tonalidad o periodicidad. Si este detector identifica la señal como tonal, el parámetro 5 que controla el tamaño de intervalo se ajusta a un valor relativamente grande. En caso contrario, el parámetro 5 se ajusta a un valor relativamente menor.
Basado en lo anterior, los métodos de ocultación de pérdida de trama implican los siguientes pasos:
1. Analizar un segmento de la señal disponible, previamente sintetizada para obtener las frecuencias sinusoidales fk constituyentes de un modelo sinusoidal, utilizando opcionalmente una estimación de frecuencia mejorada.
2. Extraer una trama prototipo y-1 de la señal disponible previamente sintetizada y calcular la DFT de esa trama. 3. Calcular el desfase 0k para cada sinusoide k en respuesta a la frecuencia sinusoidal fk y el avance de tiempo n-1 entre la trama prototipo y la trama de sustitución. Opcionalmente en este paso el tamaño del intervalo M puede haber sido adaptado en respuesta a la tonalidad de la señal de audio.
4. Para cada sinusoide k avanzar la fase de la DFT de la trama prototipo en 0k selectivamente para los índices DFT relacionados a un entorno alrededor de la frecuencia de sinusoide fk.
5. Calcular la DFT inversa del espectro obtenido en el paso 4.
Análisis y detección de la propiedad de pérdida de trama y señal
Los métodos descritos anteriormente están basados en la asunción de que las propiedades de la señal de audio no cambian significativamente durante el corto periodo de tiempo entre la trama de señal previamente recibida y reconstruida y una trama perdida. En ese caso es una muy buena elección conservar el espectro de magnitud de la trama previamente reconstruida y hacer evolucionar las fases de los componentes principales sinusoidales detectados en la señal previamente reconstruida. Hay sin embargo casos donde esta asunción es errónea como por ejemplo los transitorios con cambios de energía repentinos o cambios espectrales repentinos.
Una primera realización de un detector de transitorios según la invención puede por consiguiente estar basada en variaciones de energía dentro de la señal previamente reconstruida. Este método, mostrado en la Figura 11, calcula la energía en la parte izquierda y parte derecha de alguna trama 113 de análisis. La trama de análisis puede ser idéntica a la trama usada para el análisis sinusoidal descrito anteriormente. Una parte (ya sea izquierda o derecha) de la trama de análisis puede ser respectivamente la primera mitad o la última de la trama de análisis o por ejemplo el primer o respectivamente el último cuarto de la trama de análisis, 110. El respectivo cálculo de energía se hace sumando los cuadrados de las muestras en esas tramas parciales:
Figure imgf000010_0001
Aquí Y(n) denota la trama de análisis, nizda y ndcha denotan los respectivos índices de comienzo de las tramas parciales que son ambas de tamaño Nparc.
Ahora las energías de las tramas parciales izquierda y derecha se usan para la detección de una discontinuidad de señal. Esto se hace calculando la relación
Figure imgf000010_0002
Una discontinuidad con un cese repentino de energía (cese ) se puede detectar si la tasa Ri/d excede algún umbral (por ejemplo 10), 115. De manera similar una discontinuidad con un incremento repentino de energía (inicio) se puede detectar si la tasa Ri/d está por debajo de algún otro umbral (por ejemplo 0,1), 117.
En el contexto de los métodos de ocultación anteriormente descritos se ha encontrado que la relación de energía anteriormente definida puede en muchos casos ser un indicador demasiado insensible. En particular en señales reales y especialmente en música hay casos donde de repente surge un tono a alguna frecuencia mientras algún otro tono a alguna otra frecuencia se detiene de repente. Analizando una trama de señal con la relación de energía anteriormente definida llevaría en cualquier caso a una detección errónea resultado de al menos uno de los tonos ya que el indicador es insensible a diferentes frecuencias.
Una solución a este problema se describe en la siguiente realización. La detección de transitorios se hace ahora en el plano de tiempo de la frecuencia. La trama de análisis se divide de nuevo en una trama parcial izquierda y derecha, 110. Aunque ahora, estas dos tramas parciales son (después de una adecuada aplicación de ventana por ejemplo con una ventana de Hamming, 111) transformadas al dominio de la frecuencia, por ejemplo mediante una DFT 112 de Npart puntos.
Figure imgf000010_0004
Ahora la detección de transitorios se puede hacer selectivamente en frecuencia para cada contenedor DFT con índice m. Usando las potencias de los espectros de magnitud trama parcial izquierda y derecha, para cada índice m de la DFT se puede calcular una relación de energía respectiva 113 como
Figure imgf000010_0003
Los experimentos muestran que la detección de transitorios selectivos en frecuencia con resolución de contenedores DFT es relativamente imprecisa debido a fluctuaciones estadísticas (errores de estimación). Se ha encontrado que la calidad de la operación se mejora bastante cuando se hace la detección de transitorios selectivos en frecuencia en forma de bandas de frecuencia. Supongamos que lk = [mk-1 + 1, ..., mk] especifica el intervalo kth' k = 1...K, que abarca los contenedores DFT desde mk-1 + 1 hasta mk, entonces estos intervalos definen K bandas de frecuencia. La detección de transitorios selectiva en grupos de frecuencia puede ahora estar basada en la relación a modo de banda entre las respectivas energías de banda de las tramas parciales izquierda y derecha.
Figure imgf000011_0001
E m e /* Oizda ( m ) \ 2
ZjTie/jj. I^dcha (íT l) j2
Es preciso señalar que el intervalo Ik = [mk-i 1, mk] corresponde a la banda de frecuencia
Figure imgf000011_0002
donde fs denota la frecuencia de muestreo de audio.
El límite de banda de frecuencia inferior más bajo m0 puede ser fijado a 0 pero puede también ser fijado a un índice DFT correspondiente a una frecuencia mayor a fin de mitigar los errores de estimación que aumentan con frecuencias 1 N 1 pare
menores. El límite de banda de frecuencia superior más alto se puede fijar a 2 p e ro s e e |¡ge preferiblemente para corresponder a alguna frecuencia más baja en la que un transitorio aún tenga un efecto audible importante. Una elección adecuada para estos tamaños o anchuras de bandas de frecuencia es hacerlos de igual tamaño con por ejemplo una anchura de varios 100 Hz. Otra opción preferible es hacer que las anchuras de las bandas de frecuencia sigan el tamaño de las bandas auditivas humanas críticas, esto es, relacionarlas a la resolución de frecuencia del sistema auditivo. Esto significa hacer aproximadamente las anchuras de banda iguales para frecuencias de hasta 1 kHz y aumentarlas exponencialmente por encima de 1 kHz. El aumento exponencial significa por ejemplo doblar el ancho de banda de frecuencia cuando se incrementa el índice de banda k.
Como se describió en la primera realización del detector de transitorios que se basó en una relación de energía de dos tramas parciales, cualquiera de las relaciones relacionadas a energías de banda o energías de contenedores DFT de dos tramas parciales son comparadas con ciertos umbrales. Se han usado un umbral superior respectivo 115 para la detección del cese (selectivo en frecuencia) y un umbral inferior respectivo 117 para la detección del inicio (selectivo en frecuencia).
Un indicador dependiente adicional de la señal de audio que es adecuado para una adaptación del método de ocultación de pérdida de trama puede estar basado en los parámetros de códec transmitidos al decodificador. Por ejemplo, el códec puede ser un códec multi-modo como el ITU-T G.718. Tal códec puede usar modos de códec concretos para diferentes tipos de señal y un cambio del modo de códec en una trama poco tiempo antes de que la pérdida de trama pueda ser considerada como un indicador de un transitorio.
Otro indicador útil para la adaptación de la ocultación de la pérdida de trama es un parámetro de códec relacionado con la propiedad de sonorización y la señal transmitida. La sonorización se relaciona con voz muy periódica que se genera por una excitación periódica glotal del tracto vocal humano.
Un indicador adicional es si el contenido de la señal se estima que es música o voz. Tal indicador se puede obtener a partir de un clasificador de señal que puede ser normalmente parte del códec. En caso de que el códec realice tal clasificación y tome una decisión de clasificación correspondiente disponible como un parámetro de codificación para el decodificador, este parámetro es preferiblemente usado como un indicador de contenido de señal para ser usado para adaptar el método de ocultación de pérdida de trama.
Otro indicador que es preferiblemente usado para la adaptación del método de ocultación de pérdida de trama es la explosividad de las pérdidas de trama. La explosividad de las pérdidas de trama significa que ocurran varias pérdidas de trama en una fila, haciendo difícil para el método de ocultación de pérdida de trama usar partes de señal recientemente decodificadas válidas para su operación. Un indicador del estado de la técnica es el número nrafaga de pérdidas de trama observadas en una fila. Este contador se incrementa una vez con cada pérdida de trama y se reinicia a cero una vez se recibe una trama válida. Este indicador se usa también en el contexto de las presentes realizaciones ejemplares de la invención.
Adaptación del método de ocultación de pérdida de trama
En el caso de que los pasos llevados a cabo anteriormente indiquen una condición que sugiera una adaptación de la operación de ocultación de pérdida de trama se modifica el cálculo del espectro de la trama de sustitución.
Mientras el cálculo original del espectro de la trama de sustitución se hace según la expresión Z(m) = Y(m) ■ ej0k ahora se introduce una adaptación que modifica tanto la magnitud como la fase. La magnitud se modifica mediante el escalado con dos factores a(m) y P(m) y se modifica la fase con un componente de fase adicional 0 (m) . Esto lleva al siguiente cálculo modificado de la trama de sustitución:
Cabe señalar que los métodos de ocultación de pérdida de trama originales (no adaptados) se usan si a(m) = 1, p(m) = 1, and 3(m) = 0 . Estos respectivos valores son por lo tanto los de por defecto.
El objetivo general al introducir adaptaciones de magnitud es evitar defectos audibles del método de ocultación de pérdida de trama. Tales defectos pueden ser sonidos musicales o tonales o extraños sonidos que se generan de las repeticiones de sonidos transitorios. Tales defectos llevarían a su vez a degradaciones de calidad, cuya prevención es el objetivo de las adaptaciones descritas. Una forma adecuada para tales adaptaciones es modificar el espectro de magnitud de la trama de sustitución a un grado adecuado.
La Figura 12 muestra una modificación de la realización del método de ocultación. La adaptación de magnitud, 123, se hace preferiblemente si el contador nráfaga de pérdida de ráfaga excede algún umbral thrrafaga, 121, por ejemplo thrrafaga = 3. En este caso un valor menor que 1 se usa para el factor de atenuación, por ejemplo a(m) = 0.1.
No obstante se ha encontrado que es beneficioso realizar la atenuación con un grado que aumente gradualmente. Una realización preferida que cumple esto es definir un parámetro logarítmico que especifique un aumento logarítmico en la atenuación por trama, att_per_frame ("at_por_trama"). Entonces, en caso de que el contador de ráfaga exceda el umbral el factor de atenuación que aumenta gradualmente se calcula como:
Figure imgf000012_0001
Aquí la constante c es una mera constante de escalado que permite especificar el parámetro at_por_trama por ejemplo en decibelios (dB).
Una adaptación adicional preferida se hace en respuesta al indicador si se estima que la señal es música o voz. Para contenido de música en comparación con contenido de voz es preferible aumentar el umbral thrrafaga y disminuir la atenuación por trama. Esto es equivalente a realizar la adaptación del método de ocultación de pérdida de trama con un menor grado. El trasfondo de este tipo de adaptación es que la música es generalmente menos sensible a mayores ráfagas de pérdidas que la voz. Por lo tanto, el original, esto es el método de ocultación de pérdida de trama no modificado es preferible aún para este caso, al menos para un mayor número de pérdidas de trama en una fila.
Una adaptación adicional del método de ocultación en lo referente al factor de atenuación de magnitud se hace preferiblemente en caso de que se haya detectado un transitorio basado en que el indicador R¡/d, banda(k) o de manera alternativa Ri/d (m) o Ri/d han superado un umbral, 122. En ese caso una acción de adaptación adecuada, 125, es modificar el segundo factor de atenuación de magnitud p(m) de tal modo que la atenuación total sea controlada por el producto de los dos factores a(m) • p(m).
p(m) se fija en respuesta a un transitorio indicado. En caso de que se detecte un cese el factor p(m) se elige preferiblemente para reflejar la disminución de energía del cese . Una elección adecuada es fijar p(m) al cambio de ganancia detectado:
Figure imgf000012_0002
En caso de que se detecte un inicio se ha encontrado ventajoso en su lugar limitar el incremento de energía en la trama de sustitución. En ese caso el factor se puede fijar a algún valor fijo de por ejemplo 1, que significa que no hay atenuación pero tampoco ninguna amplificación.
Cabe señalar de lo anterior que el factor de atenuación de magnitud se aplica preferiblemente de manera selectiva en frecuencia, esto es con factores calculados individualmente para cada banda de frecuencia. En caso de que el enfoque de banda no se use, los factores de atenuación de magnitud correspondientes se pueden obtener aún de manera analógica. p(m) puede entonces ser fijado individualmente para cada contenedor DFT en caso de que se use detección de transitorio selectiva en frecuencia sobre el nivel de contenedor DFT. O, en caso de que no se use indicación de transitorio selectiva en frecuencia en absoluto p(m) puede ser globalmente idéntico para todo m.
Una adaptación preferida adicional del factor de atenuación de magnitud se hace en combinación con una modificación de la fase mediante el componente 127 de fase adicional 3(m). En el caso de que se use tal modificación de fase para una m dada , el factor de atenuación p(m) se reduce incluso más. Preferiblemente, incluso el grado de modificación de fase se tiene en cuenta. Si la modificación de fase es sólo moderada, p(m) sólo se escala ligeramente hacia abajo, mientras que si la modificación de fase es fuerte, se escala hacia abajo en un grado mayor.
El objetivo general al introducir la adaptación de fase es evitar tonalidades demasiado fuertes o periodicidad de señal en las tramas de sustitución generadas, lo que a su vez llevaría a degradaciones de calidad. Una forma adecuada para tales adaptaciones es aleatorizar o hacer oscilar la fase a un grado adecuado
Tal oscilación de fase se logra si el componente de fase adicional 3(m) se fija a un valor aleatorio escalado con algún factor de control; 3(m) = a(m) • aleat(^).
El valor aleatorio obtenido por la función aleat(^) es por ejemplo generado por algún generador de números pseudoaleatorios. Se asume aquí que esto proporciona un número aleatorio en el intervalo [0, 2n].
El factor de escalado a(m) en la ecuación anterior controla el grado por el que la fase original 0k es hecha oscilar. Las siguientes realizaciones abordan la adaptación de fase mediante el control de este factor de escalado. El control del factor de escalado se hace de forma análoga con el control de los factores de modificación de magnitud descritos anteriormente.
Según una primera realización el factor de escalado a(m) se adapta en respuesta al contador de pérdida de ráfaga. Si el contador de pérdida de ráfaga nrafaga excede algún umbral thrrafaga, por ejemplo thrrafaga = 3, se usa un valor mayor que 0, por ejemplo a(m) = 0,2.
No obstante se ha encontrado que es beneficioso realizar la oscilación con un aumento gradual de grado. Una realización preferida que logra esto es definir un parámetro que especifique un aumento en la oscilación por trama, dith_increase_per_frame ("oscilac_incr_ por_trama"). Entonces en caso de que el contador de ráfaga exceda el umbral el factor de control de oscilación que aumenta gradualmente se calcula por:
f lfrO = o s ^ a c -c r Fortrara
Figure imgf000013_0001
Cabe destacar en la fórmula anterior que a(m) tiene que limitarse a un valor máximo de 1 para el que se alcanza la oscilación completa de fase.
Cabe destacar que el valor de umbral de pérdida de ráfaga thrrafaga usado para iniciar la oscilación de la fase puede ser el mismo umbral que el usado para la atenuación de magnitud. Sin embargo, se puede obtener mejor calidad fijando estos umbrales a valores individualmente óptimos, lo que generalmente significa que estos umbrales pueden ser diferentes.
Una adaptación preferida adicional se hace en respuesta al indicador si la señal es estimada como música o voz. Para contenido de música en comparación con contenido de voz es preferible aumentar el umbral thrrafaga que significa que la oscilación de fase para música en comparación con la voz se hace sólo en caso de más tramas perdidas en una fila. Esto es equivalente a realizar la adaptación del método de ocultación de pérdida de trama para música con un grado inferior . El trasfondo de este tipo de adaptación es que la música es generalmente menos sensible a ráfagas de pérdidas más largas que la voz. Por lo tanto, el método original, esto es, el método de ocultación de pérdida de trama no modificado es aún preferible para este caso, al menos para un mayor número de pérdidas de trama en una fila.
Una realización preferida adicional es adaptar la oscilación de fase en respuesta a un transitorio detectado. En ese caso un grado más fuerte de oscilación de fase se puede usar para los m contenedores DFT para los que se indica un transitorio o bien para ese contenedor, los contenedores DFT de la correspondiente banda de frecuencia o bien de la trama entera
Parte de los esquemas descritos abordan la optimización del método de ocultación de pérdida de trama para señales armónicas y particularmente para la voz sonorizada.
En caso de que los métodos que usan una estimación de frecuencia mejorada como se ha descrito anteriormente no se den cuenta otra posibilidad de adaptación para el método de ocultación de pérdida de trama que optimiza la calidad para señales de voz sonorizadas es cambiar a algún otro método de ocultación de pérdida de trama que específicamente esté diseñado y optimizado para voz en lugar de para señales de audio generales que contengan música y voz. En ese caso, el indicador de que la señal comprende una señal de voz sonorizada se usa para seleccionar otro esquema de ocultación de pérdida de trama optimizado para voz en lugar de los esquemas descritos anteriormente.
Las realizaciones se aplican a un controlador de un decodificador, como se muestra en la Figura 13. La Figura 13 es un diagrama de bloques esquemático de un decodificador según las realizaciones . El decodificador 130 comprende una unidad de entrada 132 configurada para recibir una señal de audio codificada. La figura muestra la ocultación de pérdida de trama por una unidad 134 de ocultación de pérdida de trama lógica , lo que indica que el decodificador se configura para implementar una ocultación de una trama de audio perdida, según las realizaciones descritas anteriormente. Además el decodificador comprende un controlador 136 para implementar las realizaciones descritas anteriormente. El controlador 136 se configura para detectar las condiciones en las propiedades de la señal de audio previamente recibida y reconstruida o en las propiedades estadísticas de las pérdidas observadas de trama para las que la sustitución de una trama perdida según los métodos descritos proporciona una calidad relativamente reducida. En caso de que se detecte tal condición , el controlador 136 se configura para modificar el elemento de los métodos de ocultación según el cual el espectro de la trama de sustitución se calcula por Z(m) = Y(m) ■ ej0k ajustando selectivamente las fases o las magnitudes de espectro. La detección se puede realizar por una unidad detectora 146 y la modificación se puede realizar por una unidad modificadora 148 como se muestra en la Figura 14.
El decodificador con sus unidades incluidas se podría implementar en hardware. Hay numerosas variantes de elementos de circuito que se pueden usar y combinar para alcanzar las funciones de las unidades del decodificador. Tales variantes son abarcadas por las realizaciones. Ejemplos particulares de implementación en hardware del decodificador es la implementación en hardware y tecnología de circuito integrado del procesador digital de señal (DSP), que incluye tanto circuitos electrónicos de propósito general como circuitos de aplicación específica.
El decodificador 150 aquí descrito podría ser implementado alternativamente por ejemplo como se muestra en la Figura 15, esto es por uno o más de un procesador 154 y software adecuado 155 con almacenamiento o memoria adecuado 156 por tanto, a fin de reconstruir la señal digital, lo que incluye realizar ocultación de pérdida de trama según las realizaciones aquí descritas, como se muestra en la Figura 13. La señal de audio codificado entrante se recibe por una entrada (ENTRADA) 152, a la que el procesador 154 y la memoria 156 están conectados. La señal de audio decodificada y reconstruida obtenida del software se saca por la salida (SALIDA) 158.
La tecnología descrita anteriormente se puede usar por ejemplo en un receptor, el cual se puede usar en un dispositivo móvil (por ejemplo teléfono móvil, portátil) o en un dispositivo fijo tal como un ordenador personal.
Debe entenderse que la elección de unidades o módulos que interactúan, así como los nombres de las unidades son sólo con propósito ejemplar , y puede ser configurado en una pluralidad de formas alternativas a fin de poder ejecutar las acciones de proceso expuestas.
Debería también destacarse que las unidades o módulos descritos en esta descripción han de considerarse como entidades lógicas y no necesariamente como entidades físicas separadas. Se apreciará que el alcance de la tecnología aquí descrita abarca completamente otras realizaciones que puedan resultar obvias para aquellos expertos en la técnica, y que el alcance de esta descripción por consiguiente no se ha de limitar.
La referencia a un elemento en singular no está dirigida a significar “uno y sólo uno” a menos que explícitamente así sea declarado, sino más bien “uno o más”. Por otra parte no es necesario que un dispositivo o método abarque todos y cada uno de los problemas tratados de resolver por la tecnología aquí descrita, para que puedan ser abarcados por la presente.
En la descripción anterior, con propósito de explicación y no de limitación se han descrito detalles específicos tales como arquitecturas particulares, interfaces, técnicas, etc., a fin de proporcionar una compresión completa de la tecnología descrita. No obstante, será evidente para los expertos en la técnica que la tecnología descrita se puede poner en práctica en otras realizaciones y o combinaciones de realizaciones que partan de estos detalles específicos. Es decir , los expertos en la técnica serán capaces de diseñar varias disposiciones que, aunque no explícitamente descritas o mostradas aquí, encarnan los principios de la tecnología descrita. En algunas ocasiones, descripciones detalladas de dispositivos, circuitos, y métodos bien conocidos se omiten a fin de no oscurecer la descripción de la tecnología descrita con detalles innecesarios. Todas las afirmaciones que aquí recitan principios, aspectos, y realizaciones de la tecnología descrita, así como sus ejemplos específicos, se destinan a abarcar tanto equivalentes estructurales como funcionales de los mismos. Además, se pretende que tales equivalentes incluyan tanto equivalentes actualmente conocidos así como equivalentes desarrollados en el futuro, por ejemplo, cualesquiera elementos desarrollados que realicen la misma función, independientemente de la estructura.
Así, por ejemplo, se apreciará por los expertos en la técnica que las figuras de este documento pueden representar vistas conceptuales de circuitos ilustrativos u otras unidades funcionales que realizan los principios de la tecnología, y o varios procesos que se pueden representar sustancialmente en un medio legible por ordenador y ser ejecutados por un ordenador o procesador, incluso aunque tal ordenador o procesador pueda no haberse mostrado explícitamente en las figuras.
Las funciones de los diversos elementos, que incluyen bloques funcionales se pueden proporcionar mediante el uso de hardware tal como hardware de circuito y/o hardware capaz de ejecutar software en forma de instrucciones codificadas almacenadas en un medio legible por ordenador. Así, tales funciones y bloques funcionales mostrados se han de entender como que son o bien implementados por hardware y/o implementados por ordenador, y por tanto implementados por máquina.
Las realizaciones descritas anteriormente han de ser entendidas como unos pocos ejemplos ilustrativos de la presente invención. Se entenderá por aquellos expertos en la técnica que se pueden hacer varias modificaciones, combinaciones y cambios a las realizaciones sin salir del alcance de la presente invención. En particular, soluciones parciales diferentes en las diferentes realizaciones se pueden combinar en otras configuraciones, donde técnicamente sean posibles.

Claims (16)

REIVINDICACIONES
1. Un método para la adaptación de un método de ocultación de pérdida de trama en la decodificación de audio, comprendiendo el método :
- detectar (101, 122) un transitorio en una señal de audio previamente recibida y reconstruida;
- modificar (102, 125) el método de ocultación de pérdida de trama mediante el ajuste selectivo de una magnitud del espectro de un espectro de una trama de sustitución en respuesta a un transitorio detectado;
- detectar (101, 121) adicionalmente una pérdida de ráfaga con varias pérdidas de tramas consecutivas; y
- modificar (102, 123) adicionalmente el método de ocultación de pérdida de trama mediante el ajuste selectivo de la magnitud del espectro del espectro de la trama de sustitución en respuesta a la pérdida de ráfaga detectada.
2. El método según la reivindicación 1, en donde el método de ocultación de pérdida de trama comprende:
- extraer un segmento de una señal de audio previamente recibida o reconstruida, en donde dicho segmento se usa como una trama prototipo;
- aplicar un modelo sinusoidal a la trama prototipo para obtener frecuencias sinusoidales del modelo sinusoidal; y - hacer evolucionar en el tiempo las sinusoides obtenidas para crear la trama de sustitución.
3. El método según a la reivindicación 2, en donde la evolución en el tiempo comprende avanzar la fase de los coeficientes espectrales relacionados a las sinusoides obtenidas (k) en 0k y en donde el cálculo del espectro de la trama de sustitución se realiza según la expresión Z(m) = Y(m) ■ ej0k, en la que Y(m) es una representación en el dominio de la frecuencia de la trama prototipo.
4. El método según cualquiera de las reivindicaciones 1 a 3, en donde el transitorio comprende un cese.
5. El método según cualquiera de las reivindicaciones 1 a 4, en donde la detección de transitorio se realiza selectivamente en frecuencia en forma de banda de frecuencia.
6. El método según la reivindicación 5, en donde el ajuste selectivo de la magnitud del espectro de la trama de sustitución se realiza selectivamente en banda de frecuencia en respuesta a un transitorio detectado en la banda de frecuencia.
7. El método según la reivindicación 1, en donde la magnitud del espectro se ajusta en respuesta a la pérdida de ráfaga detectada realizando la atenuación con un grado gradualmente creciente.
8. El método según cualquiera de las reivindicaciones precedentes, en donde el método de ocultación de pérdida de trama se modifica además mediante el ajuste selectivo de una fase del espectro de la trama de sustitución.
9. El método según la reivindicación 8, en donde la fase de la trama de sustitución se ajusta si un número de las tramas perdidas excede un umbral determinado.
10. El método según la reivindicación 8 o 9, en donde ajustar la fase del espectro de la trama de sustitución comprende aleatorizar o hacer oscilar el espectro de fase.
11. El método según la reivindicación 10, en donde el espectro de fase se ajusta mediante la realización de la oscilación con un grado gradualmente creciente.
12. Un aparato para la adaptación de un método de ocultación de pérdida de trama en la decodificación de audio que comprende:
- medios para detectar un transitorio en una señal de audio previamente recibida y reconstruida;
- medios para modificar el método de ocultación de pérdida de trama en respuesta al transitorio detectado mediante el ajuste selectivo de una magnitud del espectro de un espectro de una trama de sustitución;
- medios para detectar una pérdida de ráfaga con varias pérdidas de tramas consecutivas; y
- medios para modificar adicionalmente el método de ocultación de pérdida de trama en respuesta a la pérdida de ráfaga detectada mediante el ajuste selectivo de la magnitud del espectro del espectro de la trama de sustitución.
13. El aparato según la reivindicación 12, que además comprende medios para realizar el método de una cualquiera de las reivindicaciones 2 a 11.
14. El aparato según la reivindicación 12 o 13, en donde el aparato es un decodificador en un dispositivo móvil.
15. Un programa de ordenador (155) que comprende instrucciones que cuando se ejecutan en un aparato provocan que el aparato lleve a cabo el método según una cualquiera de las reivindicaciones 1 a 11.
16. Un producto de programa de ordenador (156), que comprende un medio legible por un ordenador y un programa de ordenador (155) según la reivindicación 15 almacenado en el medio legible por el ordenador.
ES19178384T 2013-02-05 2014-01-22 Método y aparato para controlar la ocultación de pérdida de trama de audio Active ES2881510T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361760814P 2013-02-05 2013-02-05
US201361760822P 2013-02-05 2013-02-05
US201361761051P 2013-02-05 2013-02-05

Publications (1)

Publication Number Publication Date
ES2881510T3 true ES2881510T3 (es) 2021-11-29

Family

ID=50114514

Family Applications (4)

Application Number Title Priority Date Filing Date
ES16183917T Active ES2750783T3 (es) 2013-02-05 2014-01-22 Procedimiento y aparato para controlar la ocultación de pérdida de trama de audio
ES21162222T Active ES2964807T3 (es) 2013-02-05 2014-01-22 Procedimiento y aparato para controlar la ocultación de la pérdida de tramas de audio
ES19178384T Active ES2881510T3 (es) 2013-02-05 2014-01-22 Método y aparato para controlar la ocultación de pérdida de trama de audio
ES14704935.7T Active ES2603827T3 (es) 2013-02-05 2014-01-22 Método y aparato para controlar la ocultación de pérdida de trama de audio

Family Applications Before (2)

Application Number Title Priority Date Filing Date
ES16183917T Active ES2750783T3 (es) 2013-02-05 2014-01-22 Procedimiento y aparato para controlar la ocultación de pérdida de trama de audio
ES21162222T Active ES2964807T3 (es) 2013-02-05 2014-01-22 Procedimiento y aparato para controlar la ocultación de la pérdida de tramas de audio

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES14704935.7T Active ES2603827T3 (es) 2013-02-05 2014-01-22 Método y aparato para controlar la ocultación de pérdida de trama de audio

Country Status (21)

Country Link
US (6) US9293144B2 (es)
EP (5) EP4322159A3 (es)
JP (3) JP6069526B2 (es)
KR (4) KR102349025B1 (es)
CN (3) CN104969290B (es)
AU (5) AU2014215734B2 (es)
BR (1) BR112015018316B1 (es)
CA (2) CA2978416C (es)
DK (2) DK3561808T3 (es)
ES (4) ES2750783T3 (es)
HK (2) HK1210315A1 (es)
MX (3) MX344550B (es)
MY (1) MY170368A (es)
NZ (2) NZ710308A (es)
PH (3) PH12015501507B1 (es)
PL (2) PL3125239T3 (es)
PT (2) PT3125239T (es)
RU (3) RU2628144C2 (es)
SG (3) SG10202106262SA (es)
WO (1) WO2014123471A1 (es)
ZA (1) ZA201504881B (es)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112015017222B1 (pt) 2013-02-05 2021-04-06 Telefonaktiebolaget Lm Ericsson (Publ) Método e decodificador configurado para ocultar um quadro de áudio perdido de um sinal de áudio recebido, receptor, e, meio legível por computador
US9478221B2 (en) 2013-02-05 2016-10-25 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced audio frame loss concealment
NO2780522T3 (es) * 2014-05-15 2018-06-09
EP3367380B1 (en) 2014-06-13 2020-01-22 Telefonaktiebolaget LM Ericsson (publ) Burst frame error handling
US10373608B2 (en) 2015-10-22 2019-08-06 Texas Instruments Incorporated Time-based frequency tuning of analog-to-information feature extraction
MX2018010756A (es) * 2016-03-07 2019-01-14 Fraunhofer Ges Forschung Unidad de ocultamiento de error, decodificador de audio, y método relacionado y programa de computadora que usa características de una representación decodificada de una trama de audio decodificada apropiadamente.
KR102250472B1 (ko) * 2016-03-07 2021-05-12 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 하이브리드 은닉 방법: 오디오 코덱들에서 주파수 및 시간 도메인 패킷 손실 은닉의 결합
ES2874629T3 (es) * 2016-03-07 2021-11-05 Fraunhofer Ges Forschung Unidad de ocultación de error, decodificador de audio y método y programa informático relacionados que desvanecen una trama de audio ocultada según factores de amortiguamiento diferentes para bandas de frecuencia diferentes
CN108922551B (zh) * 2017-05-16 2021-02-05 博通集成电路(上海)股份有限公司 用于补偿丢失帧的电路及方法
US20190074805A1 (en) * 2017-09-07 2019-03-07 Cirrus Logic International Semiconductor Ltd. Transient Detection for Speaker Distortion Reduction
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483878A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3899929A1 (en) * 2018-12-20 2021-10-27 Telefonaktiebolaget LM Ericsson (publ) Method and apparatus for controlling multichannel audio frame loss concealment
CN111402904B (zh) * 2018-12-28 2023-12-01 南京中感微电子有限公司 音频数据恢复方法、装置及蓝牙设备
CN109887515B (zh) * 2019-01-29 2021-07-09 北京市商汤科技开发有限公司 音频处理方法及装置、电子设备和存储介质
WO2020169754A1 (en) * 2019-02-21 2020-08-27 Telefonaktiebolaget Lm Ericsson (Publ) Methods for phase ecu f0 interpolation split and related controller
SG11202110071XA (en) * 2019-03-25 2021-10-28 Razer Asia Pacific Pte Ltd Method and apparatus for using incremental search sequence in audio error concealment
BR112021021928A2 (pt) * 2019-06-13 2021-12-21 Ericsson Telefon Ab L M Método para gerar um subquadro de áudio de ocultação, dispositivo decodificador, programa de computador, e, produto de programa de computador
CN111883173B (zh) * 2020-03-20 2023-09-12 珠海市杰理科技股份有限公司 基于神经网络的音频丢包修复方法、设备和系统
EP4252227A1 (en) 2020-11-26 2023-10-04 Telefonaktiebolaget LM Ericsson (publ) Noise suppression logic in error concealment unit using noise-to-signal ratio

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06130999A (ja) * 1992-10-22 1994-05-13 Oki Electric Ind Co Ltd コード励振線形予測復号化装置
JP3617503B2 (ja) * 1996-10-18 2005-02-09 三菱電機株式会社 音声復号化方法
EP0907258B1 (en) * 1997-10-03 2007-01-03 Matsushita Electric Industrial Co., Ltd. Audio signal compression, speech signal compression and speech recognition
JP3567750B2 (ja) * 1998-08-10 2004-09-22 株式会社日立製作所 圧縮音声再生方法及び圧縮音声再生装置
US6888844B2 (en) * 2000-04-07 2005-05-03 Broadcom Corporation Method for selecting an operating mode for a frame-based communications network
US6996521B2 (en) * 2000-10-04 2006-02-07 The University Of Miami Auxiliary channel masking in an audio signal
JP2002229593A (ja) * 2001-02-06 2002-08-16 Matsushita Electric Ind Co Ltd 音声信号復号化処理方法
EP1367564A4 (en) * 2001-03-06 2005-08-10 Ntt Docomo Inc METHOD AND DEVICE FOR INTERPOLATING SOUND DATA, METHOD AND DEVICE FOR CREATING INFORMATION RELATING TO SOUND DATA, METHOD AND DEVICE FOR TRANSMITTING SOUND DATA INTERPOLATION INFORMATION, AND PROGRAM AND RECORDING MEDIUM THEREOF
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
JP4215448B2 (ja) * 2002-04-19 2009-01-28 日本電気株式会社 音声復号装置及び音声復号方法
US20040122680A1 (en) * 2002-12-18 2004-06-24 Mcgowan James William Method and apparatus for providing coder independent packet replacement
US6985856B2 (en) * 2002-12-31 2006-01-10 Nokia Corporation Method and device for compressed-domain packet loss concealment
EP1589330B1 (en) * 2003-01-30 2009-04-22 Fujitsu Limited Audio packet vanishment concealing device, audio packet vanishment concealing method, reception terminal, and audio communication system
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
KR20060011854A (ko) * 2003-05-14 2006-02-03 오끼 덴끼 고오교 가부시끼가이샤 소거된 주기 신호 데이터를 은닉하는 장치 및 방법
KR101058062B1 (ko) * 2003-06-30 2011-08-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 잡음 부가에 의한 디코딩된 오디오의 품질 개선
US7596488B2 (en) * 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
US7324937B2 (en) * 2003-10-24 2008-01-29 Broadcom Corporation Method for packet loss and/or frame erasure concealment in a voice communication system
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
JP4744438B2 (ja) * 2004-03-05 2011-08-10 パナソニック株式会社 エラー隠蔽装置およびエラー隠蔽方法
US8725501B2 (en) * 2004-07-20 2014-05-13 Panasonic Corporation Audio decoding device and compensation frame generation method
US7930184B2 (en) * 2004-08-04 2011-04-19 Dts, Inc. Multi-channel audio coding/decoding of random access points and transients
US7734381B2 (en) * 2004-12-13 2010-06-08 Innovive, Inc. Controller for regulating airflow in rodent containment system
BRPI0607251A2 (pt) * 2005-01-31 2017-06-13 Sonorit Aps método para concatenar um primeiro quadro de amostras e um segundo quadro subseqüente de amostras, código de programa executável por computador, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
US8620644B2 (en) * 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
US7457746B2 (en) * 2006-03-20 2008-11-25 Mindspeed Technologies, Inc. Pitch prediction for packet loss concealment
US8358704B2 (en) * 2006-04-04 2013-01-22 Qualcomm Incorporated Frame level multimedia decoding with frame information table
WO2008022181A2 (en) 2006-08-15 2008-02-21 Broadcom Corporation Updating of decoder states after packet loss concealment
JP2008058667A (ja) * 2006-08-31 2008-03-13 Sony Corp 信号処理装置および方法、記録媒体、並びにプログラム
FR2907586A1 (fr) * 2006-10-20 2008-04-25 France Telecom Synthese de blocs perdus d'un signal audionumerique,avec correction de periode de pitch.
EP4325723A3 (en) * 2006-10-25 2024-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating time-domain audio samples
US7991612B2 (en) * 2006-11-09 2011-08-02 Sony Computer Entertainment Inc. Low complexity no delay reconstruction of missing packets for LPC decoder
WO2008056775A1 (fr) 2006-11-10 2008-05-15 Panasonic Corporation Dispositif de décodage de paramètre, dispositif de codage de paramètre et procédé de décodage de paramètre
RU2459283C2 (ru) * 2007-03-02 2012-08-20 Панасоник Корпорэйшн Кодирующее устройство, декодирующее устройство и способ
US20090198500A1 (en) * 2007-08-24 2009-08-06 Qualcomm Incorporated Temporal masking in audio coding based on spectral dynamics in frequency sub-bands
CN100550712C (zh) * 2007-11-05 2009-10-14 华为技术有限公司 一种信号处理方法和处理装置
CN101207665B (zh) * 2007-11-05 2010-12-08 华为技术有限公司 一种衰减因子的获取方法
CN101261833B (zh) * 2008-01-24 2011-04-27 清华大学 一种使用正弦模型进行音频错误隐藏处理的方法
CN101308660B (zh) * 2008-07-07 2011-07-20 浙江大学 一种音频压缩流的解码端错误恢复方法
CN102222505B (zh) 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
CN103688306B (zh) 2011-05-16 2017-05-17 谷歌公司 对被编码为连续帧序列的音频信号进行解码的方法和装置

Also Published As

Publication number Publication date
EP3855430B1 (en) 2023-10-18
EP4322159A2 (en) 2024-02-14
ES2750783T3 (es) 2020-03-27
EP3561808A1 (en) 2019-10-30
US9293144B2 (en) 2016-03-22
AU2020200577A1 (en) 2020-02-13
SG10201700846UA (en) 2017-03-30
WO2014123471A1 (en) 2014-08-14
AU2018203449B2 (en) 2020-01-02
US10559314B2 (en) 2020-02-11
RU2628144C2 (ru) 2017-08-15
PH12018500083A1 (en) 2019-06-10
SG11201505231VA (en) 2015-08-28
PH12015501507A1 (en) 2015-09-28
AU2021212049B2 (en) 2023-02-16
RU2017124644A (ru) 2019-01-30
US20150228287A1 (en) 2015-08-13
PH12018500600B1 (en) 2019-06-10
MX344550B (es) 2016-12-20
US20160155446A1 (en) 2016-06-02
US20220375480A1 (en) 2022-11-24
NZ739387A (en) 2020-03-27
PT3125239T (pt) 2019-09-12
US20170287494A1 (en) 2017-10-05
JP6698792B2 (ja) 2020-05-27
CN108831490A (zh) 2018-11-16
EP4322159A3 (en) 2024-04-17
KR102349025B1 (ko) 2022-01-07
AU2016225836A1 (en) 2016-10-06
JP6440674B2 (ja) 2018-12-19
CA2978416A1 (en) 2014-08-14
AU2021212049A1 (en) 2021-08-26
ES2964807T3 (es) 2024-04-09
JP2019061254A (ja) 2019-04-18
CA2900354A1 (en) 2014-08-14
BR112015018316A2 (pt) 2017-07-18
RU2020122689A3 (es) 2022-01-10
CN108831490B (zh) 2023-05-02
MX2021000353A (es) 2023-02-24
US10332528B2 (en) 2019-06-25
ZA201504881B (en) 2016-12-21
JP2016510432A (ja) 2016-04-07
AU2014215734A1 (en) 2015-08-06
PH12015501507B1 (en) 2015-09-28
EP3561808B1 (en) 2021-03-31
AU2016225836B2 (en) 2018-06-21
RU2015137708A (ru) 2017-03-10
KR20150108937A (ko) 2015-09-30
RU2020122689A (ru) 2022-01-10
RU2728832C2 (ru) 2020-07-31
DK3125239T3 (da) 2019-08-19
BR112015018316B1 (pt) 2022-03-08
HK1210315A1 (en) 2016-04-15
KR20200052983A (ko) 2020-05-15
KR102110212B1 (ko) 2020-05-13
JP2017097365A (ja) 2017-06-01
AU2018203449A1 (en) 2018-06-07
EP2954518A1 (en) 2015-12-16
HK1258094A1 (zh) 2019-11-01
RU2017124644A3 (es) 2020-05-27
AU2014215734B2 (en) 2016-08-11
US20190267011A1 (en) 2019-08-29
MX2015009210A (es) 2015-11-25
ES2603827T3 (es) 2017-03-01
CA2900354C (en) 2017-10-24
US11437047B2 (en) 2022-09-06
CN104969290B (zh) 2018-07-31
KR20210041107A (ko) 2021-04-14
EP2954518B1 (en) 2016-08-31
US9721574B2 (en) 2017-08-01
KR102238376B1 (ko) 2021-04-08
NZ710308A (en) 2018-02-23
CN108899038B (zh) 2023-08-29
EP3855430A1 (en) 2021-07-28
CN108899038A (zh) 2018-11-27
CN104969290A (zh) 2015-10-07
PH12018500083B1 (en) 2019-06-10
PL3125239T3 (pl) 2019-12-31
PL3561808T3 (pl) 2021-10-04
PT2954518T (pt) 2016-12-01
PH12018500600A1 (en) 2019-06-10
MY170368A (en) 2019-07-24
KR20160045917A (ko) 2016-04-27
US20200126567A1 (en) 2020-04-23
DK3561808T3 (da) 2021-05-03
AU2020200577B2 (en) 2021-08-05
MX2020001307A (es) 2021-01-12
JP6069526B2 (ja) 2017-02-01
EP3125239B1 (en) 2019-07-17
SG10202106262SA (en) 2021-07-29
EP3855430C0 (en) 2023-10-18
EP3125239A1 (en) 2017-02-01
CA2978416C (en) 2019-06-18

Similar Documents

Publication Publication Date Title
ES2881510T3 (es) Método y aparato para controlar la ocultación de pérdida de trama de audio
US20200118573A1 (en) Burst frame error handling