ES2897478T3 - Gestión de errores de trama de ráfaga - Google Patents

Gestión de errores de trama de ráfaga Download PDF

Info

Publication number
ES2897478T3
ES2897478T3 ES20152601T ES20152601T ES2897478T3 ES 2897478 T3 ES2897478 T3 ES 2897478T3 ES 20152601 T ES20152601 T ES 20152601T ES 20152601 T ES20152601 T ES 20152601T ES 2897478 T3 ES2897478 T3 ES 2897478T3
Authority
ES
Spain
Prior art keywords
frame
spectrum
signal
frequency
noise component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES20152601T
Other languages
English (en)
Inventor
Stefan Bruhn
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of ES2897478T3 publication Critical patent/ES2897478T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Noise Elimination (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Radio Relay Systems (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Communication Control (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuits Of Receivers In General (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un método de ocultación de pérdida de trama para la gestión de error de ráfaga, siendo realizado el método por una entidad receptora, comprendiendo el método: generar un espectro de la trama de sustitución mediante el uso de un método primario de ocultación de pérdida de trama, en donde el espectro de la trama de sustitución se basa en un espectro de una trama de una señal de audio recibida previamente; determinar (S101) un componente de ruido, en donde una frecuencia característica del componente de ruido es una representación espectral de baja resolución de la trama de la señal de audio recibida previamente; determinar (S102) si un número n de tramas pérdidas o erróneas sobrepasa un umbral; si el número n de tramas pérdidas o erróneas no sobrepasa el umbral, añadir (S104, S208) el componente de ruido al espectro de la trama de sustitución; si el número n de tramas pérdidas o erróneas sobrepasa el umbral, aplicar (S103, S206) un factor de atenuación γ al componente de ruido antes de añadir (S104, S208) el componente de ruido al espectro de la trama de sustitución.

Description

DESCRIPCIÓN
Gestión de errores de trama de ráfaga
Campo técnico
Este documento se refiere a la codificación de audio y a la generación de una señal de sustitución en el receptor como un reemplazo para tramas de señal perdidas, borradas o deterioradas en caso de errores de transmisión. La técnica descrita en la presente memoria podría ser parte de un códec y/o de un decodificador, pero también podría implementarse en un módulo de mejora de la señal después de un decodificador. La técnica puede utilizarse con ventaja en un receptor.
Particularmente, las realizaciones presentadas en la presente memoria se refieren a la ocultación de pérdida de trama, y particularmente a un método y a una entidad de recepción para la ocultación de pérdida de trama.
Antecedentes
Muchos sistemas de comunicación modernos transmiten señales de voz y audio en tramas, lo que significa que el lado emisor primero organiza la señal en segmentos o tramas cortas de, por ejemplo, 20-40 ms, que posteriormente se codifican y transmiten como una unidad lógica en, por ejemplo, un paquete de transmisión. El receptor decodifica cada una de estas unidades y reconstruye las tramas de señal correspondientes, que a su vez salen finalmente como una secuencia continua de muestras de señal reconstruidas. Antes de la codificación normalmente hay una conversión de analógico a digital (A/D), que convierte la señal de voz o audio analógica de un micrófono en una secuencia de muestras de audio. En cambio, en el extremo receptor, normalmente hay una conversión final de digital a analógico (D/A) que convierte la secuencia de muestras de señal digital reconstruidas en una señal analógica continua en el tiempo para su reproducción en altavoz.
Casi cualquier tipo de sistema de transmisión para señales de voz y audio puede sin embargo sufrir de errores de transmisión. Esto puede conducir a la situación de que una o varias de las tramas transmitidas no estén disponibles en el receptor para su reconstrucción. En ese caso, el decodificador tiene que generar una señal de sustitución para cada una de las tramas borradas, es decir, no disponibles. Esto es hecho en la llamada unidad de ocultación de error o de pérdida de trama del decodificador de señal del lado receptor. El propósito de la ocultación de pérdida de trama es hacer la pérdida de trama tan inaudible como sea posible y por lo tanto mitigar el impacto de la pérdida de trama en la calidad de la señal reconstruida todo lo posible. Un enfoque ilustrativo para la ocultación de pérdida de trama se describe en el documento US 2012/0010882 A1.
Un método reciente de ocultación de pérdida de trama es el llamado “et al” ‘Phase ECU’. Este es un método que proporciona, particularmente, alta calidad de la señal de audio restaurada después de pérdida de paquete o trama en el caso de que la señal sea una señal de música. Hay también un método de control descrito en una aplicación previa que controla el comportamiento de un método de ocultación de pérdida de trama de tipo Phase ECU en respuesta a, por ejemplo, propiedades (estadísticas) de las pérdidas de trama.
La ruptura de las pérdidas de trama se utiliza como un indicador en el método de control en el que puede adaptarse la respuesta a un método de ocultación de pérdida de trama como Phase ECU. En términos generales, la ruptura de las pérdidas de trama significa que se producen varias pérdidas de trama seguidas, lo que dificulta que el método de ocultación de pérdida de trama utilice partes válidas de la señal decodificada recientemente para su funcionamiento. Más específicamente, un indicador típico de ruptura de pérdida de trama de vanguardia es el número n de pérdidas de trama consecutivas observadas. Este número puede mantenerse en un contador que se incrementa en uno por cada nueva pérdida de trama y que se restablece a cero tras la recepción de una trama válida.
Un método de adaptación específico de un método de ocultación de pérdida de trama como Phase ECU en respuesta a la ruptura de pérdida de trama es el ajuste selectivo de frecuencia de las fases o de las magnitudes de espectro de un espectro de la trama de sustitución Z(m), siendo m un índice de frecuencia de una transformada del dominio de la frecuencia como la Transformada Discreta de Fourier (DFT). La adaptación de la magnitud se hace con un factor de atenuación a(m) que escala el coeficiente de la transformada de la frecuencia al índice m al incrementar el contador de ráfagas de pérdida de trama, n, hasta 0. La adaptación de la fase se realiza mediante el incremento de la aleatorización aditiva de la fase (con un incremento del componente de fase aleatoria -9(m)) del coeficiente de la transformada de la frecuencia al índice m.
Por lo tanto, si el espectro original de la trama de sustitución del Phase ECU sigue una expresión como Z(m) = Y(m) • e Qk, entonces el espectro adaptado de la trama de sustitución sigue una expresión como Z(m) = a(m) • Y(m) • e (Qk+8(m)).
En la presente memoria la fase Qkcon k = 1 ... K es una función del índice m y de los picos espectrales K identificados por el método de Phase ECU, e Y(m) es una representación del dominio de la frecuencia (espectro) de una trama de la señal de audio recibida previamente.
A pesar de las ventajas del método de adaptación descrito anteriormente del Phase ECU en condiciones de pérdida de trama de ráfaga, todavía hay defectos de calidad en el caso de una ráfaga de pérdida muy larga, por ejemplo, cuando n mayor o igual a 5. En ese caso la calidad de la señal de audio reconstruida puede, por ejemplo, sufrir de artefactos tonales, a pesar de la aleatorización de fase realizada. Al mismo tiempo el incremento de la atenuación de magnitud puede reducir estos defectos audibles. Sin embargo, la atenuación de la señal puede ser percibida, para ráfagas largas de pérdida de trama, como silenciamiento o pérdidas de señal. Esto puede afectar de nuevo a la calidad general de, por ejemplo, música o el ruido ambiente de una señal de voz ya que dichas señales son sensibles a variaciones de nivel demasiado fuertes.
Por lo tanto, todavía existe la necesidad para la ocultación de pérdida de trama mejorada.
Compendio
Un objeto de las realizaciones en la presente memoria es proporcionar ocultación de pérdida de trama eficiente. Según un primer aspecto se presenta un método de ocultación de pérdida de trama para la gestión de error de ráfaga según la reivindicación 1.
De manera ventajosa, esto proporciona ocultación de pérdida de trama eficiente.
Según un segundo aspecto se presenta una entidad receptora para la ocultación de pérdida de trama según la reivindicación 3.
Debe señalarse que cualquier característica de los aspectos primero y segundo puede aplicarse a cualquier otro aspecto, donde sea apropiado. Asimismo, cualquier ventaja del primer aspecto puede igualmente aplicar al segundo aspecto, respectivamente, y viceversa. Otros objetivos, características y ventajas de las realizaciones adjuntas serán evidentes a partir de la siguiente descripción detallada, a partir de las reivindicaciones dependientes adjuntas así como de los dibujos.
En general, todos los términos utilizados en las reivindicaciones deben interpretarse según su significado ordinario en el campo técnico, a menos que se defina explícitamente lo contrario en la presente memoria. Todas las referencias a “un/una/el elemento, aparato, componente, medios, paso, etc.” deben interpretarse abiertamente como referentes a al menos una instancia del elemento, aparato, componente, medio, paso, etc., a menos que se indique explícitamente lo contrario. Los pasos de cualquier método descrito en la presente memoria no tienen que realizarse en el orden exacto descrito, a menos que se indique explícitamente.
Breve descripción de los dibujos
El concepto inventivo se describe ahora, a modo de ejemplo, con referencia a los dibujos adjuntos, en los que:
La Figura 1 es un diagrama esquemático que ilustra un sistema de comunicaciones según las realizaciones; La Figura 2 es un diagrama esquemático que muestra las unidades funcionales de una entidad receptora según una realización;
La Figura 3 ilustra esquemáticamente la inserción de la trama de sustitución según una realización;
La Figura 4 es un diagrama esquemático que muestra las unidades funcionales de una entidad receptora según una realización;
Las Figuras 5, 6, y 7 son diagramas de flujo de métodos según las realizaciones;
La Figura 8 es un diagrama esquemático que muestra las unidades funcionales de una entidad receptora según una realización;
La Figura 9 es un diagrama esquemático que muestra los módulos funcionales de una entidad receptora según una realización; y
La Figura 10 muestra un ejemplo de un producto de programa informático que comprende un medio legible por ordenador según una realización.
Descripción detallada
El concepto inventivo se describirá ahora más completamente a continuación con referencia a los dibujos adjuntos, en los que se muestran ciertas realizaciones del concepto inventivo. Este concepto inventivo puede, sin embargo, ser encarnado de muchas formas diferentes y no debe interpretarse como limitado a las realizaciones establecidas en la presente memoria; más bien, estas realizaciones son proporcionadas a modo de ejemplo para que esta descripción sea exhaustiva y completa, y transmitirá completamente el alcance del concepto inventivo a los expertos en la técnica. Los números iguales se refieren a elementos similares en toda la descripción. Cualquier paso o característica ilustrado por líneas discontinuas debe considerarse como opcional.
Como se señaló anteriormente, las realizaciones presentadas en la presente memoria se refieren a la ocultación de pérdida de trama, y particularmente a un método, una entidad receptora, un programa informático, y un producto de programa informático para la ocultación de pérdida de trama.
La Figura 1 ilustra esquemáticamente un sistema de comunicación 100 en el que una entidad transmisora (TX) 101 se comunica con una entidad receptora (RX) 103 sobre un canal 102. Se supone que el canal 102 provoca que las tramas, o paquetes, transmitidos por la entidad TX 101 a la entidad RX 103 se pierdan. La entidad receptora se supone que puede funcionar para decodificar audio, como voz o música, y para comunicarse con otros nodos o entidades, por ejemplo, en el sistema de comunicación 100. La entidad receptora puede ser un códec, un decodificador, un dispositivo inalámbrico y/o un dispositivo estacionario; de hecho podría ser cualquier tipo de unidad en la que es deseable gestionar errores de trama de ráfaga para las señales de audio. Podría ser, por ejemplo, un teléfono inteligente, una tablet, un ordenador o cualquier otro dispositivo capaz de una comunicación cableada y/o inalámbrica y de decodificación de audio. La entidad receptora puede ser llamada, por ejemplo, nodo receptor o disposición receptora.
La Figura 2 ilustra esquemáticamente módulos funcionales de una entidad RX 200 conocida, configurada para gestionar pérdidas de trama. Un flujo de bits entrante es decodificado por el decodificador 201 para formar una señal reconstruida y si una pérdida de trama no es detectada se proporciona esta señal reconstruida como salida de la entidad RX 200. La señal reconstruida generada por el decodificador 201 también se alimenta a un buffer 202 para su almacenamiento temporal. El análisis sinusoidal de la señal de reconstrucción en el buffer es realizado por un analizador sinusoidal 203, y la evolución de fase de la señal de reconstrucción en el buffer es realizada por una unidad de evolución de fase 204 después de lo cual la señal resultante se alimenta a un sintetizador sinusoidal 205 para la generación de una señal de reconstrucción sustituta que es salida de la entidad RX 200 en caso de pérdida de trama. Se proporcionarán más detalles de las operaciones de la entidad RX 200 a continuación.
La Figura 3 en (a), (b), (c), y (d) ilustra esquemáticamente cuatro fases de un proceso de creación e inserción de una trama de sustitución en caso de pérdida de trama. La Figura 3(a) ilustra esquemáticamente partes de una señal recibida previamente 301. Se ilustra esquemáticamente una ventana en 303. La ventana se utiliza para extraer una trama, una trama 304 denominada prototipo, de la señal recibida previamente 301; la parte media de la señal recibida previamente 301 no es visible ya que es idéntica a la trama prototipo 304 donde la ventana 303 es igual a 1. La Figura 3(b) ilustra esquemáticamente el espectro de magnitud, en términos de la transformada discreta de Fourier (DFT), de la trama prototipo en la Figura 3(a), donde se identifican dos picos de frecuencia fk y fk+i. La Figura 3(c) ilustra esquemáticamente el espectro de frecuencia de la trama de sustitución generada, donde se evolucionan adecuadamente las fases alrededor de los picos y se retiene el espectro de magnitud de la trama prototipo. La Figura 3(d) ilustra esquemáticamente la trama de sustitución generada 305 que ha sido insertada.
En vista de los mecanismos descritos anteriormente para la ocultación de pérdida de trama, se ha encontrado que los artefactos tonales son causados por una periodicidad demasiado marcada y picos espectrales demasiado bruscos del espectro de la trama de sustitución, a pesar de la aleatorización.
También es notable que los mecanismos descritos junto con un método de adaptación de un método de ocultación de pérdida de trama de tipo Phase ECU también son típicos para otros métodos de ocultación de trama que generan una señal de sustitución para las trama pérdidas bien en el dominio de la frecuencia o en el del tiempo. Por lo tanto, puede ser deseable proporcionar mecanismos genéricos para la ocultación de pérdida de trama en caso de ráfagas largas de tramas pérdidas o corruptas.
Aparte de proporcionar una eficiente ocultación de pérdida de trama, también puede ser deseable encontrar mecanismos que puedan ser implementados con mínima complejidad computacional así como con mínimos requisitos de almacenamiento.
Al menos algunas de las realizaciones descritas en la presente memoria se basan en superponer gradualmente una señal de sustitución de un método primario de ocultación de pérdida de trama con una señal de ruido, donde la frecuencia característica de la señal de ruido es una representación espectral de baja resolución de la trama de una señal correctamente recibida previamente (una “buena trama”).
Se hace referencia ahora al diagrama de flujo de la Figura 6 que describe un método para la ocultación de pérdida de trama según lo realizado por una entidad receptora según una realización.
La entidad receptora se configura para, en un paso S208, añadir, en colaboración con la construcción de un espectro de la trama de sustitución para una trama pérdida, un componente de ruido a la trama de sustitución. El componente de ruido tiene una frecuencia característica correspondiente a una representación espectral de baja resolución de una señal en una trama recibida previamente.
A este respecto, si la adición en el paso S208 se realiza en el dominio de la frecuencia, el componente de ruido puede considerarse como agregado a un espectro de una trama de sustitución ya generada, y por tanto, la trama de sustitución a la que se ha añadido el componente de ruido puede considerarse como una trama de sustitución secundaria, o adicional. Así, la trama de sustitución secundaria se compone de una trama de sustitución primaria y de un componente de ruido. Estos componentes están a su vez compuestos de componentes de frecuencia.
Según una realización, el paso S208 de añadir el componente de ruido a la trama de sustitución implica confirmar que una longitud de error de ráfaga n sobrepasa un primer umbral, T1. Un ejemplo del primer umbral es establecer T1 >2.
Se hace referencia ahora al diagrama de flujo de la Figura 7 que describe métodos para la ocultación de pérdida de trama según lo realizado por una entidad receptora según realizaciones adicionales.
Según una primera realización preferida, la señal de sustitución para una trama pérdida es generada por un método primario de ocultación de pérdida de trama, superpuesto con una señal de ruido. Con el aumento del número de pérdidas de trama seguidas, la señal de sustitución de la ocultación primaria de pérdida de trama se atenúa gradualmente, preferiblemente según el comportamiento de silencio del método primario de ocultación de pérdida de trama en caso de pérdida de trama de ráfaga. Al mismo tiempo, la pérdida de energía de trama debido al comportamiento de silencio del método primario de ocultación de pérdida de trama se compensa mediante la adición de una señal de ruido con similares características espectrales como una trama de una señal recibida previamente, por ejemplo, la última trama recibida correctamente.
Por lo tanto, el componente de ruido y el espectro de la trama de sustitución pueden escalarse con factores de escala que son dependientes del número de tramas pérdidas consecutivamente de modo que el componente de ruido se superpone gradualmente en el espectro de la trama de sustitución con una magnitud creciente como una función del número de tramas pérdidas consecutivamente.
Como se describirá más adelante, el espectro de la trama de sustitución puede atenuarse gradualmente por un factor de atenuación a(m).
El espectro de la trama de sustitución y el componente de ruido pueden superponerse en el dominio de la frecuencia. Alternativamente, la representación espectral de baja resolución se basa en un conjunto de parámetros de codificación predictiva lineal (LPC) y el componente de ruido puede así superponerse en el dominio del tiempo. Para obtener más información sobre cómo aplicar parámetros de PLC, véase más adelante.
Más específicamente, el método primario de ocultación de pérdida de trama puede ser un método de tipo Phase ECU con una característica de adaptación en respuesta a la pérdida de ráfaga como se describió anteriormente. Es decir, el componente de la trama de sustitución puede derivarse por un método primario de ocultación de pérdida de trama, como Phase ECU.
En ese caso la señal generada por el método primario de ocultación de pérdida de trama es de tipo Z(m) = a(m) Y(m) • ej(ek+s(m)), donde a(m) y -9(m) son términos de atenuación de magnitud y de aleatorización de fase. Es decir, el espectro de la trama de sustitución puede tener una fase y la fase puede superponerse con un valor de fase aleatorio O(m).
Y, como se describió anteriormente, la fase Qkcon k = 1 ... K es una función del índice m y de los picos espectrales K identificados por el método de Phase ECU, e Y(m) es una representación del dominio de la frecuencia (espectro) de una trama de la señal de audio recibida previamente.
Como se sugiere en la presente memoria, este espectro puede luego modificado aún más por un componente de ruido aditivo ¡5(m) • e n(m)), produciendo un componente combinado ¡5(m) Y(m) • e n(m)), donde Y(m) es una representación del espectro de magnitud de una “buena trama” recibida previamente, es decir, una trama de una, al menos relativamente, señal recibida correctamente. De este modo, el componente de ruido puede proporcionarse con un valor de fase aleatorio n(m).
De esta manera el coeficiente espectral para el índice de espectro m sigue una expresión:
Figure imgf000005_0001
Aquí fi(m) es un factor de escala de la magnitud y n(m) es una fase aleatoria. Por lo tanto, el componente de ruido aditivo consiste en coeficientes espectrales de fase aleatoria escalados del espectro de magnitud Y(m). Según la invención, ¡5(m) puede elegirse de modo que compense la pérdida de energía al aplicar el factor de atenuación a(m) al coeficiente espectral Y(m) del espectro de la trama de sustitución de la ocultación primaria de pérdida de trama. Por lo tanto, la entidad receptora puede configurarse para, en un paso opcional S204, determinar un factor de escala de magnitud ¡5(m) para el componente de ruido de modo que ¡5(m) compense la pérdida de energía resultante de aplicar el factor de atenuación a(m) al espectro de la trama de sustitución.
Bajo el supuesto de que los términos de fase aleatoria descorrelacionan los dos términos aditivos a(m) • Y(m) • ej(Qk+s(m)) y ¡5(m) • Y (m) • ejn(m)) de la ecuación anterior, ¡5(m) puede, por ejemplo, determinarse como
Figure imgf000005_0002
Para evitar el problema descrito anteriormente con artefactos tonales que surgen de picos espectrales demasiado bruscos, mientras que todavía mantiene la frecuencia característica general de la señal antes de la pérdida de trama de ráfaga, la representación del espectro de magnitud Y(m) es una representación de baja resolución. Se ha encontrado que una representación de baja resolución muy adecuada del espectro de magnitud se obtiene promediando del grupo de frecuencias sabio el espectro de magnitud |Y(m)| de una trama de la señal recibida previamente, por ejemplo, una trama recibida correctamente, una “buena” trama. La entidad receptora puede configurarse para, en un paso opcional S202a, obtener la representación de baja resolución del espectro de magnitud promediando del grupo de frecuencias sabio el espectro de magnitud de la señal en la trama recibida previamente. La representación espectral de baja resolución puede basarse en un espectro de magnitud de la señal en la trama recibida previamente.
Dejar lk = [mk-1 +1, ..., mk] especificar el intervalo késlmo, k = 1 ... K, que cubre los contenedores de la DFT desde mk-i +1 hasta mk, entonces estos intervalos definen K bandas de frecuencia. El promedio del grupo de frecuencias sabio para la banda k puede entonces ser hecho promediando los cuadrados de las magnitudes de los coeficientes espectrales en esa banda y calculando la raíz cuadrada de la misma:
Figure imgf000006_0001
Aquí |/k| denota el tamaño del grupo de frecuencia k, es decir, el número de contenedores de frecuencia incluidos. Debe señalarse que el intervalo lk = [mk-1 +1, ..., mk] corresponde a la banda de frecuencia
en donde fs denota la frecuencia de muestreo de audio y N la longitud del bloque de la transformada del dominio de la frecuencia utilizada.
Una opción adecuada ilustrativa para los tamaños de la banda de frecuencia o anchos es bien hacerlos del mismo tamaño con, por ejemplo, un ancho de varios 100 Hz. Otra manera ilustrativa es hacer que los anchos de la banda de frecuencia sigan el tamaño de las bandas críticas auditivas humanas, es decir, relacionarlos con la resolución de frecuencia del sistema auditivo humano. Es decir, los anchos de grupo utilizados durante el promedio del grupo de frecuencias sabio pueden seguir las bandas críticas auditivas humanas. Esto significa hacer los anchos de banda de frecuencia aproximadamente iguales para frecuencias hasta 1 kHz e incrementarlos exponencialmente por encima de 1 kHz. Incremento exponencial significa, por ejemplo, doblar el ancho de banda de frecuencia al incrementar el índice k de la banda.
Una realización especifica ilustrativa adicional del cálculo de los coeficientes del espectro de magnitud de baja resolución Yk es basarlo en una multitud n de transformadas del dominio de la frecuencia de baja resolución de la señal recibida previamente. La entidad receptora puede así configurarse para, en una paso opcional S202b, obtener la representación de baja resolución de dicho espectro de magnitud promediando del grupo de frecuencias sabio una multitud n de transformadas del dominio de la frecuencia de baja resolución de la señal en la trama recibida previamente. Una opción adecuada ilustrativa de n es n=2.
Según esta realización, en primer lugar, se calculan los espectros de magnitud al cuadrado de una parte izquierda (subtrama) y de una parte derecha (subtrama) de una trama de la señal recibida previamente, por ejemplo, de la buena trama recibida más recientemente. Una trama aquí podría ser del tamaño de los segmentos de audio o tramas utilizadas en la transmisión, o una trama podría ser de algún otro tamaño, por ejemplo, un tamaño construido y utilizado por un ECU de fase, que puede construir tramas propias con diferente longitud a partir de la señal reconstruida. La longitud del bloque Npart de estas transformadas de baja resolución puede ser una fracción (por ejemplo, 1/4) del tamaño de trama original del método primario de ocultación de pérdida de trama. Luego, en segundo lugar, los coeficientes del espectro de magnitud de baja resolución del grupo de frecuencias sabio se calculan promediando del grupo de frecuencias sabio las magnitudes espectrales al cuadrado de las subtramas izquierda y derecha, y finalmente calculando la raíz cuadrada de las mismas:
Los coeficientes del espectro de magnitud de baja resolución Y (m) son entonces obtenidos a partir de los K representantes del grupo de frecuencias:
Y(m) = Yk for m E Ik) k = 1... K.
Existen varias ventajas con este enfoque de calcular el coeficiente del espectro de magnitud de baja resolución Yk; la utilización de dos transformadas cortas del dominio de la frecuencia es preferible en términos de complejidad computacional sobre una sola transformada del dominio de la frecuencia con una mayor longitud de bloque. Además, el promedio estabiliza la estimación del espectro, es decir, reduce las fluctuaciones estadísticas que podrían impactar la calidad alcanzable. Una ventaja específica al aplicar esta realización junto con el controlador de Phase ECU mencionado previamente, es que puede confiar en los análisis espectrales relacionados con la detección de una condición transitoria en la trama de una señal recibida previamente, la “buena trama”. Esto reduce la sobrecarga computacional asociada con la invención aún más.
El objetivo de proporcionar un mecanismo con mínimos requisitos de almacenamiento también se consigue, ya que esta realización permite representar el espectro de baja resolución con solo K valores, donde K puede prácticamente ser tan bajo como, por ejemplo, 7 u 8.
Se ha encontrado además que la calidad de la señal de audio reconstruida en caso de largas ráfagas de pérdida puede mejorarse aún más si la superposición del grupo de frecuencias sabio con una señal de ruido impone un cierto grado de característica de paso bajo. Por lo tanto, puede imponerse una característica de paso bajo en la representación espectral de baja resolución.
Dicha característica evita efectivamente el desagradable ruido de alta frecuencia en la señal de sustitución. Más específicamente, esto se consigue introduciendo una atenuación adicional a través de una factor A(m) de la señal de ruido para frecuencias mayores. Comparado con el cálculo descrito anteriormente del factor de escala de ruido ¡5(m), este factor se calcula ahora según
Figure imgf000007_0001
En la presente memoria el factor A(m) podría ser 1 para m pequeño y ser menor que 1 para m grande. Es decir, j3{m)
puede determinarse como ~ a ( j t l ) , en donde A{m) es un factor de atenuación dependiente de la frecuencia. Por ejemplo, A(m) puede ser igual a 1 para m por debajo de un umbral y A(m) puede ser menor de 1 para m por encima de este umbral.
Debe señalarse que, preferiblemente, los factores de escala A(m) y @(m), son constantes del grupo de frecuencias sabio. Esto ayuda a recudir los requisitos de complejidad y de almacenamiento. En ese caso, también el factor A se aplica al grupo de frecuencias sabiamente según la siguiente expresión:
Figure imgf000007_0002
Se ha encontrado beneficioso establecer Ak de modo que es 0,1 para bandas de frecuencia por encima de 8000 Hz y 0,5 para una banda de frecuencia de 4000Hz-8000 Hz. Para bandas de frecuencia más bajas Ak es igual a 1. También son posibles otros valores.
Se ha encontrado beneficioso además, a pesar de las ventajas de calidad del método propuesto con superposición de la señal de sustitución de un método primario de ocultación de pérdida de trama con una señal de ruido, aplicar una característica de silenciamiento para ráfagas de pérdida de trama extremadamente largas de por ejemplo, n > 10 (correspondiente a 200 ms o más). Por lo tanto, la entidad receptora puede configurarse para, en un paso opcional S206, aplicar un factor de atenuación de largo plazo y a ¡5(m) cuando la longitud de error de ráfaga n sobrepasa un segundo umbral T2, al menos tan largo como el primer umbral T1. Según un ejemplo, T2>10.
En más detalle, en caso de que una síntesis sostenida de la señal de ruido pueda ser molesta para un oyente. Para solventar este problema la señal de ruido aditiva puede así ser atenuada a partir de ráfagas de pérdida de mayor tamaño que, p.ej., n=10. Específicamente, un factor de atenuación adicional de largo plazo y (por ejemplo, y = 0,5) y un umbral thresh se introducen con lo que se atenúa la señal de ruido si la longitud de la ráfaga de pérdida n sobrepasa thresh. Esto conduce a la siguiente modificación del factor de escala de ruido:
P (^Ttl) = y m a x (0 ,n - th re s h ) . p ( r t l )
La característica que se consigue con esa modificación es que la señal de ruido se atenúa con Y -thresh si n sobrepasa el umbral. Como un ejemplo, si n = 20 (400 ms) y y = 0,5 y T2 = thresh = 10, entonces la señal de ruido se reduce a aproximadamente 1/1000.
Debe señalarse de nuevo que, la operación también puede hacerse del grupo de frecuencias sabio, como en la realización anterior.
Para resumir, según la invención, Z(m) representa el espectro de una trama de sustitución y este espectro es generado por el uso de un método primario de ocultamiento de pérdida de trama, como el Phase ECU, basado en el espectro Y(m) de una trama prototipo, es decir, una trama de la señal recibida previamente.
Para ráfagas de pérdida largas, el ECU de fase original con el controlador descrito esencialmente atenúa este espectro y aleatoriza las fases. Para n muy largo esto significa que la señal generada se silencia completamente.
Como se describe en la presente memoria esta atenuación es compensada añadiendo una cantidad adecuada de ruido de forma espectral. Por tanto, el nivel de la señal se mantiene esencialmente estable, incluso para n > 5. Para ráfagas de pérdida extremadamente largas, por ejemplo, n > 10, una realización implica atenuar/silenciar incluso este ruido aditivo.
Según una realización adicional el espectro de la señal de ruido aditivo de baja resolución Y(m) puede representarse por un conjunto de parámetros de LPC, y por tanto el espectro en este caso corresponde al espectro de un filtro de síntesis de LPC con estos parámetros de LPC como coeficientes. Dicha realización puede ser preferida si el método de PLC primario no es de tipo Phase ECU y además, por ejemplo, un método que funciona en el dominio del tiempo. En ese caso una señal de tiempo correspondiente al espectro de la señal de ruido aditivo de baja resolución Y(m) podría también, preferiblemente, ser generada en el dominio del tiempo, filtrando ruido blanco a través del filtro de síntesis con dichos coeficientes de LPC.
La adición del componente de ruido a la trama de sustitución como en el paso S208 puede, por ejemplo, realizarse bien en el dominio de la frecuencia o en el dominio del tiempo o en más dominios de señal equivalentes. Por ejemplo, existen dominios de señal como el filtro espejo en cuadratura (QMF) o el dominio del filtro de sub-banda en los que los métodos primarios de ocultamiento de pérdida de trama pueden operar. En tales casos, puede preferirse generar una señal de ruido aditivo correspondiente al espectro de la señal de ruido de baja resolución Y(m) descrito en estos dominios de señal correspondientes. Aparte de las diferencias del dominio de la señal en el que se añade la señal de ruido, las anteriores realizaciones siguen siendo aplicables.
Se hace referencia ahora al diagrama de flujo de la Figura 5 que describe un método para la ocultación de pérdida de trama según lo realizado por una entidad receptora según una realización particular.
En una acción S101 se determina un componente de ruido, donde la frecuencia característica del componente de ruido es una representación espectral de baja resolución de una trama de una señal recibida previamente. El componente de ruido puede, por ejemplo, estar compuesto y denotado como ¡5(m) • Y(m) • e n(m)), donde p(m) puede ser un factor de escala de magnitud y q(m) puede ser una fase aleatoria, e Y(m) puede ser una representación del espectro magnitud de una “buena trama” recibida previamente.
Según la invención, en la acción S103, se determina si un número, n, de tramas pérdidas o erróneas sobrepasa un umbral. El umbral podría ser, por ejemplo, 8, 9, 10 u 11 tramas. Cuando n es menor que el umbral, el componente de ruido se añade a un espectro de la trama de sustitución Z en una acción S104. El espectro de la trama de sustitución Z puede ser derivado por un método primario de ocultación de pérdida de trama, como por ejemplo, Phase ECU. Cuando el número de tramas pérdidas n sobrepasa el umbral, se aplica un factor de atenuación y al componente de ruido.
El factor de atenuación puede ser constante dentro de ciertos rangos de frecuencia. Al aplicar el factor de atenuación Y, el componente de ruido se añade a un espectro de la trama de sustitución Z en la acción S104.
Las realizaciones descritas en la presente memoria también se refieren a una entidad receptora, o nodo receptor, que será descrito a continuación con referencia a las Figuras 4, 8 y 9. La entidad receptora será descrita brevemente para evitar una repetición innecesaria.
Una entidad receptora puede configurar para realizar una o más de las realizaciones descritas en la presente memoria.
La Figura 4 describe esquemáticamente módulos funcionales de una entidad receptora 400 según una realización. La entidad receptora 400 comprende un detector de pérdida de trama 401 configurado para detectar una pérdida de trama en una señal recibida a lo largo de la ruta de señal 410. El detector de pérdida de trama comunica un generador de representación de baja resolución 402 y un generador de trama de sustitución 403. El generador de representación de baja resolución 402 se configura para generar una representación espectral de baja resolución de una señal en una trama recibida previamente. El generador de trama de sustitución 403 se configura para generar una trama de sustitución según los mecanismos conocidos, como Phase ECU. Los bloques funcionales 404 y 405 representan el escalado de las señales generadas por el generador de representación de baja resolución 402 y el generador de trama de sustitución 403, respectivamente, con los factores de escala descritos anteriormente ¡3, y, y a. Los bloques funcionales 406 y 407 representan la superposición de las señales así escaladas con los valores de fase descritos anteriormente y O. El bloque funcional 408 representa un sumatorio para añadir el componente de ruido así generador a la trama de sustitución. El bloque funcional 409 representa un interruptor como controlado por el detector de pérdida de trama 401 para reemplazar una trama perdida con una trama de sustitución generada. Como se señaló anteriormente, existen muchos dominios en los que las operaciones, como la adición en el paso S208, pueden ser realizadas. Por lo tanto, cualquiera de los bloques funcionales descritos anteriormente puede configurarse para realizar las operaciones en cualquiera de estos dominios.
Más abajo, una entidad receptora ilustrativa 800, adaptada para permitir la realización de un método descrito anteriormente para la gestión de errores de trama de ráfaga será descrita con referencia a la Figura 8.
La parte de la entidad receptora que está mayormente relacionada con la solución sugerida en la presente memoria se ilustra como una disposición 801 rodeada por una línea discontinua. La disposición y posiblemente otras partes de la entidad receptora son adaptadas para permitir la realización de uno o más de los procedimientos descritos anteriormente e ilustrados, por ejemplo, en las Figuras 5, 6, y 7. La entidad receptora 800 se ilustra para comunicarse con otras entidades a través de una unidad de comunicación 802, que puede considerarse que comprende medios convencionales para una comunicación inalámbrica y/o cableada de acuerdo con un estándar o protocolo de comunicación dentro del cual es operable la entidad receptora. La disposición y/o la entidad receptora puede comprender además otras unidades funcionales 807, para proporcionar, por ejemplo, las funciones regulares de la entidad receptora, como por ejemplo, el procesamiento de la señal en colaboración con la decodificación de audio, como voz o música.
La parte de la disposición de la entidad receptora puede implementarse y/o describirse como sigue:
La disposición comprende medios de procesamiento 803, como un procesador, y una memoria 804 para almacenar instrucciones. La memoria comprende instrucciones en la forma de un programa informático 805, que cuando se ejecuta por los medios de procesamiento hace que la entidad receptora o disposición realice los métodos según los descrito en la presente memoria.
Una realización alternativa de la entidad receptora 800 se muestra en la Figura 9. La Figura 9 ilustra una entidad receptora 900, operable para decodificar una señal de audio.
Una disposición 901 puede implementarse y/o describirse esquemáticamente como sigue. La disposición 901 puede comprender una unidad de determinación 903, configurada para determinar un componente de ruido con una frecuencia característica de una representación espectral de baja resolución de una trama de una señal recibida previamente y para determinar un factor de escala de magnitud. La disposición puede comprender además una unidad de adición 904, configurada para añadir el componente de ruido a un espectro de la trama de sustitución. La disposición puede comprender además una unidad de obtención 910, configurada para obtener la representación de baja resolución del espectro de magnitud de la señal en la trama recibida previamente. La disposición puede comprender además una unidad de aplicación 911, configurada para aplicar un factor de atenuación de largo plazo. La entidad de recepción puede comprender además unidades 907 configuradas para, por ejemplo, determinar un factor de escala ¡3(m) para el componente de ruido. La unidad de recepción 900 comprende además una unidad de comunicación 902 que tiene un transmisor (Tx) 908 y un receptor (Rx) 909 con una funcionalidad como la de la unidad de comunicación 802. La entidad de recepción 900 comprende además una memoria 906 con una funcionalidad como la de la memoria 804.
Las unidades o módulos en las disposiciones descritas anteriormente podrían ser implementadas, por ejemplo, por uno o más de: un procesador o un microprocesador y software adecuado y memoria para almacenar el mismo, un Dispositivo de Lógica Programable (PLD) u otro(s) componente(s) electrónicos o circuitos de procesamiento configurados para realizar las acciones descritas anteriormente, e ilustradas, por ejemplo, en
La Figura 8. Es decir, las unidades o módulos en las disposiciones descritas anteriormente podrían ser implementadas por una combinación de circuitos analógicos y digitales, y/o uno o más procesadores configurados con software y/o firmware, por ejemplo, almacenado en una memoria. Uno o más de estos procesadores, así como el otro hardware digital, pueden incluirse en un solo circuito integrado de aplicación específica (ASIC), o varios procesadores y varios hardware digitales pueden distribuirse entre varios componentes separados, ya individualmente empaquetados o ensamblados en un sistema en chip (SoC).
La Figura 10 muestra un ejemplo de un producto de programa informático 1000 que comprende un medio legible por ordenador 1001. En este medio legible por ordenador 1001, un programa informático 1002 puede almacenarse, que el programa informático 1002 puede producir un circuito de procesamiento 803 y las entidades y dispositivos acoplados operativamente a ello, como la unidad de comunicaciones 802 y el medio de almacenamiento 804, para ejecutar los métodos según las realizaciones descritas en la presente memoria. El programa informático 1002 y/o el producto de programa informático 1001 puede así proporcionar un medio para la realización de cualquier paso como se describe en la presente memoria.
En el ejemplo de la Figura 10, el producto de programa informático 1001 se ilustra como un disco óptico, como un CD (disco compacto) o un DVD (disco digital versátil) o un disco Blu-Ray. El producto de programa informático 1001 también podría ser incluido como una memoria, como una memoria de acceso aleatorio (RAM), una memoria de solo lectura (ROM), una memoria de solo lectura programable borrable (EPROM), o una memoria de solo lectura programable borrable eléctricamente (EEPROM) y más particularmente como un medio de almacenamiento no volátil de un dispositivo en una memoria externa como una memoria USB (Bus Serie Universal) o una memoria Flash, como una memoria Flash compacta. Así, mientras que el programa informático 1002 se muestra aquí esquemáticamente como una pista en el disco óptico representado, el programa informático 1002 puede almacenarse de cualquier manera que sea adecuada para el producto de programa informático 1001.
Algunas definiciones de posibles características y realizaciones se describen a continuación, en parte refiriéndose al diagrama de flujo de la Figura 5.
Un método realizado por una entidad receptora para mejorar la ocultación de pérdida de trama o la gestión de errores de trama de ráfaga, el método que comprende: en colaboración con la construcción de un espectro de la trama de sustitución Z que añade (acción 104) un componente de ruido al espectro de la trama de sustitución Z, donde la frecuencia característica del componente de ruido es una representación espectral de baja resolución de una trama de una señal recibida previamente.
En una posible realización, la representación espectral de baja resolución se basa en un espectro de magnitud de una trama de una señal recibida previamente. Una representación de baja resolución de un espectro de magnitud puede obtenerse, por ejemplo, promediando del grupo de frecuencias sabio del espectro de magnitud de una trama de una señal recibida previamente. De manera alternativa, una representación de baja resolución de un espectro de magnitud puede basarse en una multitud n de transformadas del dominio de la frecuencia de baja resolución de la señal recibida previamente. En una posible realización, la representación espectral de baja resolución se basa en un conjunto de parámetros de codificación lineal predictiva (LPC).
En una posible realización donde el espectro de la trama de sustitución Z es atenuado gradualmente por un factor de atenuación a(m), el método comprende la determinación de un factor de escala de magnitud ¡5(m) para el componente de ruido, de manera que p(m) compense la pérdida de energía resultante de la aplicación del factor de atención a(m). ¡5(m) puede, por ejemplo, determinarse como
Figure imgf000010_0001
En una posible realización, /3(m) es derivada como (m) = A(m) ■ yjl — a 2 (ni) en donde el factor A(m) es un factor de atenuación para ciertas frecuencias de la señal de ruido, por ejemplo, frecuencias más altas A(m) puede ser igual a 1 para m pequeño y ser menor que 1 para m grande.
En una posible realización, los factores de escala a(m) y p(m) son constantes del grupo de frecuencias sabio.
En una posible realización el método comprende la aplicación (acción 103) de un factor de atenuación, y, cuando una longitud de error de ráfaga sobrepasa un umbral.
El espectro de la trama de sustitución Z puede ser derivado por un método primario de ocultación de pérdida de trama, como Phase ECU.
Las diferentes realizaciones pueden combinarse de cualquier manera adecuada.
Más abajo, será proporcionada información en realizaciones ilustrativas del método de ocultación de pérdida de trama Phase ECU, aunque el término “Phase ECU” no será mencionado explícitamente. Phase ECU ha sido mencionado en la presente memoria, por ejemplo, en términos del método primario de ocultación de pérdida de trama, para la derivación de Z antes de añadir el componente de ruido.
Un concepto de las realizaciones descritas más adelante comprende una ocultación de una trama de audio perdida:
- realizando un análisis sinusoidal de al menos parte de una señal de audio previamente recibida o reconstruida, en donde el análisis sinusoidal implica la identificación de frecuencias de los componentes sinuosidades de la señal de audio;
- aplicando un modelo sinusoidal en un segmento de la señal de audio previamente recibida o reconstruida, en donde dicho segmento se utiliza como una trama prototipo para crear una trama de sustitución para una trama perdida, y
- creando una trama de sustitución que implica la evolución en el tiempo de los componentes sinuosidades de la trama prototipo, hasta la instancia de tiempo de la trama de audio perdida, en respuesta a las correspondientes frecuencias identificadas.
Análisis sinusoidal
La ocultación de pérdida de trama según las realizaciones implica un análisis sinusoidal de una parte de la señal de audio previamente recibida o reconstruida. El propósito de este análisis sinusoidal es encontrar las frecuencias de los componentes sinuosidades principales, es decir, las sinusoides, de esa señal. Por la presente, la suposición subyacente es que la señal de audio fue generada por un modelo sinusoidal y que está compuesta de un número limitado de sinusoides individuales, es decir, que es una señal de seno múltiple del siguiente tipo:
Figure imgf000011_0001
En esta ecuación K es el número de sinusoides en que se supone consiste la señal. Para cada una de las sinusoides con índice k=1 ... K, ak es la amplitud, fk es la frecuencia, y $k es la fase. La frecuencia de muestreo se denomina fs y el índice de tiempo de las muestras de la señal discreta en el tiempo s(n) n.
Puede ser beneficioso, o incluso importante, encontrar las frecuencias más exactas posibles de las sinusoides. Mientras que una señal sinusoidal ideal tendría un espectro lineal con frecuencias lineales fk, encontrar sus verdaderos valores requeriría, en principio, un tiempo de medida infinito. Por tanto, en la práctica es difícil encontrar estas frecuencias, ya que solo pueden ser estimadas en base a un corto período de medida, que corresponde al segmento de señal utilizado para el análisis sinusoidal según las realizaciones descritas en la presente memoria; este segmento de análisis es referido en adelante como una trama de análisis. Otra dificultad es que la señal puede, en la práctica, ser variante en el tiempo, lo que significa que los parámetros de la anterior educación varían en el tiempo. Por tanto, por un lado es deseable utilizar una trama de análisis larga haciendo las medidas más precisas, por otro lado un corto período de medida sería necesario para hacer frente mejor a las posibles variaciones de la señal. Una buena compensación es utilizar una longitud de trama de análisis en el orden de, por ejemplo, 20-40 ms.
Según una realización preferida, las frecuencias de las sinusoides fk son identificadas por un análisis del dominio de la frecuencia de la trama de análisis. Para este fin, la trama de análisis se transforma en el dominio de la frecuencia, por ejemplo, mediante la DFT (Transformada Discreta de Fourier) o la DCT (Transformada Discreta de Coseno), o una transformada del dominio de la frecuencia similar. En caso de que se utilice una DFT de la trama de análisis, el espectro X(m) en el índice de frecuencia discreta m es dado por:
Figure imgf000011_0002
En esta ecuación, w(n) denota la función de ventana con la que se extrae y se pesa la trama de análisis de longitud L; j es la unidad imaginaria y e es la función exponencial.
Una función de ventana típica es una ventana rectangular que es igual a 1 para n e [0...L-1] y en caso contrario 0. Se supone que los índices de tiempo de la señal de audio recibida previamente son establecidos de modo que se referencia la trama prototipo por los índices de tiempo n=0...L-1. Otras funciones de ventana que pueden ser más adecuadas para el análisis espectral son, por ejemplo, Hamming, Hanning, Kaiser or Blackman.
Otra función de ventana es una combinación de la ventana de Hamming y de la ventaja rectangular. Dicha ventaja puede tener una forma de flanco ascendente como la mitad izquierda de una ventana de Hamming de longitud L1 y una forma de flanco descendente como la mitad derecha de una ventaja de Hamming de longitud L1 y entre los flancos ascendente y descendente la ventana es igual a 1 para la longitud de L-L1.
Los picos del espectro de magnitud de la trama de análisis de ventana |X(m)| constituyen una aproximación de las frecuencias sinuosidades requeridas fk. Sin embargo, la precisión de esta aproximación está limitada por el espaciado L %
de frecuencia de la DFT. Con la DFT con una longitud de bloque L la precisión está limitada a
Sin embargo, este nivel de precisión puede ser demasiado bajo en el alcance del método según las realizaciones descritas en la presente memoria, y puede obtenerse una precisión mejorada en base a los resultados de la siguiente consideración:
El espectro de la trama de análisis de ventana es dado por la convolución del espectro de la función de ventana con el espectro lineal de una señal de modelo sinusoidal S(Q), muestreado posteriormente en los puntos de cuadrícula de la DFT:
Figure imgf000012_0001
En esta ecuación, ó representa la función delta de Dirac y el símbolo * denota la operación de convolución. Utilizando la expresión del espectro de la señal de modelo sinusoidal, esto puede escribirse como
Figure imgf000012_0002
Por lo tanto, el espectro muestreado es dado por
Figure imgf000012_0003
con m=0...L-i. En base a esto, los picos observados en el espectro de magnitud de la trama de análisis se derivan de una señal sinusoidal de ventana con K sinusoides, donde las verdaderas frecuencias de sinusoide se encuentran en las proximidades de los picos. Así, la identificación de las frecuencias de los componentes sinuosidades puede implicar además la identificación de las frecuencias en las proximidades de los picos del espectro relacionado con la transformada del dominio de la frecuencia utilizada.
Si se supone que n . es un índice de la DFT (punto de cuadrícula) del pico /<ésimo observado, entonces la frecuencia m.
f k = f s
correspondiente es f que puede considerarse una aproximación de la verdadera frecuencia sinusoidal fk. Se puede suponer que la verdadera frecuencia sinusoidal fk se encuentra dentro del intervalo:
Figure imgf000012_0004
Para mayor claridad se observa que la convolución del espectro de la función de ventana con el espectro del espectro lineal de la señal de modelo sinusoidal puede entenderse como una superposición de versiones desplazadas en frecuencia del espectro de la función de ventana, de modo que las frecuencias de desplazamiento son las frecuencias de las sinusoides. Esta superposición es luego maestreada en los puntos de cuadrícula de la DFT.
En base al debate anterior, puede encontrarse una mejor aproximación de las verdaderas frecuencias sinusoidales incrementado la resolución de la búsqueda, de modo que sea mayor que la resolución de frecuencia de la transformada del dominio de la frecuencia utilizada.
Así, la identificación de frecuencias de los componentes sinusoidales se realiza, preferiblemente, con mayor resolución que la resolución de frecuencia de la transformada del dominio de la frecuencia utilizada, y la identificación puede implicar además interpolación.
Un modo preferido ilustrativo para encontrar una mejor aproximación de las frecuencias fk de las sinusoides es aplicar interpolación parabólica. Un enfoque es ajustar las parábolas a través de los puntos de cuadrícula del espectro de magnitud de la DFT que rodea los picos y calcular las frecuencias respectivas que pertenecen a la parábola máxima, y una opción adecuada ilustrativa para el orden de las parábolas es 2. Con más detalle, se puede aplicar el siguiente procedimiento: 1
1) Identificar los picos de la DFT de la trama de análisis de ventana. La búsqueda de picos entregará el número de picos K y los correspondientes índices de la DFT de los picos. La búsqueda de picos puede normalmente hacerse en el espectro de magnitud de la DFT o en el espectro de magnitud logarítmica de la DFT.
2) Para cada pico k (con k =1...K) con el correspondiente índice de la DFT mk, ajustar una parábola a través de los tres punto {P1; P2 ; P3} = {(mk-1, log(|X(mk-1)|); (mk, log(|X(mk)|); (mk+1, log(|X(mk+1)|)}, donde log denota al operador logaritmo. Esto resulta en los coeficientes de parábola ¿*(0), bk(1), bk(2) de la parábola definida por
Figure imgf000013_0001
3) Para cada una de las K parábolas, calcular el índice de la frecuencia interpolada mk correspondiente al valor de q para el que la parábola tiene su máximo, en donde se utiliza fk = mk fs/L como una aproximación para la frecuencia de sinusoide fk.
Aplicar un modelo Sinusoidal
La aplicación de un modelo sinusoidal para realizar una operación de ocultación de pérdida de trama según las realizaciones puede describirse como sigue:
En caso de que un segmento dado de la señal codificada no pueda reconstruirse por el decodificador ya que la información de codificación correspondiente no está disponible, es decir, ya que se ha perdido una trama, una parte disponible de la señal anterior a este segmento puede utilizarse como trama prototipo. Si y(n) con n=0...N-1 es el segmento no disponible para el que tiene que generarse una trama de sustitución z(n), e y(n) con n<0 es la señal previamente codificada disponible, una trama prototipo de la señal disponible de longitud L e índice de comienzo n-1 se extrae con una función de ventana w(n) y se transforma en el dominio de la frecuencia, por ejemplo, mediante la DFT:
Figure imgf000013_0002
La función de ventana puede ser una de las funciones de ventana descritas anteriormente en el análisis sinusoidal. Preferiblemente, para ahorrar en complejidad numérica, la trama transformada al dominio de la frecuencia debe ser idéntica a la utilizada durante el análisis sinusoidal.
En un siguiente paso se aplica la suposición del modelo sinusoidal. Según la suposición del modelo sinusoidal, la DFT de la trama prototipo puede escribirse como sigue:
Figure imgf000013_0003
Esta expresión también fue utilizada en la parte de análisis y se describió con detalle anteriormente.
A continuación, se consigue que el espectro de la función de ventana utilizada tenga solo una contribución significativa en un rango de frecuencia cercano a cero. El espectro de magnitud de la función de ventana es grande para frecuencias cercanas a cero y pequeño en caso contrario (dentro del rango de frecuencias normalizado de -n a n, correspondiente a la mitad de la frecuencia de muestreo). Por lo tanto, se supone como una aproximación que el espectro de ventana W(m) no es cero para un intervalo M = [-mmin, mmax], siendo mmin y mmax pequeños números positivos. En particular, se utiliza una aproximación del espectro de la función de ventana de manera que para cada k las contribuciones del espectro de la ventana desplazada en la expresión anterior no están estrictamente superpuestas. Por lo tanto en la ecuación anterior, para cada índice de frecuencia siempre hay solo, como máximo, la contribución de un sumando, es decir, de un espectro de ventana desplazada. Esto significa que la expresión anterior
Figure imgf000013_0004
se reduce a la siguiente expresión aproximada:
para m e Mk no negativo y para cada k.
En la presente memoria, Mk denota el intervalo entero: M u = [round ( f • l) -mmin k ,
Figure imgf000014_0001
en donde mm¡n,ky mmax,kcumplen la restricción explicada anteriormente
de manera que los intervalos no se superponen. Una opción adecuada para mmin,k y rnmax,k es establecerlos a un pequeño valor entero 5, por ejemplo, 5 = 3. En cambio, si los índices de la DFT relacionados con las dos frecuencias sinusoidales vecinas fk y fk+i son menores que 25, entonces 5 se establece a
Figure imgf000014_0002
de manera que se garantice que los intervalos no se superpongan. La función suelo() es el entero más cercano al argumento de la función que es más pequeño o igual a él.
El siguiente paso según las realizaciones es aplicar el modelo sinusoidal según la expresión anterior y evolucionar sus K sinusoides en el tiempo. La suposición de que los índices de tiempo del segmento borrado comparado con los índices de tiempo de la trama prototipo defieren por n-i muestras significa que las fases de las sinusoides avanzan por
Figure imgf000014_0003
Por lo tanto, el espectro de la DFT del modelo sinusoidal evolucionado es dado por:
Figure imgf000014_0004
Aplicando de nuevo la aproximación, según la cual el espectro de la función de ventana desplazada no se superpone, da:
Figure imgf000014_0005
para m e Mx no negativo y para cada k.
Comparando la DFT de la trama prototipo Y-i(m) con la DFT del modelo sinusoidal evolucionado Y0(m) utilizando la aproximación, se encuentra que el espectro de magnitud permanece sin cambios mientras que la fase es desplazada
Figure imgf000014_0006
por para cada m e Mk.
Por lo tanto, la trama de sustitución puede ser calculada por la siguiente expresión: z(n) = IDFT{Z(m)} con Z(m) = Y(m) ■ eJek para m e Mk no negativo y para cada k.
Una realización específica aborda la aleatorización de fase para los índices de la DFT que no pertenecen a ningún intervalo Mk. Como se describió anteriormente, los intervalos Mk, k=1...K tienen que ser establecidos de manera que no estén estrictamente superpuestos lo que es hecho utilizando algún parámetro 5 que controla el tamaño de los intervalos. Puede ocurrir que 5 sea pequeño en relación con la distancia de frecuencia de dos sinusoides vecinas. Por lo tanto, en el caso de que ocurra eso hay un hueco entre dos intervalos. En consecuencia, para los índices de la DFT m correspondientes no se define desplazamiento de fase según la expresión anterior Z(m) = Y(m) ■ ejek. Una opción adecuada según esta realización es aleatorizar la fase para estos índices, produciendo Z(m) = Y(m) ■ eJ2nrand( \ donde la función aleatoria(), devuelve un número aleatorio.
En un paso, se realiza un análisis sinusoidal de una parte de una señal de audio previamente recibida o reconstruida, en donde el análisis sinusoidal implica la identificación de los componentes sinusoidales, es decir, sinusoides, de la señal de audio. A continuación, en un paso, se aplica un modelo sinusoidal en un segmento de la señal de audio previamente recibida o reconstruida, en donde dicho segmento se utiliza como una trama prototipo para crear una trama de sustitución para una trama de audio perdida, y en un paso se crea la trama de sustitución para la trama de audio perdida, que implica la evolución en el tiempo de los componentes sinusoidales, es decir, sinusoides, de la trama prototipo, hasta la instancia de tiempo de la trama de audio perdida, en respuesta a las correspondientes frecuencias identificadas.
Según otra realización, se supone que la señal de audio está compuesta de un número limitado de componentes sinusoidales individuales, y que el análisis sinusoidal se realiza en el dominio de la frecuencia. Además, la identificación de las frecuencias de los componentes sinusoidales puede implicar la identificación de frecuencias en las proximidades de los picos de un espectro relacionado con la transformada del dominio de la frecuencia utilizada.
Según una realización ilustrativa, la identificación de frecuencias de los componentes sinusoidales se realiza con mayor resolución que la resolución de la transformada del dominio de la frecuencia utilizada, y la identificación puede implicar además interpolación, por ejemplo, de tipo parabólico.
Según una realización ilustrativa, el método comprende la extracción de una trama prototipo a partir de una señal disponible previamente recibida o reconstruida utilizando una función de ventana, y en donde la trama prototipo extraída se puede transformar a un dominio de la frecuencia.
Una realización adicional implica una aproximación de un espectro de la función de ventana, de manera que el espectro de la trama de sustitución se compone de partes estrictamente no superpuestas del espectro aproximado de la función de ventana.
Según otra realización ilustrativa, el método comprende la evolución en el tiempo de componentes sinusoidales de un espectro de frecuencia de una trama prototipo avanzando la fase de los componentes sinusoidales, en respuesta a la frecuencia de cada componente sinusoidal y en respuesta a la diferencia de tiempo entre la trama de audio perdida y la trama prototipo, y el cambio de un coeficiente espectral de la trama prototipo incluido en un intervalo Mk en las proximidades de una sinusoide k por un desplazamiento de fase proporcional a la frecuencia sinusoidal fk y a la diferencia de tiempo entre la trama de audio perdida y la trama prototipo.
Una realización adicional comprende el cambio de la fase de un coeficiente espectral de la trama prototipo que no pertenece a una sinusoide identificada por una fase aleatoria, o el cambio de la fase de un coeficiente espectral de la trama prototipo no incluido en ninguno de los intervalos relacionados con las proximidades de la sinusoide identificada por un valor aleatorio.
Una realización adicional implica una transformada inversa del dominio de la frecuencia del espectro de frecuencia de la trama prototipo.
Más específicamente, el método de ocultación de pérdida de trama de audio según una realización adicional puede implicar los siguientes pasos:
1) Analizar un segmento de la señal disponible, previamente sintetizada, para obtener las frecuencias sinusoidales constituyentes fk de un modelo sinusoidal.
2) Extraer una trama prototipo y-1 a partir de la señal disponible previamente sintetizada y calcular la DFT de esa trama.
3) Calcular el desplazamiento de fase 0k para cada sinusoide k en respuesta a la frecuencia sinusoidal fk y al avance de tiempo n-1 entre la trama prototipo y la trama de sustitución.
4) Para cada sinusoide k avanzar de manera selectiva la fase de la DFT de la trama prototipo con 0k para los índices de la DFT relacionados con una proximidad alrededor de la frecuencia de sinusoide fk.
5) Calcular la DFT inversa del espectro obtenido en 4).
Las realizaciones descritas anteriormente pueden además ser explicadas por las siguientes suposiciones:
a) La suposición de que la señal puede ser representada por un número limitado de sinusoides.
b) La suposición de que la trama de sustitución está suficientemente bien representada por estas sinusoides evolucionadas en el tiempo, en comparación con algún instante de tiempo anterior.
c) La suposición de una aproximación del espectro de una función de ventana de manera que el espectro de la trama de sustitución puede construirse mediante partes no superpuestas del espectro de la función de ventana desplazada en frecuencia, siendo las frecuencias desplazadas las frecuencias de sinusoide.
A continuación, se presentará información sobre una elaboración más detallada del Phase ECU:
Un concepto de las realizaciones descritas más adelante comprende la ocultación de una trama de audio perdida:
- realizando un análisis sinusoidal de al menos parte de una señal de audio previamente recibida o reconstruida, en donde el análisis sinusoidal implica la identificación de frecuencias de los componentes sinusoidales de la señal de audio;
- aplicando un modelo sinusoidal sobre un segmento de la señal de audio previamente recibida o reconstruida, en donde dicho segmento se utiliza como una trama prototipo para crear una trama de sustitución para una trama perdida;
- creando la trama de sustitución para la trama de audio perdida, que implica una evolución en el tiempo de los componentes sinusoidales de la trama prototipo, hasta la instancia de tiempo de la trama de audio perdida, en base a las correspondientes frecuencias identificadas;
- realizando al menos uno de una estimación de frecuencia mejorada en la identificación de frecuencias, y una adaptación de la creación de la trama de sustitución en respuesta a la tonalidad de la señal de audio, en donde la estimación de frecuencia mejorada comprende al menos uno de una aproximación de lóbulo principal, una mejora armónica, y una mejora entre tramas.
Las realizaciones descritas aquí comprenden una estimación de frecuencia mejorada. Esto puede implementarse, por ejemplo, utilizando una aproximación de lóbulo principal, una mejora armónica, o una mejora entre tramas, y esas tres realizaciones alternativas se describen a continuación:
Aproximación de lóbulo principal
Surge una limitación con la interpolación parabólica descrita anteriormente de que las parábolas utilizadas no se aproximan a la forma del lóbulo principal del espectro de magnitud
esta realización se ajusta a un función P{q), que aproxima el lóbulo
Figure imgf000016_0001
los puntos de cuadrícula del espectro de magnitud de la DFT que rodean los picos y calcula las frecuencias respectivas pertenecientes a la función máxima. La función P(g) podría ser idéntica al espectro de magnitud desplazado en
2 je
I W ( - - ( q - m
frecuencia de la función de ventana. Sin embargo, por simplicidad numérica debería ser, por ejemplo, un polinomio que permita un cálculo directo de la función máxima. Se aplica el siguiente procedimiento detallado:
1. Identificar los picos de la DFT de la trama de análisis de ventana. La búsqueda de picos entregará el número de picos K y los índices correspondientes de la DFT de los picos. La búsqueda de picos puede normalmente hacerse en el espectro de magnitud de la DFT o en el espectro de magnitud logarítmica de la DFT.
2. Derivar la función P(q) que aproxima el espectro de magnitud
Figure imgf000016_0002
de la función de
Figure imgf000016_0003
q)\
ventana o del espectro de magnitud logarítmica para un intervalo dado (gi, q 2).
3. Para cada pico k (con k=1...K) con el índice mk de la DFT correspondiente ajustado a la función desplazada en frecuencia P(q-qk) a través de dos puntos de cuadrícula de la DFT que rodean el esperado pico verdadero del espectro continuo de la señal sinusoidal de ventana. Por lo tanto, para el caso de funcionamiento con el espectro de magnitud logarítmica, si |X(mk-1)| es mayor que |X(mk+1)| se ajusta P(q-qk) a través de los puntos
{P1 ; P2} = {(mk-1, log(|X(mk-1 )|); (mk, log(|X(mk)|)} y de otro modo a través de los puntos
{P1 ; P2} = {(mk, log(|X(mk)|); (mk+1, log(|X(mk+1)|)}. Para el ejemplo alternativo de funcionamiento con un espectro de magnitud lineal en vez de uno logarítmico, si |X(m*-1)| es mayor que |X(mk+1)| se ajusta P(q-qk) a través de los puntos
{P1 ; P2} = {(mk-1, |X(mk-1)|; (mk, |X(mk)|} y de otro modo a través de los puntos {P1; P2} = {(mk, |X(mk)|; (mk+1, |X(mk+1)|}.
Por simplicidad, P(q) puede seleccionarse que sea un polinomio bien de orden 2 o 4. Esto hace que la aproximación en el paso 2 sea un simple cálculo de regresión lineal y el cálculo de qk directo. El intervalo (q1, q2) puede elegirse que sea fijo e idéntico para todos los picos, por ejemplo, (q1, q2) = (-1, 1), o adaptativo.
En el enfoque adaptativo el intervalo puede elegirse de manera que la función P(q-qk) se ajusta al lóbulo principal del espectro de función de ventana en el rango de los puntos de cuadrícula de la DFT relevantes {P1 ; P2}.
4. Para cada uno de los K parámetros de desplazamiento de frecuencia qk para los que el espectro continuo de la señal sinusoidal de ventana se espera que tenga su pico calculado fk = qk fs/L como una aproximación para la frecuencia de sinusoide fk.
Mejora armónica de la estimación de frecuencia
La señal transmitida puede ser armónica, lo que significa que la señal consiste en ondas sinusoidales cuyas frecuencias son múltiples enteros de alguna frecuencia fundamental fe. Este es el caso cuando la señal es muy periódica como, por ejemplo, para la voz sonora o para los tonos sostenidos de algún instrumento musical. Esto significa que las frecuencias del modelo sinusoidal de las realizaciones no son independientes sino que tienen una relación armónica y derivan de la misma frecuencia fundamental. Teniendo en cuenta esta propiedad armónica puede, consecuentemente, mejorar sustancialmente el análisis de las frecuencias del componente sinusoidal, y esta realización implica el siguiente procedimiento:
1. Comprobar si la señal es armónica. Esto puede, por ejemplo, ser hecho evaluando la periodicidad de la señal antes de la pérdida de trama. Un método directo es realizar un análisis de auto-correlación de la señal. El máximo de dicha función de auto-correlación para algún desfase temporal t > 0 puede utilizarse como un indicador. Si el valor de este máximo sobrepasa un umbral dado, la señal puede considerarse armónica. El desfase temporal correspondiente t corresponde entonces al período de la señal que está relacionado con la
Figure imgf000017_0001
= L
frecuencia fundamental a través de "
Muchos métodos de codificación predictiva lineal del habla aplican la llamada predicción de tono de bucle abierto o cerrado o codificación CELP (predicción lineal excitada por código) utilizando libros de código adaptativos. La ganancia de tono y los parámetros de retraso de tono asociados derivados por dichos métodos de codificación son también indicadores útiles de si la señal es armónica y, respectivamente, para el desfase temporal.
Se describe a continuación un método adicional:
2. Para cada índice armónico j dentro del rango entero 1...Jmax comprobar si existe un pico en el espectro de magnitud (logarítmica) de la DFT de la trama de análisis dentro de la proximidad de la frecuencia armónica fj = ¡ ■ fo. La proximidad de puede definirse como el rango delta alrededor de fk donde delta corresponde a la
L
L
resolución de frecuencia de la DFT es decir, el intervalo
Figure imgf000017_0002
En caso de que dicho pico esté presente con la frecuencia sinusoidal estimada correspondiente fk, reemplazar fk por
Figure imgf000017_0003
Para el procedimiento dado anteriormente también existe la posibilidad de hacer la comprobación de si la señal es armónica y la derivación de la frecuencia fundamental implícitamente y posiblemente de una manera iterativa sin necesariamente utilizar indicadores de algún método separado. Se da un ejemplo para dicha técnica como sigue:
Para cada fo.p salida de un conjunto de valores candidatos {f0,1 ... fo.pj aplicar el procedimiento 2 descrito anteriormente, aunque sin reemplazar fk pero contando cuantos picos de la DFT están presentes dentro de la proximidad alrededor de las frecuencias armónicas, es decir, los múltiplos enteros de fo.p. Identificar la frecuencia fundamental fo.pmax para la que se obtiene el mayor número de picos en o alrededor de las frecuencias armónicas. Si este mayor número de picos sobrepasa un umbral dado, entonces se supone que la señal es armónica. En ese caso se puede suponer que f 0,pmax es la frecuencia fundamental con la que luego se ejecuta el procedimiento 2 que conduce a frecuencias sinusoidales mejoradas fk . Sin embargo, una alternativa más preferible es primero optimizar la estimación de frecuencia fundamental fe basándose en los picos de frecuencia fk que se han encontrado que coinciden con las frecuencias armónicas. Suponer un conjunto de M armónicos, es decir, múltiplos enteros {m ... üm} de alguna frecuencia fundamental que se ha encontrado que coincide con algún conjunto de M picos espectrales en las frecuencias fk(m¡, m = 1...M, entonces puede calcularse la estimación de frecuencia fundamental (optimizada) subyacente fo.opí para minimizar el error entre las frecuencias armónicas y las frecuencias de pico espectrales. Si el error a minimizar es el
Figure imgf000018_0001
error cuadrático medio entonces la estimación de frecuencia fundamental óptima se calcula como
Figure imgf000018_0002
El conjunto inicial de valores candidatos {fo,i ... fo,p} puede obtenerse a partir de las frecuencias de los picos de la DFT o de las frecuencias sinusoidales estimadas fk.
Mejora entre tramas de la estimación de frecuencia
Según esta realización, se mejora la precisión de las frecuencias sinusoidales estimadas fk considerando su evolución temporal. Así, las estimaciones de las frecuencias sinusoidales de un múltiplo de las tramas de análisis se combinan, por ejemplo, mediante promediado o predicción. Antes de promediar o predecir, se aplica un seguimiento de picos que conecta los picos espectrales estimados con las mismas sinusoides subyacentes respectivas.
Aplicar un modelo Sinusoidal
La aplicación de un modelo sinusoidal para realizar una operación de ocultación de pérdida de trama según las realizaciones puede describirse como sigue:
En caso de que un segmento dado de la señal codificada no pueda reconstruirse por el decodificador ya que la información codificada correspondiente no está disponible, es decir, ya que se ha perdido una trama, una parte disponible de la señal anterior a este segmento puede utilizarse como trama prototipo. Si y(n) con n=0...N-1 es el segmento no disponible para el que tiene que generarse una trama de sustitución z(n), e y(n) con n<0 es la señal previamente codificada disponible, una trama prototipo de la señal disponible de longitud L e índice de comienzo n-i se extrae con una función de ventana w(n) y se transforma en el dominio de la frecuencia, por ejemplo, mediante la DFT:
Figure imgf000018_0003
La función de ventana puede ser una de las funciones de ventana descritas anteriormente en el análisis sinusoidal. Preferiblemente, para ahorrar en complejidad numérica, la trama transformada al dominio de la frecuencia debe ser idéntica a la utilizada durante el análisis sinusoidal, lo que significa que la trama de análisis y la trama prototipo serán idénticas, e igualmente sus respectivas transformadas del dominio de la frecuencia.
En un siguiente paso se aplica la suposición del modelo sinusoidal. Según la suposición del modelo sinusoidal, la DFT de la trama prototipo puede escribirse como sigue:
Figure imgf000018_0004
Esta expresión también fue utilizada en la parte de análisis y se describió con detalle anteriormente.
A continuación, se consigue que el espectro de la función de ventana utilizada tenga solo una contribución significativa en un rango de frecuencia cercano a cero. Como se señaló anteriormente, el espectro de magnitud de la función de ventana es grande para frecuencias cercanas a cero y pequeño en caso contrario (dentro del rango de frecuencias normalizado de -n a n, correspondiente a la mitad de la frecuencia de muestreo). Por lo tanto, se supone como una aproximación que el espectro de ventana W(m) no es cero solo para un intervalo M = [-mmn, mmax], siendo mmin y mmax pequeños números positivos. En particular, se utiliza una aproximación del espectro de la función de ventana de manera que para cada k las contribuciones del espectro de la ventana desplazada en la expresión anterior no están estrictamente superpuestas. Por lo tanto en la ecuación anterior, para cada índice de frecuencia siempre hay solo, como máximo, la contribución de un sumando, es decir, de un espectro de ventana desplazada. Esto significa que la expresión anterior se reduce a la siguiente expresión aproximada:
Figure imgf000019_0001
para m e Mk no negativo y para cada k.
En la presente memoria, Mcdenota el intervalo entero:
Figure imgf000019_0002
Figure imgf000019_0003
donde rrimin.k y rrimax.k cumplen la restricción explicada anteriormente de
manera que los intervalos no se superponen. Una opción adecuada para mmm,ky mmax.kes establecerlos a un pequeño valor entero 5, por ejemplo, 5 = 3. En cambio, si los índices de la DFT relacionados con las dos frecuencias sinusoidales vecinas fk y fk+i son menores que 25, entonces 5 se establece a
suelo
Figure imgf000019_0004
de manera que se garantice que los intervalos no se superpongan. La función suelo (■) es el entero más cercano al argumento de la función que es más pequeño o igual a él.
El siguiente paso según las realizaciones es aplicar el modelo sinusoidal según la expresión anterior y evolucionar sus K sinusoides en el tiempo. La suposición de que los índices de tiempo del segmento borrado comparado con los índices de tiempo de la trama prototipo defieren por n-i muestras significa que las fases de las sinusoides avanzan por
Figure imgf000019_0005
Por lo tanto, el espectro de la DFT del modelo sinusoidal evolucionado es dado por:
Figure imgf000019_0006
Aplicando de nuevo la aproximación, según la cual el espectro de la función de ventana desplazada no se superpone,
Figure imgf000019_0007
da: para m e Mk no negativo y para cada k. Comparando la DFT de la trama prototipo Y-i(m) con la DFT del modelo sinusoidal evolucionado Yo(m) utilizando la aproximación, se encuentra que el espectro de magnitud permanece sin cambios mientras que la fase es desplazada
2 n ■— ? !_ ! ,
por 6k = fs para cada m e Mk. Por lo tanto, la trama de sustitución puede ser calculada por la siguiente expresión:
z(n) = IDFT{Z(m)} con Z(m) = Y(m) ■ ejsk para m e Mk no negativo y para cada k, donde IDFT denota la inversa de la DFT.
Una realización específica aborda la aleatorización de fase para los índices de la DFT que no pertenecen a ningún intervalo Mk. Como se describió anteriormente, los intervalos Mk, k=1...K tienen que ser establecidos de manera que no estén estrictamente superpuestos lo que es hecho utilizando algún parámetro 5, que controla el tamaño de los intervalos. Puede ocurrir que 5 sea pequeño en relación con la distancia de frecuencia de dos sinusoides vecinas. Por lo tanto, en el caso de que ocurra eso hay un hueco entre dos intervalos. En consecuencia, para los índices de la DFT m correspondientes no se define desplazamiento de fase según la expresión anterior Z(m) = Y(m) ■ e¡ek. Una opción adecuada según esta realización es aleatorizar la fase para estos índices, produciendo Z(m) = Y(m) ■ e¡2nrand( \ donde la función aleatoria^), devuelve un número aleatorio.
A continuación, se describen realizaciones que adaptan el tamaño de los intervalos Mk en respuesta a la tonalidad de la señal.
Una realización de esta invención comprende la adaptación del tamaño de los intervalos Mk en respuesta a la tonalidad de la señal. Esta adaptación puede combinarse con la estimación de frecuencia mejorada descrita anteriormente, que utiliza, por ejemplo, una aproximación de lóbulo principal, una mejora armónica, o una mejora entre tramas. Sin embargo, una adaptación del tamaño de los intervalos Mk en respuesta a la tonalidad de la señal puede realizarse, de manera alternativa, sin ninguna estimación de frecuencia mejorada anterior.
Se ha encontrado beneficioso para la calidad de las señales reconstruidas optimizar el tamaño de los intervalos Mk. En particular, los intervalos deberían ser mayores si la señal es muy tonal, es decir, cuando tiene picos espectrales claros y distintos. Este es el caso, por ejemplo, cuando la señal es armónica con una clara periodicidad. En otros casos donde la señal tiene una estructura espectral menos pronunciada con máximos espectrales más amplios, se ha encontrado que el uso de pequeños intervalos conduce a una mejor calidad. Este hallazgo conduce a una mejora adicional según la cual el tamaño del intervalo se adapta según las propiedades de la señal. Una realización es utilizar una tonalidad o un detector de periodicidad. Si este detector identifica la señal como tonal, el parámetro 5 que controla el tamaño del intervalo se establece a un valor relativamente grande. De lo contrario, el parámetro 5 se estable a valores relativamente más pequeños.
Se realiza un análisis sinusoidal de una parte de una señal de audio previamente recibida o reconstruida, en donde el análisis sinusoidal implica, en un paso, la identificación de frecuencias de los componentes sinusoidales, es decir, sinusoides, de la señal de audio. En un paso, se aplica un modelo sinusoidal sobre un segmento de la señal de audio previamente recibida o reconstruida, en donde dicho segmento se utiliza como una trama prototipo para crear una trama de sustitución para una trama de audio perdida, y en un paso se crea la trama de sustitución para la trama de audio perdida, que implica la evolución en el tiempo de los componentes sinusoidales, es decir, sinusoides, de la trama prototipo, hasta la instancia de tiempo de la trama de audio perdida, en respuesta a las correspondientes frecuencias identificadas. Sin embargo, el paso de la identificación de frecuencias de los componentes sinusoidales y/o el paso de la creación de la trama de sustitución puede comprender además la realización de al menos uno de una estimación de frecuencia mejorada en la identificación de frecuencias, y una adaptación de la creación de la trama de sustitución en respuesta a la tonalidad de la señal de audio. La estimación de frecuencia mejorada comprende al menos uno de una aproximación de lóbulo principal, una mejora armónica, y una mejora entre tramas.
Según una realización adicional, se supone que la señal de audio está compuesta de un número limitado de componentes sinusoidales individuales.
Según una realización ilustrativa, el método comprende la extracción de una trama prototipo a partir de una señal disponible previamente recibida o reconstruida utilizando una función de ventana, y en donde la trama prototipo extraída puede transformarse en una representación del dominio de la frecuencia.
Según una primera realización alternativa, la estimación de frecuencia mejorada comprende la aproximación de la forma de un lóbulo principal de un espectro de magnitud relacionado con una función de ventana, y puede comprender además identificar uno o más picos espectrales, k, y los correspondientes índices de la transformada discreta del dominio de la frecuencia mk asociados con una trama de análisis; derivar una función P(q) que aproxima el espectro de magnitud relacionado con la función de ventana, y para cada pico, k, con un índice de la transformada discreta del dominio de la frecuencia mk correspondiente, ajustar una función de frecuencia desplazada P(q - qk) a través de dos puntos de cuadrícula de la transformada discreta del dominio de la frecuencia que rodean un pico real esperado de un espectro continuo de una señal del modelo sinusoidal asumido asociada con la trama de análisis.
Según una segunda realización alternativa, la estimación de frecuencia mejorar es una mejora armónica, que comprende determinar si la señal de audio es armónica, y derivar una frecuencia fundamental, si la señal es armónica. La determinación puede comprender al menos uno de la realización de un análisis de auto-correlación de la señal de audio y la utilización de un resultado de una predicción de tono de bucle cerrado, por ejemplo, la ganancia de tono. El paso de la derivación puede comprender la utilización de un resultado adicional de una predicción de tono de bucle cerrado, por ejemplo, el desfase de tono. Según además esta segunda realización alternativa, el paso de la derivación puede comprender la comprobación de, para un índice armónico j, si existe un pico en un espectro de magnitud dentro de la proximidad de una frecuencia armónica asociada con dicho índice armónico y una frecuencia fundamental, estando asociado el espectro de magnitud con el paso de la identificación.
Según una tercera realización alternativa, la estimación de frecuencia mejorada es una mejora entre tramas, que comprende la combinación de frecuencias identificadas de dos o más tramas de la señal de audio. La combinación puede comprender un promedio y/o una predicción, y puede aplicarse un seguimiento de picos antes del promedio y/o predicción.
Según una realización, la adaptación en respuesta a la tonalidad de la señal de audio implica la adaptación de un tamaño de un intervalo Mk localizado en la proximidad de una componente sinusoidal k, dependiendo de la tonalidad de la señal de audio. Además, la adaptación del tamaño de un intervalo puede comprender el incremento del tamaño del intervalo para una señal de audio que tiene, comparativamente, más picos espectrales distintos, y la reducción del tamaño del intervalo para una señal de audio que tiene, comparativamente, picos espectrales más anchos.
El método según las realizaciones puede comprender la evolución en el tiempo de los componentes sinusoidales de un espectro de frecuencia de una trama prototipo avanzando la fase de una componente sinusoidal, en respuesta a la frecuencia de esta componente sinusoidal y en respuesta a la diferencia de tiempo entre la trama de audio perdida y la trama prototipo. Puede comprender además el cambio de un coeficiente espectral de la trama prototipo incluido en el intervalo Mk localizado en la proximidad de una sinusoide k por un desplazamiento de fase proporcional a la frecuencia sinusoidal fk y a la diferencia de tiempo entre la trama de audio perdida y la trama prototipo.
Las realizaciones también pueden comprender una transformada inversa del dominio de la frecuencia del espectro de frecuencia de la trama prototipo, después de los cambios de los coeficientes espectrales descritos anteriormente.
Más específicamente, el método de ocultación de pérdida de trama de audio según una realización adicional puede implicar los siguientes pasos:
1) Analizar un segmento de la señal disponible, previamente sintetizada, para obtener las frecuencias sinusoidales constituyentes fk de un modelo sinusoidal.
2) Extraer una trama prototipo y-1 a partir de la señal previamente sintetizada disponible y calcular la DFT de esa trama.
3) Calcular el desplazamiento de fase 6k para cada sinusoide k en respuesta a la frecuencia sinusoidal fk y al avance de tiempo n-i entre la trama prototipo y la trama de sustitución, en donde el tamaño del intervalo Mk puede haber sido adaptado en respuesta a la tonalidad de la señal de audio.
4) Para cada sinusoide k avanzar la fase de la DFT de la trama prototipo con 6k de manera selectiva para los índices de la DFT relacionados con una proximidad alrededor de la frecuencia de sinusoide fk.
5) Calcular la DFT inversa del espectro obtenido en el paso 4).
Las realizaciones descritas anteriormente pueden además ser explicadas por las siguientes suposiciones:
d) La suposición de que la señal puede ser representada por un número limitado de sinusoides.
e) La suposición de que la trama de sustitución está suficientemente bien representada por estas sinusoides evolucionadas en el tiempo, en comparación con algún instante de tiempo anterior.
f) La suposición de una aproximación del espectro de una función de ventana de manera que el espectro de la trama de sustitución puede construirse mediante partes no superpuestas del espectro de la función de ventana desplazada en frecuencia, siendo las frecuencias desplazadas las frecuencias de sinusoide.
Lo siguiente está relacionado con un método de control para Phase ECU, que fue mencionado previamente.
Adaptación del método de ocultación de pérdida de trama
En caso de que los pasos realizados anteriormente indiquen una condición que sugiera una adaptación de la operación de ocultación de pérdida de trama, se modifica el cálculo del espectro de la trama de sustitución:
Mientras que el cálculo original del espectro de la trama de sustitución se hace según la expresión Z(m) = Y(m) ■ e¡ek, se introduce ahora una adaptación que modifica tanto la magnitud como la fase. La magnitud se modifica mediante el escalado con dos factores a(m) y ¡3(m) y la fase se modifica con un componente de fase aditivo O(m). Esto conduce al siguiente cálculo modificado de la trama de sustitución:
Figure imgf000021_0001
Debe señalarse que los métodos originales (no adaptados) de ocultación de pérdida de trama se utilizan si a(m) = 1, ¡3(m) = 1 y 9(m) = 0. Por lo tanto, estos respectivos valores son los predeterminados.
El objetivo general con la introducción de las adaptaciones de magnitud es evitar los artefactos audibles del método de ocultación de pérdida de trama. Dichos artefactos pueden ser sonidos musicales o tonales o sonidos extraños que surgen a partir de repeticiones de sonidos transitorios. Dichos artefactos, a su vez, conducirían a degradaciones de la calidad, cuya prevención es el objetivo de las adaptaciones descritas. Una forma adecuada para dichas adaptaciones es modificar el espectro de magnitud de la trama de sustitución a un grado adecuado.
Se describirá ahora una realización de una modificación del método de ocultación. La adaptación de magnitud se hace, preferiblemente, si el contador de pérdidas de ráfaga nburst sobrepasa algún umbral thrburst, por ejemplo, thrburst = 3. En ese caso se utiliza un valor menor que 1 para el factor de atención, por ejemplo, a(m) = 0,1.
Sin embargo, se ha encontrado que es beneficioso realizar la atenuación con un grado creciente gradualmente. Una realización preferida que logra esto es definir un parámetro logarítmico que especifica un incremento logarítmico en la atenuación por trama, att_por_trama. Entonces, en caso de que el contador de ráfagas sobrepase el umbral, el factor de atenuación creciente gradualmente es calculado por
Figure imgf000022_0001
Aquí la constante c es una mera constate de escala que permite especificar el parámetro att_por_trama, por ejemplo, en decibelios (dB).
Se hace una adaptación preferida adicional en respuesta al indicador si se estima que la señal es música o habla. Para el contenido musical en comparación con el habla, es preferible aumentar el umbral thrburst y disminuir la atenuación por trama. Esto es equivalente a realizar la adaptación del método de ocultación de pérdida de trama con un grado inferior. Los antecedentes de este tipo de adaptación es que la música es, en general, menos sensible a ráfagas de pérdida más largas que el habla. Por lo tanto, el original, es decir, el método de ocultación de pérdida de trama no modificado todavía es preferible para este caso, al menos para un número mayor de pérdidas de trama seguidas.
Una adaptación adicional del método de ocultación respecto al factor de atenuación de magnitud se hace, preferiblemente, en caso de que se haya detectado un transitorio basándose en que el indicador R//r'band(k) o, de manera alternativa, R//r(m) o R//r ha pasado un umbral. En ese caso una acción de adaptación adecuada es modificar el segundo factor de atenuación de magnitud ¡5(m) de manera que la atenuación total está controlada por el producto de los dos factores a(m) ■ ¡5(m).
¡5(m) se establece en respuesta a un transitorio indicado. En caso de que se detecte una compensación el factor ¡5(m) se elige, preferiblemente, para reflejar la disminución de energía de la compensación. Una opción adecuada es establecer ¡5(m) al cambio de ganancia detectado:
Figure imgf000022_0002
En caso de que se detecte un inicio, se encuentra ventajoso además, limitar el aumento de energía en la trama de sustitución. En ese caso el factor puede establecerse a algún valor fijo de, por ejemplo, 1, lo que significa que no hay atenuación, pero tampoco ninguna amplificación.
En lo anterior se debe señalar que el factor de atenuación de magnitud se aplica, preferiblemente, a la frecuencia de manera selectiva, es decir, con factores calculados individualmente para cada banda de frecuencia. En caso de que no se utilice el enfoque de banda, los correspondientes factores de atenuación de magnitud todavía pueden ser obtenidos de una manera análoga. ¡5(m) puede entonces establecerse individualmente para cada contenedor de la DFT en caso de que se utilice la detección transitoria selectiva de frecuencia en el nivel del contenedor de la DFT. O, en caso de que no se utilice ninguna indicación transitoria selectiva de frecuencia, ¡5(m) puede ser, a escala global, idéntico para todo m.
Una adaptación preferida adicional del factor de atenuación de magnitud se hace junto con una modificación de la fase mediante el componente de fase adicional -9(m). En caso de que se utilice, para un m dado, dicha modificación de fase, el factor de atenuación p(m) se reduce aún más. Preferiblemente, incluso el grado de la modificación de fase es tenido en cuenta. Si la modificación de fase es solo moderada, ¡5(m) solo se reduce ligeramente, mientras que si la modificación de fase es fuerte, ¡5(m) se reduce en mayor medida.
El objetivo general con la introducción de adaptaciones de fase es evitar tonalidades demasiado fuertes o periodicidad de señal en las tramas de sustitución generadas, lo que a su vez conduciría a degradaciones de la calidad. Una forma adecuada para dichas adaptaciones es aleatorizar u oscilar la fase en un grado adecuado.
Dicha oscilación de fase se logra si el componente de fase adicional 9(m) se establece a un valor aleatorio escalado con algún factor de control: 9(m) = a(m) ■ aleatoria^).
El valor aleatorio obtenido por la función aleatoria^) es, por ejemplo, generado por algún generador de números pseudo aleatorios. Aquí se supone que se proporciona un número aleatorio dentro del intervalo [0, 2n].
El factor de escala a(m) en la ecuación anterior controla el grado por el que se oscila la fase original 6k. Las siguientes realizaciones abordan la adaptación de fase mediante el control de este factor de escala. El control del factor de escala se hace de una forma análoga al control de los factores de modificación de magnitud descrito anteriormente.
Según una primera realización el factor de escala a(m) se adapta en respuesta al contador de pérdidas de ráfaga. Si el contador de pérdidas de ráfaga nburst sobrepasa algún umbral thrburst, por ejemplo, thrburst = 3, se utiliza un valor mayor que 0, por ejemplo, a(m) = 0,2.
Sin embargo, se ha encontrado beneficioso realizar la oscilación con un grado creciente gradualmente. Una realización preferida que logra esto es definir un parámetro que especifica un incremento en la oscilación por trama, incremento_oscilación_por_trama. Entonces, en caso de que el contador de ráfagas sobrepase el umbral el factor de control de oscilación creciente gradualmente es calculado por
a(m ) = dith_increase_per_frame (nburst — thrburst).
Debe señalarse en la anterior fórmula que a(m) tiene que limitarse a un valor máximo de 1 para que se alcance la oscilación de fase completa.
Debe señalarse que el valor del umbral de pérdida de ráfaga thrburst utilizado para la oscilación de fase inicial puede ser el mismo umbral que el utilizado para la atenuación de magnitud. Sin embargo, puede obtenerse mejor calidad estableciendo estos umbrales a valores óptimos de manera individual, lo que, en general, significa que estos umbrales pueden ser diferentes.
Se hace una adaptación preferida adicional en respuesta al indicador si se estima que la señal es música o habla. Para el contenido musical en comparación con el habla, es preferible aumentar el umbral thrburst lo que significa que la oscilación de fase para la música, en comparación con el habla, se hace solo en caso de más tramas perdidas seguidas. Esto es equivalente a realizar la adaptación del método de ocultación de pérdida de trama para la música con un grado inferior. Los antecedentes de este tipo de adaptación es que la música es, en general, menos sensible a ráfagas de pérdida más largas que el habla. Por lo tanto, el original, es decir, el método de ocultación de pérdida de trama no modificado todavía es preferible para este caso, al menos para un número mayor de pérdidas de trama seguidas.
Una realización preferida adicional es adaptar la oscilación de fase en respuesta a un transitorio detectado. En ese caso puede utilizarse un mayor grado de oscilación de fase para los contenedores de la DFT m para los que es indicado un transitorio bien para ese contenedor, para los contenedores de la DFT de la banda de frecuencia correspondiente o de la trama completa.
Parte de los esquemas descritos abordan la optimización del método de ocultación de pérdida de trama para señales armónicas y, particularmente, para la voz sonora.
En caso de que los métodos que utilizan una estimación de frecuencia mejorada como se describió anteriormente no se realicen, otra posibilidad de adaptación para el método de ocultación de pérdida de trama que optimiza la calidad para las señales de voz sonora, es cambiar a algún otro método de ocultación de pérdida de trama que esté diseñado y optimizado, específicamente, para el habla más que para las señales de audio generales que contienen música y habla. En ese caso, se utiliza el indicador de que la señal comprende una señal de voz sonora para seleccionar otro esquema de ocultación de pérdida de trama optimizado para el habla antes que los esquemas descritos anteriormente.
En resumen, debe entenderse que la elección de unidades o módulos de interacción, así como la nomenclatura de las unidades son solo para fines ilustrativos, y pueden configurarse en una pluralidad de modos alternativos para poder ejecutar las acciones del proceso descrito.
Cabe señalar que las unidades o módulos descritos en esta descripción deben considerarse como entidades lógicas y no necesariamente como entidades físicas separadas. Se apreciará que el alcance de la tecnología descrita en la presente memoria abarca completamente otras realizaciones que resultan obvias para los expertos en la técnica, y que el alcance de esta descripción no se limita en consecuencia.
La referencia a un elemento en singular no pretende significar “uno y solo uno”, a menos que se indique explícitamente, sino más bien “uno o varios”. Todos los equivalentes estructurales y funcionales a los elementos de las realizaciones descritas anteriormente, que son conocidos por los expertos en la técnica, se incorporan expresamente en la presente memoria como referencia, y se pretende que se incorporen por la presente. Además, no es necesario para un dispositivo o método abarcar todos y cada uno de los problemas que se intentan resolver mediante la tecnología descrita en la presente memoria, para que se abarquen por la presente.
En la descripción anterior, para fines de explicación y no de limitación, se establecen detalles específicos como arquitecturas, interfaces, técnicas, etc. particulares para proporcionar una comprensión profunda de la tecnología descrita. Sin embargo, será evidente para los expertos en la técnica que la tecnología descrita puede practicarse en otras realizaciones y/o combinaciones de realizaciones que se apartan de estos detalles específicos. Es decir, los expertos en la técnica podrán idear varias disposiciones que, aunque no se describen o muestran explícitamente en la presente memoria, encarnan los principios de la tecnología descrita. En ciertas ocasiones, se omiten descripciones detalladas de dispositivos bien conocidos, circuitos, y métodos para no oscurecer la descripción de la tecnología descrita con detalles innecesarios. Todas las declaraciones en la presente memoria que recitan principios, aspectos, y realizaciones de la tecnología descrita, así como ejemplos específicos de los mismos, se pretende que abarquen tanto los equivalentes estructurales como funcionales de los mismos. Además, se pretende que dichos equivalentes incluyan tanto los equivalentes conocidos actualmente como los equivalentes desarrollados en el futuro, por ejemplo, cualesquiera elementos desarrollados que realicen la misma función, independientemente de la estructura.
Así, por ejemplo, será apreciado por los expertos en la técnica que las figuras en la presente memoria pueden representar vistas conceptuales de circuitos ilustrativos u otras unidades funcionales que encarnan los principios de la tecnología, y/o varios procesos que pueden, sustancialmente, representarse en un medio legible por ordenador y ser ejecutados por un ordenador o procesador, aunque dicho ordenador o procesador no se muestre explícitamente en las figuras.
Las funciones de los diversos elementos que incluyen bloques funcionales pueden proporcionarse a través del uso de hardware, como hardware de circuito y/o hardware capaz de ejecutar software en forma de instrucciones codificadas almacenadas en un medio legible por ordenador. Así, dichas funciones y bloques funcionales ilustrados deben entenderse como implementadas bien en hardware y/o implementadas en ordenador, y por tanto, implementadas en máquina.
Las realizaciones descritas anteriormente deben entenderse como algunos ejemplos ilustrativos de la presente invención. Los expertos en la materia entenderán que se pueden realizar diversas modificaciones, combinaciones y cambios a las realizaciones sin salirse del alcance de la presente invención. En particular, pueden combinarse diferentes soluciones parciales en las diferentes realizaciones en otras configuraciones, donde sea técnicamente posible.
El concepto inventivo ha sido descrito anteriormente, principalmente, con referencia a algunas realizaciones. Sin embargo, como aprecia fácilmente una persona experta en la técnica, son igualmente posibles otras realizaciones que las descritas anteriormente dentro del alcance del concepto inventivo, según lo definido por las reivindicaciones de patente adjuntas.

Claims (5)

REIVINDICACIONES
1. Un método de ocultación de pérdida de trama para la gestión de error de ráfaga, siendo realizado el método por una entidad receptora, comprendiendo el método:
generar un espectro de la trama de sustitución mediante el uso de un método primario de ocultación de pérdida de trama, en donde el espectro de la trama de sustitución se basa en un espectro de una trama de una señal de audio recibida previamente;
determinar (S101) un componente de ruido, en donde una frecuencia característica del componente de ruido es una representación espectral de baja resolución de la trama de la señal de audio recibida previamente; determinar (S102) si un número n de tramas pérdidas o erróneas sobrepasa un umbral;
si el número n de tramas pérdidas o erróneas no sobrepasa el umbral, añadir (S104, S208) el componente de ruido al espectro de la trama de sustitución;
si el número n de tramas pérdidas o erróneas sobrepasa el umbral, aplicar (S103, S206) un factor de atenuación Y al componente de ruido antes de añadir (S104, S208) el componente de ruido al espectro de la trama de sustitución.
2. El método según la reivindicación 1, en donde el umbral es mayor de o igual a 10.
3. Una entidad receptora (103, 200, 400, 800, 900) para la ocultación de pérdida de trama, comprendiendo la entidad receptora un circuito de procesamiento (803), siendo configurado el circuito de procesamiento para provocar que la entidad receptora:
genere un espectro de la trama de sustitución mediante el uso de un método primario de ocultación de pérdida de trama, en donde el espectro de la trama de sustitución se basa en un espectro de una trama de una señal de audio recibida previamente;
determine un componente de ruido, en donde una frecuencia característica del componente de ruido es una representación espectral de baja resolución de la trama de la señal de audio recibida previamente; determine si un número n de tramas pérdidas o erróneas sobrepasa un umbral;
añada el componente de ruido al espectro de la trama de sustitución, si el número n de tramas perdidas o erróneas no sobrepasa el umbral;
aplique un factor de atenuación Y al componente de ruido si el número n de tramas pérdidas o erróneas sobrepasa el umbral y después de aplicar el factor de atenuación, añadir el componente de ruido al espectro de la trama de sustitución.
4. La entidad receptora según la reivindicación 3, en donde el umbral es mayor de o igual a 10.
5. La entidad receptora según una cualquiera de la reivindicaciones 3 o 4, en donde la entidad receptora es una de: un códec, un decodificador, un dispositivo inalámbrico, un teléfono inteligente, una tablet, un ordenador.
ES20152601T 2014-06-13 2015-06-08 Gestión de errores de trama de ráfaga Active ES2897478T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201462011598P 2014-06-13 2014-06-13

Publications (1)

Publication Number Publication Date
ES2897478T3 true ES2897478T3 (es) 2022-03-01

Family

ID=53502813

Family Applications (2)

Application Number Title Priority Date Filing Date
ES20152601T Active ES2897478T3 (es) 2014-06-13 2015-06-08 Gestión de errores de trama de ráfaga
ES18167282T Active ES2785000T3 (es) 2014-06-13 2015-06-08 Gestión de errores de trama de ráfaga

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES18167282T Active ES2785000T3 (es) 2014-06-13 2015-06-08 Gestión de errores de trama de ráfaga

Country Status (12)

Country Link
US (5) US9972327B2 (es)
EP (3) EP3367380B1 (es)
JP (3) JP6490715B2 (es)
CN (3) CN111312261B (es)
BR (1) BR112016027898B1 (es)
DK (1) DK3664086T3 (es)
ES (2) ES2897478T3 (es)
MX (3) MX2021008185A (es)
PL (1) PL3367380T3 (es)
PT (1) PT3664086T (es)
SG (2) SG11201609159PA (es)
WO (1) WO2015190985A1 (es)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT3664086T (pt) * 2014-06-13 2021-11-02 Ericsson Telefon Ab L M Gestão de erros de tramas em rajada
CN108922551B (zh) * 2017-05-16 2021-02-05 博通集成电路(上海)股份有限公司 用于补偿丢失帧的电路及方法
WO2020154367A1 (en) * 2019-01-23 2020-07-30 Sound Genetics, Inc. Systems and methods for pre-filtering audio content based on prominence of frequency content

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3601074B2 (ja) * 1994-05-31 2004-12-15 ソニー株式会社 信号処理方法及び信号処理装置
FI97182C (fi) * 1994-12-05 1996-10-25 Nokia Telecommunications Oy Menetelmä vastaanotettujen huonojen puhekehysten korvaamiseksi digitaalisessa vastaanottimessa sekä digitaalisen tietoliikennejärjestelmän vastaanotin
US6952668B1 (en) 1999-04-19 2005-10-04 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
EP1098297A1 (en) * 1999-11-02 2001-05-09 BRITISH TELECOMMUNICATIONS public limited company Speech recognition
DE60100131T2 (de) * 2000-09-14 2003-12-04 Lucent Technologies Inc Verfahren und Vorrichtung zur Diversity-Betriebsteuerung in der Sprachübertragung
JP2002229593A (ja) 2001-02-06 2002-08-16 Matsushita Electric Ind Co Ltd 音声信号復号化処理方法
DE10130233A1 (de) * 2001-06-22 2003-01-02 Bosch Gmbh Robert Verfahren zur Störverdeckung bei digitaler Audiosignalübertragung
WO2003023763A1 (en) 2001-08-17 2003-03-20 Broadcom Corporation Improved frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
JP2003099096A (ja) 2001-09-26 2003-04-04 Toshiba Corp オーディオ復号処理装置及びこの装置に用いられる誤り補償装置
US20040122680A1 (en) * 2002-12-18 2004-06-24 Mcgowan James William Method and apparatus for providing coder independent packet replacement
US6987591B2 (en) * 2003-07-17 2006-01-17 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Through The Communications Research Centre Canada Volume hologram
US7546508B2 (en) * 2003-12-19 2009-06-09 Nokia Corporation Codec-assisted capacity enhancement of wireless VoIP
EP1722359B1 (en) * 2004-03-05 2011-09-07 Panasonic Corporation Error conceal device and error conceal method
EP1746580B1 (en) * 2004-05-10 2010-03-24 Nippon Telegraph and Telephone Corporation Acoustic signal packet communication method, transmission method, reception method, and device and program thereof
KR100708123B1 (ko) * 2005-02-04 2007-04-16 삼성전자주식회사 자동으로 오디오 볼륨을 조절하는 방법 및 장치
KR100612889B1 (ko) * 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
CN101115051B (zh) * 2006-07-25 2011-08-10 华为技术有限公司 音频信号处理方法、系统以及音频信号收发装置
EP2054878B1 (en) * 2006-08-15 2012-03-28 Broadcom Corporation Constrained and controlled decoding after packet loss
JP2008058667A (ja) * 2006-08-31 2008-03-13 Sony Corp 信号処理装置および方法、記録媒体、並びにプログラム
CN101046964B (zh) * 2007-04-13 2011-09-14 清华大学 基于重叠变换压缩编码的错误隐藏帧重建方法
JP2009063928A (ja) * 2007-09-07 2009-03-26 Fujitsu Ltd 補間方法、情報処理装置
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
KR100998396B1 (ko) * 2008-03-20 2010-12-03 광주과학기술원 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
US8428959B2 (en) * 2010-01-29 2013-04-23 Polycom, Inc. Audio packet loss concealment by transform interpolation
US8321216B2 (en) * 2010-02-23 2012-11-27 Broadcom Corporation Time-warping of audio signals for packet loss concealment avoiding audible artifacts
PL2874149T3 (pl) * 2012-06-08 2024-01-29 Samsung Electronics Co., Ltd. Sposób i urządzenie do ukrywania błędu ramki oraz sposób i urządzenie do dekodowania audio
CN107731237B (zh) * 2012-09-24 2021-07-20 三星电子株式会社 时域帧错误隐藏设备
EP3576087B1 (en) 2013-02-05 2021-04-07 Telefonaktiebolaget LM Ericsson (publ) Audio frame loss concealment
US9478221B2 (en) 2013-02-05 2016-10-25 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced audio frame loss concealment
SG10201700846UA (en) 2013-02-05 2017-03-30 Ericsson Telefon Ab L M Method and apparatus for controlling audio frame loss concealment
CN103456307B (zh) * 2013-09-18 2015-10-21 武汉大学 音频解码器中帧差错隐藏的谱代替方法及系统
PT3664086T (pt) * 2014-06-13 2021-11-02 Ericsson Telefon Ab L M Gestão de erros de tramas em rajada

Also Published As

Publication number Publication date
US20200118573A1 (en) 2020-04-16
EP3367380A1 (en) 2018-08-29
CN106463122B (zh) 2020-01-31
BR112016027898B1 (pt) 2023-04-11
CN106463122A (zh) 2017-02-22
US9972327B2 (en) 2018-05-15
MX2018015154A (es) 2021-07-09
MX361844B (es) 2018-12-18
JP6714741B2 (ja) 2020-06-24
JP2017525985A (ja) 2017-09-07
US20180182401A1 (en) 2018-06-28
EP3664086A1 (en) 2020-06-10
CN111312261A (zh) 2020-06-19
DK3664086T3 (da) 2021-11-08
JP6490715B2 (ja) 2019-03-27
US11100936B2 (en) 2021-08-24
US20230368802A1 (en) 2023-11-16
WO2015190985A1 (en) 2015-12-17
MX2021008185A (es) 2022-12-06
MX2016014776A (es) 2017-03-06
SG11201609159PA (en) 2016-12-29
JP6983950B2 (ja) 2021-12-17
US20210350811A1 (en) 2021-11-11
PL3367380T3 (pl) 2020-06-29
CN111292755B (zh) 2023-08-25
BR112016027898A8 (pt) 2021-07-13
ES2785000T3 (es) 2020-10-02
EP3367380B1 (en) 2020-01-22
PT3664086T (pt) 2021-11-02
US20160284356A1 (en) 2016-09-29
EP3155616A1 (en) 2017-04-19
US11694699B2 (en) 2023-07-04
JP2019133169A (ja) 2019-08-08
CN111312261B (zh) 2023-12-05
SG10201801910SA (en) 2018-05-30
CN111292755A (zh) 2020-06-16
US10529341B2 (en) 2020-01-07
JP2020166286A (ja) 2020-10-08
BR112016027898A2 (pt) 2017-08-15
EP3664086B1 (en) 2021-08-11

Similar Documents

Publication Publication Date Title
ES2603827T3 (es) Método y aparato para controlar la ocultación de pérdida de trama de audio
US11694699B2 (en) Burst frame error handling