ES2683870T3

ES2683870T3 - Procesador de audio y método para procesar una señal de audio usando corrección de fase

Info

Publication number: ES2683870T3
Application number: ES15734098.5T
Authority: ES
Inventors: Sascha Disch; Mikko-Ville Laitinen; Ville Pulkki
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2014-07-01
Filing date: 2015-06-25
Publication date: 2018-09-28
Anticipated expiration: 2035-06-25
Also published as: EP3164869B1; EP3164870B1; AU2015282747A1; MX2016016897A; US20170110135A1; CA2953426C; BR112016030343A2; JP2017525995A; TW201618079A; EP3164872A1; CN106663438B; EP3164870A1; ES2677250T3; MY182904A; US10770083B2; RU2017103100A3; MY182840A; SG11201610837XA; US20170110132A1; MX2016016758A

Abstract

Un procesador de audio (50) para procesar una senal de audio (55) que comprende: un calculador de medida de fase de la senal de audio (60) configurado para calcular una medida de fase (80) de una senal de audio para una trama de tiempo (75a); un determinador de medida de fase objetivo (65) para determinar una medida de fase objetivo (85) para dicha trama de tiempo (75a); un corrector de fase (70) configurado para corregir fases (45) de la senal de audio (55) para la trama de tiempo (75a) usando la medida de fase calculada (80) y la medida de fase objetivo (85) para obtener una senal de audio procesada (90).

Description

5

10

15

20

25

30

35

40

45

50

55

60

DESCRIPCION

Procesador de audio y método para procesar una señal de audio usando corrección de fase

La presente invención se refiere a un procesador de audio y a un método para procesar una señal de audio, un decodificador y un método para decodificar una señal de audio, y un codificador y un método para codificar una señal de audio. Además, se describe un calculador y un método para determinar datos de corrección de fase, una señal de audio, y un programa informático para realizar uno de los métodos anteriormente descritos. En otras palabras, la presente invención muestra una corrección de derivadas de fase y ampliación de ancho de banda (BWE) para los códecs de audio perceptual o la corrección del espectro de la fase de señales con ancho de banda ampliado en el dominio QMF basándose en la importancia perceptual.

Codificación perceptual de audio

La codificación perceptual de audio vista hasta la fecha sigue varios temas comunes, que incluyen el uso del procesamiento en el dominio del tiempo/frecuencia, la reducción de redundancia (codificación por entropía) y la eliminación de irrelevancia por medio del aprovechamiento pronunciado de los efectos perceptuales [1]. Por lo general, la señal de entrada se analiza por un banco de filtros de análisis que convierte la señal en el dominio del tiempo en una representación espectral (tiempo/frecuencia). La conversión a coeficientes espectrales permite procesar selectivamente los componentes de la señal dependiendo de su contenido de frecuencia (por ejemplo diferentes instrumentos con sus estructuras de sobretono individuales).

En paralelo, la señal de entrada se analiza con respecto a sus propiedades perceptuales, es decir se calcula específicamente el umbral de enmascaramiento dependiente del tiempo y de la frecuencia. El umbral de enmascaramiento dependiente del tiempo/frecuencia se entrega a la unidad de cuantificación a través de un umbral de codificación objetivo en forma de valor absoluto de energía o una Relación Enmascaramiento a Señal (MSR) por cada banda de frecuencia y trama de tiempo de codificación.

Se cuantifican los coeficientes espectrales entregados por el banco de filtros de análisis para reducir la tasa de datos necesaria para representar la señal. Este paso conlleva una pérdida de información e introduce una distorsión de codificación (error, ruido) en la señal. Para minimizar el impacto audible de este ruido de codificación, se controlan los tamaños de paso del cuantificador de acuerdo con los umbrales de codificación objetivo para cada banda de frecuencia y trama. De manera ideal, el ruido de codificación inyectado en cada banda de frecuencia es inferior al umbral de codificación (enmascaramiento) y, por consiguiente, no hay degradación perceptible del audio subjetivo (eliminación de irrelevancia). Este control del ruido de cuantificación en la frecuencia y el tiempo de acuerdo con los requisitos psicoacústicos lleva a un efecto de conformación de ruido sofisticado y es lo que hace que el codificador sea un codificador perceptual de audio.

Posteriormente, los codificadores de audio modernos realizan la codificación por entropía (por ejemplo la codificación de Huffman, codificación aritmética) en los datos espectrales cuantificados. La codificación por entropía es una etapa de codificación sin pérdidas, lo que produce más ahorros de la tasa de bits.

Por último, todos los datos espectrales codificados y los parámetros adicionales relevantes (información secundaria, como por ejemplo los ajustes del cuantificador por cada banda de frecuencia) se empaquetan juntos en un flujo de bits, que es la representación final codificada destinada al almacenamiento de archivos o a la transmisión.

Ampliación de ancho de banda

En la codificación perceptual de audio basada en bancos de filtros, la parte principal de la tasa de bits consumida se gasta habitualmente en los coeficientes espectrales cuantificados. Por consiguiente, a tasas de bits muy bajas, no hay suficientes bits libres para representar todos los coeficientes con la precisión necesaria para obtener una reproducción perceptualmente intacta. De esta manera, los requisitos de bajas tasas de bits establecen de manera eficaz un límite al ancho de banda de audio que se puede obtener mediante la codificación perceptual de audio. La ampliación de ancho de banda [2] elimina esta limitación fundamental duradera. La idea central de la ampliación del ancho de banda es complementar un códec perceptual limitado por la banda mediante un procesador de alta frecuencia adicional que transmite y restablece el contenido de alta frecuencia faltante en forma paramétrica compacta. El contenido de alta frecuencia se puede generar basándose en la modulación de una banda lateral única de la señal de banda base, en técnicas de copiado como las utilizadas en la Replicación de la Banda Espectral (SBR) [3] o en la aplicación de técnicas de desplazamiento de tono, como por ejemplo el codificador vocal [4].

Efectos del audio digital

Habitualmente se obtienen efectos de dilatación temporal o desplazamiento de tono aplicando técnicas en el dominio del tiempo como el solapamiento y suma sincronizados (SOLA) o técnicas en el dominio de la frecuencia (codificador

5

10

15

20

25

30

35

40

45

50

55

60

vocal). Además, se han propuesto sistemas híbridos que aplican un procesamiento SOLA en las sub-bandas. Los codificadores vocales y sistemas híbridos por lo general sufren una distorsión denominada “reducción progresiva” [8] que se puede atribuir a la pérdida de coherencia de la fase vertical. Algunas publicaciones citan mejoras en la calidad del sonido de los algoritmos de dilatación temporal mediante la conservación de la coherencia de la fase vertical cuando esto es importante [6][7].

Los codificadores de audio del estado de la técnica [1] habitualmente comprometen la calidad perceptual de las señales de audio al despreciar importantes propiedades de la fase de la señal que se debe codificar. En [9] se trata una propuesta general de corrección de coherencia de la fase en los codificadores perceptuales de audio.

Sin embargo, no se pueden corregir todos los tipos de errores de coherencia de fase al mismo tiempo y no todos los errores de coherencia de fase son perceptualmente importantes. Por ejemplo, en la ampliación de ancho de banda de audio no resulta claro a partir del estado de la técnica qué errores relacionados con la coherencia de fases deberían corregirse con la mayor prioridad y qué errores pueden quedar corregidos sólo en parte o, en lo que respecta a su impacto perceptual insignificante, pueden desestimarse totalmente.

Especialmente debido a la aplicación de la ampliación de ancho de banda de audio [2][3][4], con frecuencia se deteriora la coherencia de fase en la frecuencia y en el tiempo. El resultado es un sonido sordo que muestra una aspereza sonora y puede contener tonos percibidos de más que se desprenden de los objetos de audio de la señal original y por lo tanto se perciben como objetos auditivos por sí mismos adicionalmente a la señal original. Más aun, también puede parecer que el sonido proviene desde una gran distancia y que tiene menos “zumbido” y por consiguiente suscita poca atención del oyente [5]

El documento US 2007/0238415 A1 desvela una técnica de ampliación de ancho de banda novedosa que permite que se codifique y decodifique información usando un modelo de auto-similitud fractal o un modelo de sustitución espectral precisa, o ambos. Una técnica de codificación de amplitud temporal de múltiples bandas útil como una mejora a cualquier técnica de codificación/decodificación, ayuda con la reconstrucción precisa de la envolvente temporal y emplea un banco de filtros de utilidad. Un codificador perceptual que usa un modelo de liberación de enmascaramiento co-modulación que opera típicamente con codificadores más convencionales hace el modelo perceptual más preciso y por lo tanto aumenta la eficacia del codificador perceptual global.

Por lo tanto, existe una necesidad de un enfoque mejorado.

Un objetivo de la presente invención es proporcionar un concepto mejorado para el procesamiento de una señal de audio. Este objetivo se resuelve mediante la materia objeto de las reivindicaciones independientes. Se definen realizaciones específicas en las reivindicaciones dependientes.

La presente invención se basa en el hallazgo de que se puede corregir la fase de una señal de audio de acuerdo con una fase objetivo calculada por un procesador de audio o un decodificador. La fase objetivo puede observarse como una representación de una fase de una señal de audio sin procesar. Por lo tanto, la fase de la señal de audio procesada se ajusta para que se adapte mejor a la fase de la señal de audio sin procesar. Teniendo, por ejemplo una representación de tiempo-frecuencia de la señal de audio, se puede ajustar la fase de la señal de audio para tramas de tiempo subsiguientes en una sub-banda, o bien se puede ajustar la fase en una trama de tiempo para las sub-bandas de frecuencia subsiguientes. Por lo tanto, se encontró un calculador que detecta y elige automáticamente el método de corrección más adecuado. Los hallazgos descritos pueden implementarse en diferentes realizaciones o implementarse conjuntamente en un decodificador y/o codificador.

Las realizaciones muestran un procesador de audio para procesar una señal de audio que comprende un calculador de medidas de fases de las señales de audio configurado para calcular una medida de fases de una señal de audio para un intervalo de tiempo. Más aun, la señal de audio comprende un determinador de medidas de la fase objetivo para determinar una medida de la fase objetivo para dicho intervalo de tiempo y un corrector de fase configurado para corregir las fases de la señal de audio para la trama de tiempo utilizando la medida de la fase calculada y la medida de la fase objetivo para obtener una señal de audio procesada.

De acuerdo con otras realizaciones, la señal de audio puede comprender una pluralidad de señales de sub-bandas para la trama de tiempo. El determinador de medidas de la fase objetivo está configurado para determinar una primera medida de fase objetivo para una primera señal de sub-banda y una segunda medida de fase objetivo para una segunda señal de sub-banda. Además, el calculador de medidas de fases de las señales de audio determina la primera medida de fase para la primera señal de sub-banda y una segunda medida de fase para la segunda señal de sub-banda. El corrector de fase está configurado para corregir la primera fase de la primera señal de sub-banda utilizando la primera medida de fase de la señal de audio y la primera medida de la fase objetivo y para corregir una segunda fase de la segunda señal de sub-banda utilizando la medida de la señal de audio y la segunda medida de la fase objetivo. Por lo tanto, el procesador de audio puede comprender un sintetizador de señales de audio para sintetizar una señal de audio corregida utilizando la primera señal de sub-banda corregida y la segunda señal de

5

10

15

20

25

30

35

40

45

50

55

60

sub-banda corregida.

De acuerdo con la presente invención, el procesador de audio está configurado para corregir la fase de la señal de audio en dirección horizontal, es decir una corrección en el tiempo. Por lo tanto, la señal de audio se puede dividir en una serie de tramas de tiempo, donde la fase de cada trama de tiempo puede ajustarse de acuerdo con la fase objetivo. La fase objetivo puede ser una representación de una señal de audio original, en la que el procesador de audio puede ser parte de un decodificador para decodificar la señal de audio que es una representación codificada de la señal de audio original. Opcionalmente, se puede aplicar la corrección horizontal de fase por separado para un número de sub-bandas de la señal de audio, si la señal de audio está disponible en una representación de tiempo- frecuencia. La corrección de la fase de la señal de audio puede realizarse restando una desviación de una derivada de fase en el tiempo de la fase objetivo y la fase de la señal de audio de la fase de la señal de audio.

Por lo tanto, dado que la derivada de la fase en el tiempo es una frecuencia (■

donde p es una fase), la

corrección de fase descrita realiza un ajuste de frecuencia para cada sub-banda de la señal de audio. En otras palabras, se puede reducir la diferencia de cada sub-banda de la señal de audio a una frecuencia objetivo para obtener una mejor calidad de la señal de audio.

Para determinar la fase objetivo, el determinador de fase objetivo está configurado para obtener una estimación de la frecuencia fundamental para una trama de tiempo actual y para realizar una estimación de frecuencia por cada sub-banda de la pluralidad de sub-bandas de la trama de tiempo usando la estimación de frecuencia fundamental para la trama de tiempo. La estimación de frecuencia se puede convertir en una derivada de la fase en el tiempo utilizando un número total de sub-bandas y una frecuencia de muestreo de la señal de audio. En otra realización, el procesador de audio comprende un determinador de medidas de la fase objetivo para determinar una medida de la fase objetivo para la señal de audio en una trama de tiempo, un calculador de errores de fase para calcular un error de fase utilizando una fase de la señal de audio y la trama de tiempo de la medida de la fase objetivo, y un corrector de fase configurado para corregir la fase de la señal de audio y la trama de tiempo utilizando el error de fase.

De acuerdo con otras realizaciones, se puede obtener la señal de audio en una representación de tiempo- frecuencia, en la que la señal de audio comprende una pluralidad de sub-bandas para la trama de tiempo. El determinador de medidas de la fase objetivo determina una primera medida de fase objetivo para una primera señal de sub-banda y una segunda medida de fase objetivo para una segunda señal de sub-banda. Más aun, el calculador de errores de fase forma un vector de errores de fase, en el que un primer elemento del vector se refiere a una primera desviación de la fase de la primera señal de sub-banda y la primera medida de la fase objetivo y en el que un segundo elemento del vector se refiere a una segunda desviación de la fase de la segunda señal de sub-banda y la segunda medida de la fase objetivo. Adicionalmente, el procesador de audio de esta realización comprende un sintetizador de señales de audio para sintetizar una señal de audio corregida utilizando la primera señal de subbanda corregida y la segunda señal de sub-banda corregida. Esta corrección de fase produce valores de fase corregidos de media.

Adicionalmente o como alternativa, la pluralidad de sub-bandas se agrupa en una banda base y una serie de parches de frecuencia, en el que la banda base comprende una sub-banda de la señal de audio y la serie de parches de frecuencia comprende al menos una sub-banda de la banda base a una frecuencia más alta que la frecuencia de la al menos una sub-banda en la banda base.

Otras realizaciones muestran el calculador de errores de fase configurado para calcular una media de los elementos de un vector de errores de fase que se refiere a un primer parche del segundo número de parches de frecuencia para obtener un error de fase promedio. El corrector de fase está configurado para corregir una fase de la señal de sub-banda en el primer parche de frecuencia y subsiguientes de la serie de parches de frecuencia de la señal de parche utilizando un error de fase promedio ponderado, en el que el error de fase promedio se divide de acuerdo con un índice del parche de frecuencia para obtener una señal de parche modificada. Esta corrección de fase proporciona una buena calidad a las frecuencias de cruce, que son las frecuencias límite entre dos parches de frecuencia posteriores.

De acuerdo con otra realización, pueden combinarse las dos realizaciones previamente descritas para obtener una señal de audio corregida que comprende valores de fase corregidos que de media son buenos y a las frecuencias de cruce. Por lo tanto, el calculador de derivadas de fases de la señal de audio está configurado para calcular una media de derivadas de fases en la frecuencia para una banda base. El corrector de fase calcula una señal de parche modificada adicional con un primer parche de frecuencia optimizado sumando la media de las derivadas de fases en la frecuencia ponderada en un índice de sub-banda actual a la fase de la señal la sub-banda con el índice de subbanda más elevado en una banda base de la señal de audio. Más aun, el corrector de fase puede estar configurado para calcular una media ponderada de la señal de parche modificada y de la señal de parche modificada adicional para obtener una señal de parche modificada combinada y para actualizar, de manera recursiva, basándose en los parches de frecuencia, la señal de parche modificada combinada mediante la suma de la media de las derivadas de

5

10

15

20

25

30

35

40

45

50

55

60

fases en la frecuencia, ponderada por el índice de sub-banda de la sub-banda actual, a la fase de la señal de la subbanda con el índice de sub-banda más elevado del parche de frecuencia anterior de la señal de parche modificada combinada.

Para determinar la fase objetivo, el determinador de medidas de la fase objetivo puede comprender un extractor de flujos de datos configurado para extraer una posición de pico y una frecuencia fundamental de las posiciones de los picos en una trama de tiempo actual de la señal de audio de un flujo de datos. Por otro lado, el determinador de medidas de la fase objetivo puede comprender un analizador de señales de audio configurado para analizar la trama de tiempo actual para calcular una posición de pico y una frecuencia fundamental de las posiciones de los picos en la trama de tiempo actual. Más aun, el determinador de medidas de la fase objetivo comprende un generador de espectros objetivo para estimar posiciones de los picos adicionales en la trama de tiempo actual utilizando la posición de pico y la frecuencia fundamental de las posiciones de los picos. En detalle, el generador de espectros objetivo puede comprender un detector de picos para generar un tren de pulsos de un tiempo, un formador de señales para ajustar la frecuencia del tren de pulsos de acuerdo con la frecuencia fundamental de las posiciones de los picos, un posicionador de pulsos para ajustar la fase del tren de pulsos de acuerdo con la posición y un analizador de espectros para generar un espectro de fase del tren de pulsos ajustado, en el que el espectro de fase de la señal en el dominio del tiempo es la medida de la fase objetivo. La realización descrita del determinador de medidas de la fase objetivo es ventajosa para generar un espectro objetivo para una señal de audio que tiene una forma de onda con picos.

Las realizaciones del segundo procesador de audio describen una corrección de fase vertical. La corrección de fase vertical ajusta la fase de la señal de audio en una trama de tiempo a través de todas las sub-bandas. El ajuste de fases de la señal de audio, aplicado de manera independiente a cada sub-banda da como resultado, después de sintetizar las sub-bandas de la señal de audio, una forma de onda de la señal de audio diferente de la señal de audio sin corregir. Por lo tanto, es posible, por ejemplo, remodelar un pico borroso o un transitorio.

De acuerdo con otra realización, se muestra un calculador para determinar datos de corrección de fase para una señal de audio con un determinador de variaciones para determinar una variación de la fase de la señal de audio en un primero y en un segundo modo de variación, un comparador de variaciones para comparar una primera variación que se determina utilizando el modo de variación de fases y una segunda variación que se determina utilizando el segundo modo de variación, y un calculador de datos de corrección para calcular la corrección de fase de acuerdo con el primer modo de variación o el segundo modo de variación basándose en el resultado de la comparación.

Otra realización muestra el determinador de variaciones para determinar una medida de la desviación típica de una derivada de la fase en el tiempo (PDT) para una pluralidad de tramas de tiempo de la señal de audio como la variación de la fase en el primer modo de variación o una medida de la desviación típica de una derivada de la fase en la frecuencia (PDF) para una pluralidad de sub-bandas como variación de la fase en el segundo modo de variación. El comparador de variaciones compara la medida de la derivada de la fase en el tiempo como el primer modo de variación y la medida de la derivada de la fase en la frecuencia como segundo modo de variación para tramas de tiempo de la señal de audio. De acuerdo con otra realización, el determinador de variaciones está configurado para determinar una variación de la fase de la señal de audio en un tercer modo de variación, en el que el tercer modo de variación es un modo de detección de transitorios. Por lo tanto, el comparador de variaciones compara los tres modos de variación y el calculador de datos de corrección calcula la corrección de la fase de acuerdo con el primer modo de variación, la segunda variación, o el tercer modo de variación basándose en un resultado de la comparación.

Las reglas de decisión del calculador de datos de corrección se pueden describir de la siguiente manera. En caso de detectarse un transitorio, se corrige la fase de acuerdo con la corrección de fase para que los transitorios restablezcan la forma del transitorio. De lo contrario, si la primera variación es menor o igual que la segunda variación, se aplica la corrección de fase del primer modo de variación o, si la segunda variación es mayor que la primera variación, se aplica la corrección de fase de acuerdo con el segundo modo de variación. Si se detecta la ausencia de un transitorio y si tanto la primera como la segunda variación exceden un valor umbral, no se aplica ninguno de los modos de corrección de la fase.

El calculador puede estar configurado para analizar la señal de audio, por ejemplo, en una etapa de codificación de audio, para determinar el mejor modo de corrección de la fase y para calcular los parámetros relevantes correspondientes al modo de corrección de la fase determinado. En una etapa de decodificación, pueden utilizarse los parámetros para obtener una señal de audio decodificada de mejor calidad, en comparación con las señales de audio que se decodifican utilizando códecs del estado de la técnica. Debe observarse que el calculador detecta de manera autónoma el modo apropiado de corrección para cada trama de tiempo de la señal de audio.

Las realizaciones muestran un decodificador para decodificar una señal de audio con un primer generador de espectros objetivo para generar un espectro objetivo para una primera trama de tiempo de una segunda señal de la señal de audio utilizando primeros datos de corrección y un primer corrector de la fase para corregir una fase de la

5

10

15

20

25

30

35

40

45

50

55

60

señal de sub-banda en la primera trama de tiempo de la señal de audio que se determina con un algoritmo de corrección de la fase, en el que la corrección se realiza reduciendo una diferencia entre una medida de la señal de sub-banda en la primera trama de tiempo de la señal de audio y el espectro objetivo. Además, el decodificador comprende un calculador de señales de sub-bandas de audio para calcular la señal de sub-banda de audio para la primera trama de tiempo utilizando una fase corregida para la trama de tiempo y para calcular la señal de sub-banda de audio para a una segunda trama de tiempo diferente de la primera trama de tiempo utilizando la medida de la señal de sub-banda en la segunda trama de tiempo o utilizando un cálculo de fase corregido de acuerdo con otro algoritmo de corrección de fase diferente del algoritmo de corrección de la fase.

De acuerdo con otras realizaciones, el decodificador comprende un segundo y un tercer generadores de espectros objetivo equivalentes al primer generador de espectros objetivo y un segundo y un tercer correctores de fase equivalentes al primer corrector de fase. Por lo tanto, el primer corrector de fase puede realizar una corrección de la fase horizontal, el segundo corrector de fase puede realizar una corrección de la fase vertical, y el tercer corrector de fase puede realizar transitorios de corrección de fase. De acuerdo con otra realización, el decodificador comprende un decodificador de núcleo configurado para decodificar la señal de audio en una trama de tiempo con un número reducido de sub-bandas con respecto a la señal de audio. Más aun, el decodificador puede comprender un generador de parches para generar parches en una serie de sub-bandas de la señal de audio decodificada en núcleo con un número reducido de sub-bandas, en el que la serie de sub-bandas forma un primer parche, hacia otras sub-bandas de la trama de tiempo, adyacentes al número reducido de sub-bandas, para obtener una señal de audio con un número uniforme de sub-bandas. Más aun, el decodificador puede comprender un procesador de magnitudes para procesar valores de magnitud de la señal de sub-banda de audio en la trama de tiempo y un sintetizador de señales de audio para sintetizar señales de audio de sub-bandas o una magnitud de las señales de audio de sub-bandas procesadas para obtener una señal de audio decodificada sintetizada. Esta realización puede establecer un decodificador para la ampliación de ancho de banda que comprende una corrección de fase de la señal de audio decodificada.

En consecuencia, un codificador para codificar una señal de audio que comprende un determinador de fase para determinar una fase de la señal de audio, un calculador para determinar datos de corrección de fase para una señal de audio basándose en la fase determinada de la señal de audio, un codificador núcleo configurado para codificar en núcleo la señal de audio para obtener una señal de audio codificada en núcleo que tiene un número reducido de sub-bandas con respecto a la señal de audio, y un extractor de parámetros configurado para extraer los parámetros de la señal de audio para obtener una representación paramétrica de baja resolución para una segunda serie de sub-bandas no incluidas en la señal de audio codificada en núcleo, y un formador de señales de audio para formar una señal de salida que comprende los parámetros, la señal de audio codificada en núcleo, y los datos de corrección de fase pueden formar un codificador para la ampliación de ancho de banda.

Todas las realizaciones previamente descritas pueden observarse en su totalidad o en combinación, por ejemplo en un codificador y/o decodificador para ampliación de ancho de banda con una corrección de fase de la señal de audio decodificada. Como alternativa, es posible también ver todas las realizaciones descritas de manera independiente unas con respecto a las otras.

Se analizarán realizaciones de la presente invención posteriormente haciendo referencia a los dibujos adjuntos, en los que:

La Figura 1a muestra el espectro de magnitud de una señal de violín en una representación de tiempo- frecuencia;

La Figura 1b muestra el espectro de fase que corresponde al espectro de magnitud de la Figura 1a;

La Figura 1c

muestra el espectro de magnitud de una señal de trombón en el dominio QMF en una representación de tiempo-frecuencia;

La Figura 1d muestra el espectro de fase que corresponde al espectro de magnitud de la Figura 1c;

La Figura 2 muestra un diagrama de tiempo frecuencia que comprende piezas de tiempo frecuencia (por

ejemplo segmentos de QMF, segmentos de bancos de Filtros Espejo en Cuadratura), definidos por una trama de tiempo y una sub-banda;

La Figura 3a muestra un diagrama de frecuencia ejemplar de una señal de audio, en el que la magnitud de la frecuencia se representa a través de diez sub-bandas diferentes;

La Figura 3b muestra una representación de frecuencia ejemplar de la señal de audio después de la recepción, por ejemplo durante un proceso de decodificación en una etapa intermedia;

La Figura 3c muestra una representación de frecuencia ejemplar de la señal de audio reconstruida Z(k,n);

La Figura 4a: muestra un espectro de magnitud de la señal de violín en el dominio QMF utilizando SBR por copiado directo en una representación de tiempo-frecuencia;

5 La Figura 4b: muestra un espectro de fase que corresponde al espectro de magnitud de la Figura 4a;

La Figura 4c: muestra un espectro de magnitud de una señal de trombón en el dominio QMF utilizando SBR por copiado directo en una representación de tiempo-frecuencia;

10 La Figura 4d La Figura 5: muestra el espectro de fase que corresponde al espectro de magnitud de la Figura 4c; muestra una representación en el dominio del tiempo de un único segmento de QMF con diferentes valores de fases;

La Figura 6 15: muestra una presentación en el dominio del tiempo y en el dominio de la frecuencia de una señal, que tiene una banda de frecuencia distinta de cero y con un cambio de la fase en un valor fijo, n/4 (superior) y 3n/4 (inferior);

La Figura 7: muestra una presentación en el dominio del tiempo y en el dominio de la frecuencia de una señal, que tiene una banda de frecuencia distinta de cero y con un cambio de la fase aleatorio;

20 La Figura 8: muestra el efecto descrito con respecto a la Figura 6 en una representación de tiempo frecuencia de cuatro tramas de tiempo y cuatro sub-bandas de frecuencia, donde sólo la tercera sub-banda comprende una frecuencia diferente de cero;

25 La Figura 9: muestra una representación en el dominio del tiempo y en el dominio de la frecuencia de una señal, que tiene una trama de tiempo distinta de cero y donde la fase cambia en un valor fijo, n/4 (superior) y 3n/4 (inferior);

La Figura 10 30: muestra una representación en el dominio del tiempo y en el dominio de la frecuencia de una señal, que tiene una trama de tiempo distinta de cero y donde la fase cambia de manera aleatoria;

La Figura 11: muestra un diagrama de tiempo frecuencia similar al diagrama de tiempo frecuencia mostrado en la Figura 8, donde sólo la tercera trama de tiempo comprende una frecuencia diferente de cero;

35 La Figura 12a: muestra una derivada de la fase en el tiempo de la señal de violín en el dominio QMF en una representación de tiempo-frecuencia;

La Figura 12b: muestra la frecuencia de la derivada de la fase que corresponde a la derivada de la fase en el tiempo mostrada en la Figura 12a;

40 La Figura 12c: muestra la derivada de la fase en el tiempo de la señal de trombón en el dominio QMF en una representación de tiempo-frecuencia;

La Figura 12d 45: muestra la derivada de la fase en la frecuencia de la derivada de la fase correspondiente en el tiempo de la Figura 12c;

La Figura 13a: muestra la derivada de la fase en el tiempo de la señal de violín en el dominio QMF utilizando SBR por copiado directo en una representación de tiempo-frecuencia;

50 La Figura 13b: muestra la derivada de la fase en la frecuencia que corresponde a la derivada de la fase en el tiempo mostrada en la Figura 13a;

La Figura 13c: muestra la derivada de la fase en el tiempo de la señal de trombón en el dominio QMF utilizando SBR por copiado directo en una representación de tiempo-frecuencia;

55 La Figura 13d: muestra la derivada de la fase en la frecuencia que corresponde a la derivada de la fase en el tiempo mostrada en la Figura 13c;

La Figura 14a 60: muestra esquemáticamente cuatro fases de, por ejemplo tramas de tiempo o sub-bandas de frecuencia subsiguientes, en un círculo unitario;

La Figura 14b: muestra las fases ilustradas en la Figura 14a después del procesamiento por SBR y, en línea discontinua, las fases corregidas;

La Figura 15 La Figura 16 5

La Figura 17

La Figura 18a

10

La Figura 18b La Figura 19

15 La Figura 20

La Figura 21

20 La Figura 22

La Figura 23

La Figura 24 25

La Figura 25 La Figura 26 30

La Figura 27

La Figura 28a 35

La Figura 28b

40 La Figura 29

La Figura 30 45

La Figura 31

La Figura 32 50

La Figura 33

La Figura 34 55

La Figura 35 La Figura 36 60 La Figura 37

La Figura 38a

muestra un diagrama esquemático de bloques de un procesador de audio 50;

muestra el procesador de audio en un diagrama esquemático de bloques de acuerdo con otra realización;

muestra un error alisado en la PDT de la señal de violín en el dominio QMF utilizando SBR por copiado directo en una representación de tiempo-frecuencia;

muestra un error en la PDT de la señal de violín en el dominio QMF para la SBR corregida en una representación de tiempo-frecuencia;

muestra la derivada de la fase en el tiempo que corresponde al error mostrado en la Figura 18a; muestra un diagrama esquemático de bloques de un decodificador;

muestra un diagrama esquemático de bloques de un codificador;

muestra un diagrama esquemático de bloques de un flujo de datos que puede ser una señal de audio;

muestra el flujo de datos de la Figura 21 de acuerdo con otra realización;

muestra un diagrama esquemático de bloques de un método para procesar una señal de audio;

muestra un diagrama esquemático de bloques de un método para decodificar una señal de audio;

muestra un diagrama esquemático de bloques de un método para codificar una señal de audio;

muestra un diagrama esquemático de bloques de un procesador de audio de acuerdo con otra realización;

muestra un diagrama esquemático de bloques del procesador de audio de acuerdo con una realización preferida;

muestra un diagrama esquemático de bloques de un corrector de fase del procesador de audio que ilustra el flujo de la señal en más detalle;

muestra las etapas de la corrección de fase desde otro punto de vista en comparación con las Figuras 26-28a;

muestra un diagrama esquemático de bloques de un determinador de medidas de la fase objetivo en el procesador de audio, que ilustra el determinador de medidas de la fase objetivo en más detalle;

muestra un diagrama esquemático de bloques de un generador de espectro objetivo del procesador de audio, que ilustra el generador de espectro objetivo en más detalle;

muestra un diagrama esquemático de bloques de un decodificador;

muestra un diagrama esquemático de bloques de un codificador;

muestra un error en el espectro de fase de la señal de trombón en el dominio QMF utilizando SBR por copiado directo en una representación de tiempo-frecuencia;

muestra el error en el espectro de fase de la señal de trombón en el dominio QMF utilizando SBR corregida en una representación de tiempo-frecuencia;

La Figura 38b

5 La Figura 39 La Figura 40

10 La Figura 41 La Figura 42

15 La Figura 43a

La Figura 43b

20

La Figura 43c

La Figura 43d 25

La Figura 44a

30 La Figura 44b La Figura 45a

35 La Figura 45b

La Figura 46a 40

La Figura 46b

La Figura 47 45

La Figura 48a

La Figura 48b 50

La Figura 49 55 La Figura 50a

La Figura 50b

La Figura 51a La Figura 51b

muestra la derivada de la fase en la frecuencia que corresponde al error mostrado en la Figura 38a;

muestra un diagrama esquemático de bloques de un calculador;

muestra un diagrama esquemático de bloques del calculador que ilustra el flujo de la señal en el determinador de variaciones en más detalle;

muestra un diagrama esquemático de bloques del calculador de acuerdo con otra realización;

muestra un diagrama esquemático de bloques de un método para determinar datos de corrección de fase para una señal de audio;

muestra una desviación típica de la derivada de la fase en el tiempo de la señal de violín en el dominio QMF en una representación de tiempo-frecuencia;

muestra la desviación típica de la derivada de la fase en la frecuencia que corresponde a la desviación típica de la derivada de la fase en el tiempo mostrada con respecto a la Figura 43a;

muestra la desviación típica de la derivada de la fase en el tiempo de la señal de trombón en el dominio QMF en una representación de tiempo-frecuencia;

muestra la desviación típica de la derivada de la fase en la frecuencia que corresponde a la desviación típica de la derivada de la fase en el tiempo mostrada en la Figura 43c;

muestra la magnitud de la señal de violín + aplauso en el dominio QMF en una representación de tiempo-frecuencia;

muestra el espectro de fase que corresponde al espectro de magnitud mostrado en la Figura 44a;

muestra una derivada de la fase en el tiempo de la señal de violín + aplauso en el dominio QMF en una representación de tiempo-frecuencia;

muestra la derivada de la fase en la frecuencia que corresponde a la derivada de la fase en el tiempo mostrada en la Figura 45a;

muestra una derivada de la fase en el tiempo de la señal de violín + aplauso en el dominio QMF utilizando SBR corregida en una representación tiempo frecuencia;

muestra la derivada de la fase en la frecuencia que corresponde a la derivada de la fase en el tiempo mostrada en la Figura 46a;

muestra las frecuencias de las bandas de QMF en una representación de tiempo-frecuencia;

muestra las frecuencias de la SBR por copiado directo en las bandas de QMF en comparación con las frecuencias originales mostradas en una representación de tiempo-frecuencia;

muestra las frecuencias de la banda de QMF utilizando SBR corregida en comparación con las frecuencias originales en una representación de tiempo-frecuencia;

muestra las frecuencias estimadas de los armónicos en comparación con las frecuencias de las bandas de QMF de la señal original en una representación de tiempo-frecuencia;

muestra el error en la derivada de la fase en el tiempo de la señal de violín en el dominio QMF utilizando SBR corregida con datos de corrección comprimidos en una representación de tiempo- frecuencia;

muestra la derivada de la fase en el tiempo que corresponde al error de la derivada de la fase en el tiempo mostrada en la Figura 50a;

muestra la forma de onda de la señal de trombón en un diagrama de tiempo;

muestra la señal en el dominio del tiempo que corresponde a la señal de trombón de la Figura 51a

5

10

15

20

25

30

35

40

45

50

55

60

La: Figura 52a

La: Figura 52b

La: Figura 53

La: Figura 54

La: Figura 55

La: Figura 56

La: Figura 57

La: Figura 58

La: Figura 59

que contiene sólo picos estimados; donde las posiciones de los picos han sido obtenidas utilizando los metadatos transmitidos;

muestra el error en el espectro de fase de la señal de trombón en el dominio QMF utilizando SBR corregida con datos de corrección comprimidos en una representación de tiempo-frecuencia;

muestra la derivada de la fase en la frecuencia que corresponde al error en el espectro de la fase, mostrado en la Figura 52a;

muestra un diagrama esquemático de bloques de un decodificador; muestra un diagrama esquemático de bloques de acuerdo con una realización preferida; muestra un diagrama esquemático de bloques del decodificador de acuerdo con otra realización; muestra un diagrama esquemático de bloques de un codificador;

muestra un diagrama de bloques de un calculador que se puede utilizar en el codificador mostrado en la Figura 56;

y

muestra un diagrama esquemático de bloques de un método para codificar una señal de audio.

A continuación se describen las realizaciones de la invención en más detalle. Los elementos mostrados en las respectivas figuras que tienen la misma o similar funcionalidad están indicados en las mismas con los mismos signos de referencia.

Se describen las realizaciones de la presente invención con respecto a un procesamiento específico de las señales. Por lo tanto, las Figuras 1-14 describen el procesamiento de señales aplicado a la señal de audio. Si bien se describen las realizaciones con respecto a este procesamiento especial de las señales, la presente invención no se limita a este procesamiento y puede aplicarse asimismo a muchos otros esquemas de procesamiento. Más aun, las Figuras 15-25 muestran realizaciones de un procesador de audio que puede usarse para la corrección de la fase horizontal de la señal de audio. Las Figuras 26-38 muestran realizaciones de un procesador de audio que puede usarse para la corrección de la fase vertical de la señal de audio. Además, las Figuras 39-52 muestran realizaciones de un calculador para determinar datos de corrección de fase para una señal de audio. El calculador puede analizar la señal de audio y determinar cuál de los procesadores de audio antes citados debe aplicarse o, si ninguno de los procesadores de audio es adecuado para la señal de audio, no aplicar ninguno de los procesadores de audio a la señal de audio. Las Figuras 53-59 muestran realizaciones de un decodificador y un codificador que pueden comprender el segundo procesador y el calculador.

1 Introducción

La codificación perceptual de audio ha proliferado como tendencia dominante posibilitando la tecnología digital para todo tipo de aplicaciones que proporcionan audio y multimedia a los consumidores utilizando canales de transmisión o almacenamiento con capacidad limitada. Se requiere que los códecs perceptuales de audio modernos ofrezcan una calidad de audio satisfactoria a tasas de bits cada vez más bajas. A su vez, se tiene que soportar ciertos artefactos de codificación que son muy tolerables para la mayoría de los oyentes. La ampliación de ancho de banda de Audio (BWE) es una técnica para ampliar artificialmente el rango de frecuencias de un codificador de audio mediante la traslación o transposición espectral de las partes de baja banda de la señal hacia la banda alta a costa de introducir ciertos artefactos.

El hallazgo es que algunos de estos artefactos están relacionados con el cambio de la derivada de la fase dentro de la banda alta artificialmente ampliada. Uno de estos artefactos es la alteración de la derivada de fase en la frecuencia (véase asimismo coherencia de fase "vertical") [8]. La conservación de dicha derivada de fase es perceptualmente importante para las señales tonales con una forma de onda en el domino del tiempo de tipo tren de pulsos y una frecuencia fundamental bastante baja. Los artefactos relacionados con un cambio de la derivada de la fase vertical corresponden a una dispersión local de la energía en el tiempo y con frecuencia se encuentran en señales de audio que han sido procesadas por técnicas de BWE. Otro artefacto es la alteración de la derivada de la fase en el tiempo (véase también coherencia de fase "horizontal") que es perceptualmente importante para señales tonales ricas en sobretonos armónicos de cualquier frecuencia fundamental. Los artefactos asociados a una alteración de la derivada de la fase horizontal corresponden a un desplazamiento de frecuencia local en el tono y con frecuencia se encuentran en señales de audio que han sido procesadas por técnicas de BWE.

5

10

15

20

25

30

35

40

45

50

55

60

La presente invención ofrece medios para reajustar la derivada de la fase vertical u horizontal de esas señales cuando esta propiedad se ha visto comprometida por la aplicación de la denominada ampliación de ancho de banda de audio (BWE). Se ofrecen otros medios para decidir si un restablecimiento de la derivada de fase es perceptualmente ventajoso y si es perceptualmente preferible el ajuste de la derivada de la fase vertical u horizontal.

Los métodos de ampliación de ancho de banda, tales como el de replicación de la banda espectral (SBR) [9], se utilizan con frecuencia en los códecs de bajas tasas de bits. Permiten la transmisión de sólo una región de baja frecuencia relativamente estrecha junto con información paramétrica acerca de las bandas más altas. Dado que la tasa de bits de la información paramétrica es pequeña, se puede obtener una significativa mejora de la eficacia de codificación.

Por lo general la señal para las bandas más altas se obtiene simplemente copiándola de la región de baja frecuencia transmitida. El procesamiento se lleva a cabo habitualmente en el dominio de bancos de filtro espejo en cuadratura (QMF) con modulado complejo [10], que también se asume en lo sucesivo. La señal copiada se procesa multiplicando su espectro de magnitud por ganancias adecuadas basándose en los parámetros transmitidos. El fin consiste en obtener un espectro de magnitud similar al de la señal original. Por el contrario, por lo general no se procesa en absoluto el espectro de fase de la señal copiada sino que, en su lugar, se utiliza directamente el espectro de fase copiado.

A continuación se analizan las consecuencias perceptuales del uso directo del espectro copiado. Basándose en los efectos observados, se sugieren dos métricas para detectar los efectos perceptualmente más significativos. Además, se sugieren métodos para corregir el espectro de fase basándose en los mismos. Por último, se sugieren enfoques para minimizar la cantidad de valores paramétricos transmitidos para realizar la corrección.

La presente invención está relacionada con el hallazgo de que la conservación o restauración de la derivada de fase puede remediar los artefactos prominentes inducidos por las técnicas de ampliación de ancho de banda de audio (BWE). Por ejemplo, las señales típicas, donde la conservación de la derivada de fase es importante, consisten en tonos con gran contenido de sobretonos armónicos tales como la voz vocalizada, los instrumentos de viento o los de cuerdas y arco.

La presente invención proporciona asimismo medios para decidir si - para una trama de señal dada - una restauración de la derivada de fase es perceptualmente ventajosa y si es perceptualmente preferible el ajuste de la derivada de la fase vertical o la horizontal.

La invención da a conocer un aparato y un método para la corrección de la derivada de fase en códecs de audio utilizando técnicas de BWE con los siguientes aspectos:

1. Cuantificación de la “importancia” de la corrección de la derivada de fase

2. Priorización dependiente de la señal de la corrección de derivada de la fase vertical ("frecuencia") o corrección de derivada de la fase horizontal ("tiempo")

3. Conmutación dependiente de la señal de la dirección de la corrección ("frecuencia" o "tiempo")

4. Modo especializado de corrección de la derivada de la fase vertical para los transitorios

5. Obtención de parámetros estables para una corrección alisada

6. Formato de transmisión compacto de la información secundaria de los parámetros de corrección 2 Presentación de señales en el dominio QMF

Una señal en el dominio del tiempo x(m), donde m es el tiempo discreto, se puede presentar en el dominio de tiempo-frecuencia, por ejemplo utilizando un banco de filtros espejo en cuadratura de (QMF) de modulación compleja. La señal resultante es X(k,n), donde k es el índice de banda de frecuencia y n el índice de la trama de tiempo. Se asume el QMF de 64 bandas y ña frecuencia de muestreo fs de 48 kHz para las visualizaciones y las realizaciones. Por consiguiente, el ancho de banda foW de cada banda de frecuencia es de 375 Hz y el tamaño de salto temporal fhop (17 en la Figura 2) es de 1,33 ms. Sin embargo, el procesamiento no se limita a esa transformada. Por otro lado, se puede usar en su lugar una MDCT (Transformada de Coseno Discreta Modificada) o una DFT (Transformada Discreta de Fourier).

La señal así obtenida es X(k,n), donde k es el índice de banda de frecuencia y n el índice de la trama de tiempo. X(k,n) es una señal compleja. Por consiguiente, también puede presentarse utilizando la magnitud Xmag(k,n) y los componentes de la fase Xpha(k,n) donde j es el número complejo

X(k.n) = (1}

Las señales de audio se presentan en su mayoría utilizando Xmag(k,n) y XPha(k,n) (véase la Figura 1 donde hay dos ejemplos).

5

10

15

20

25

30

35

40

45

50

55

60

La Figura 1a muestra un espectro de magnitud X™g(k,n) de una señal de violín, en el que la Figura 1b muestra el espectro de fase correspondiente Xpha(k,n), en ambos casos en el dominio QMF. Más aun, la Figura 1c muestra un espectro de magnitud Xmag(k,n) de una señal de trombón, en el que la Figura 1d muestra el espectro de fase correspondiente una vez más en el correspondiente dominio QMF. Con respecto a los espectros de magnitud de las Figuras 1a y 1c, el gradiente de color indica una magnitud de rojo = 0 dB a azul = -80 dB. Más aun, con respecto a los espectros de fase de las Figuras 1b y 1d, el gradiente de color indica fases de rojo = n a azul = -n.

3 Datos de audio

Los datos de audio usados para mostrar un efecto de un procesamiento de audio descrito se denominan 'trombón' en el caso de una señal de audio de un trombón, 'violín' en el caso de una señal de audio de un violín, y 'violín + aplauso' en el caso de la señal de violín con un aplauso agregado en el medio.

4 Operación básica de la SBR

La Figura 2 muestra un diagrama de tiempo frecuencia 5 que comprende piezas de tiempo frecuencia 10 (por ejemplo segmentos de QMF, segmentos de de bancos de Filtros Espejo en Cuadratura), definidos por una trama de tiempo 15 y una sub-banda 20. Una señal de audio se puede transformar en ese tipo de representación tiempo- frecuencia utilizando una transformada QMF (Banco de Filtros Espejo en Cuadratura), una MDCT (Transformada de Coseno Discreta Modificada) o una DFT (Transformada Discreta de Fourier). La división de la señal de audio en tramas de tiempo puede comprender partes solapadas de la señal de audio. En la parte inferior de la Figura 1, se expone un único solapamiento de las tramas de tiempo 15, donde se superponen como máximo dos tramas de tiempo simultáneamente. Más aun, es decir si se necesita más redundancia, también se puede dividir la señal de audio utilizando múltiples solapamientos. En un algoritmo de múltiples solapamientos, tres o más tramas de tiempo pueden comprender la misma parte de la señal de audio en un determinado punto de tiempo. La duración de un solapamiento es el tamaño de salto thop 17.

Suponiendo una señal X(k,n), se obtiene la señal Z(k,n) con ancho de banda ampliado (BWE) de la señal de entrada X(k,n) copiando ciertas partes de la banda de frecuencias de baja frecuencia transmitida. Un algoritmo SBR se inicia seleccionando una región de frecuencia a transmitir. En este ejemplo, se seleccionan las bandas de 1 a 7:

VI < k < 1 ■■ n) = X(k, ) . (2)

La cantidad de bandas de frecuencias a transmitir depende de la tasa de bits pretendida. Las figuras y las ecuaciones se producen utilizando 7 bandas, y se utilizan de 5 a 11 bandas para los correspondientes datos de audio. Por consiguiente, las frecuencias de cruce entre la región de frecuencia transmitida y las bandas superiores son de 1875 a 4125 Hz, respectivamente. Las bandas de frecuencia por encima de esta región no se transmiten en absoluto, sino que, por el contrario, se generan datos paramétricos para describirlas. Se codifica y transmite Xtrans(k,n). Por motivos de simplicidad, se supone que la codificación no modifica la señal de modo alguno, aunque se debe tener en cuenta que el procesamiento adicional no se limita al caso supuesto.

En el extremo de la recepción, se utiliza directamente la región de frecuencia transmitida para las correspondientes frecuencias.

En el caso de las bandas más altas, se puede crear la señal de alguna manera utilizando la señal transmitida. Un enfoque consiste simplemente en copiar la señal transmitida a frecuencias más elevadas. En este caso se utiliza una versión ligeramente modificada. En primer lugar, se selecciona una señal de banda base. Podría ser la totalidad de la señal transmitida, aunque en esta realización se omite la primera banda de frecuencia. La razón de esto es que se indicó que en muchos casos el espectro de fase era irregular para la primera banda. Por consiguiente, la banda base a copiarse se define como

vi < k< 6 : rrhas,(t,n) -■ + i,n). (3)

También se pueden utilizar otros anchos de banda para las señales transmitida y de banda base. Utilizando la señal de banda base, se generan señales sin procesar para las frecuencias más elevadas

0 ^bssí (^)

donde Yra4k,n,i) es la señal QMF compleja para el parche de frecuencia i. Las señales de parche de frecuencia sin procesar se tratan de acuerdo con los metadatos transmitidos multiplicándolas por las ganancias g(k,n,i)

Y{¡i, tlj) = YrmVt'ibÜgVL, M). {5)

12

5

10

15

20

25

30

35

40

45

50

55

60

Se debe observar que las ganancias tienen valor real y, por consiguiente, sólo se afecta al espectro de magnitud y de esta manera se adaptan a un valor objetivo deseado. Los enfoques conocidos muestran cómo se obtienen las ganancias. La fase objetivo queda sin corregir en dichos enfoques conocidos.

La señal final que se ha de reproducir se obtiene concatenando las señales transmitidas y de parche para ampliar de manera ininterrumpida para obtener una señal BWE del ancho de banda deseado. En esta realización, se supone que i = 7.

Z(k,n) =

Z{k + 6t + Xrn) " Y{k,n,i)- {6)

La Figura 3 muestra las señales descritas en una representación gráfica. La Figura 3a muestra un ejemplo de diagrama de frecuencia de una señal de audio, en el que se representa la magnitud de la frecuencia en diez subbandas diferentes. Las primeras siete sub-bandas reflejan las bandas de frecuencia transmitidas Xtrans(k,n) 25. La banda base Xbase(k,n) 30 se deriva de la misma eligiendo la segunda a séptima sub-bandas. La Figura 3a muestra la señal de audio original, es decir la señal de audio con anterioridad a la transmisión o la codificación. La Figura 3b muestra un ejemplo de representación en la frecuencia de la señal de audio después de la recepción, por ejemplo durante un proceso de decodificación en una etapa intermedio. El espectro de frecuencia de la señal de audio comprende las bandas de frecuencia transmitidas 25 y siete señales de banda base 30 copiadas para sub-bandas más altas del espectro de frecuencia formando una señal de audio 32 que comprende frecuencias superiores a las frecuencias de la banda base. También se hace referencia a la señal de banda base completa como un parche de frecuencia. La Figura 3c muestra una señal de audio reconstruida Z(k,n) 35. En comparación con la Figura 3b, los parches de señales de banda base se multiplican individualmente por un factor de ganancia. Por lo tanto, el espectro de frecuencia de la señal de audio comprende el espectro de frecuencia principal 25 y un número de parches con magnitud corregida Y(k,n,1) 40. Se hace referencia a este método de generación de parches como generación de parches por copiado directo. La generación de parches por copiado directo se utiliza a modo de ejemplo para describir la presente invención, aunque la invención no se limita a un algoritmo de generación de parches. Otro algoritmo de generación de parches que puede usarse es, por ejemplo, un algoritmo de generación de parches de armónicos.

Se supone que la representación paramétrica de las bandas superiores es perfecta, es decir, que el espectro de magnitud de la señal reconstruida es idéntico a la de la señal original

(7)

Sin embargo, se debe tener en cuenta que el espectro de fase no se corrige de manera alguna por el algoritmo, por lo que no es correcto incluso si el algoritmo funcionara perfectamente. Por lo tanto, las realizaciones muestran cómo adaptar y corregir adicionalmente el espectro de fase de Z(k,n) a un valor objetivo, de tal manera que se obtenga una mejora de la calidad perceptual. En las realizaciones, se puede realizar la corrección utilizando tres modos de procesamiento diferentes, “horizontal”, “vertical” y “transitorio”. Estos modos se describen por separado a continuación.

En la Figura 4 se representan Zmag(k,n) y Zpha(k,n) para las señales de violín y el trombón. La Figura 4 muestra ejemplarmente los espectros de la señal de audio reconstruida 35 utilizando replicación de la banda espectral (SBR) con generación de parches por copiado directo. El espectro de magnitud Zmag(k,n) de una señal de violín se muestra en la Figura 4a, en el que la Figura 4b muestra el espectro de fase correspondiente Zpha(k,n). Las Figuras 4c y 4d muestran los correspondientes espectros de una señal de trombón. Todas las señales se presentan en el dominio QMF. Como ya se ha observado en la Figura 1, el gradiente de color indica una magnitud de rojo = 0 dB a azul = -80 dB, y una fase de rojo = n a azul = -n. Se puede apreciar que sus espectros de fase son diferentes de los espectros de las señales originales (véase la Figura 1). Debido a la SBR, se percibe que el violín contiene desarmonía y el trombón contiene ruidos de modulación a las frecuencias de cruce. Sin embargo, los trazados de fases parecen bastante aleatorios, y es difícil determinar qué grado de diferencia tienen y cuáles son los efectos perceptuales de las diferencias. Más aun, no es factible enviar datos de corrección para este tipo de datos aleatorios en aplicaciones de codificación que requieren bajas tasas de bits. Por consiguiente, es necesario comprender los efectos perceptuales del espectro de fase y hallar métricas para su descripción. En las siguientes secciones se tratan estos asuntos.

5 Significado del espectro de fase en el dominio OMF

Con frecuencia se cree que el índice de la banda de frecuencia define la frecuencia de un único componente tonal,

5

10

15

20

25

30

35

40

45

50

55

60

la magnitud define su nivel y la fase define su 'temporización'. Sin embargo, el ancho de banda de una banda QMF es relativamente grande y los datos se sobremuestrean. Por consiguiente, es en realidad la interacción entre las piezas de tiempo-frecuencia (es decir, los segmentos de QMF) lo que define todas estas propiedades.

En la Figura 5 se muestra una presentación en el dominio del tiempo de un único segmento de QMF con tres valores de fase diferentes, es decir, Xmag(3,1) y Xpha(3,1) = 0, n/2 o n El resultado es una función de tipo sincronización con una longitud de 13,3 ms. La forma exacta de la función está definida por el parámetro de fase.

Considerando un caso en que sólo una banda de frecuencia es distinta de cero para todas las tramas temporales, es decir,

VnaNir^n)^!, (8)

Cambiando la fase entre las tramas temporales a un valor fijo a, es decir,

JTn) = - 1) + ff, {9)

se genera una sinusoide. La señal así obtenida (es decir, la señal en el dominio del tiempo después de la transformada QMF inversa) se presenta en la Figura 6 con los siguientes valores a = n/4 (superior) y 3n/4 (inferior). Puede observarse que la frecuencia de la sinusoide se ve afectada por el cambio de fase. A la derecha se muestra el dominio de la frecuencia, en el que el dominio del tiempo de la señal aparece a la izquierda de la Figura 6.

De igual manera, si se selecciona la fase de manera aleatoria, el resultado es un ruido de banda estrecha (véase la Figura 7). Por consiguiente, se puede decir que la fase de un segmento de QMF controla el contenido de frecuencia dentro de la correspondiente banda de frecuencia.

La Figura 8 muestra el efecto descrito con respecto a la Figura 6 en una representación tiempo frecuencia de cuatro tramas de tiempo y cuatro sub-bandas de frecuencia, donde sólo la tercera sub-banda comprende una frecuencia diferente de cero. Esto da lugar a la señal en el dominio de la frecuencia de la Figura 6, representada esquemáticamente a la derecha de la Figura 8, y en la representación en el dominio del tiempo de la Figura 6 representada esquemáticamente en la parte inferior de la Figura 8.

Considerando un caso en que sólo una trama de tiempo es distinta de cero para todas las bandas de frecuencia, es decir,

V k 3 N = X™*(k, 3) = 1 . (10)

Cambiando la fase entre las bandas de frecuencia en un valor fijo a, es decir,

A'Plja(/íjn)= (11)

se crea un transitorio. La señal así obtenida (es decir, la señal en el dominio del tiempo después de la transformada QMF inversa) se presenta en la Figura 9 con valores a = n/4 (superior) y 3n/4 (inferior). Se puede apreciar que la posición temporal del transitorio se ve afectada por el cambio de la fase. El dominio de la frecuencia aparece a la derecha de la Figura 9, en el que el dominio del tiempo aparece a la izquierda de la Figura 9.

De manera correspondiente, si se selecciona la fase de manera aleatoria, el resultado es una corta ráfaga de ruido (véase la Figura 10). Por consiguiente, se puede decir que la fase de un segmento de QMF también controla las posiciones temporales de los armónicos dentro de la correspondiente trama de tiempo.

La Figura 11 muestra un diagrama de tiempo frecuencia similar al diagrama de tiempo frecuencia mostrado en la Figura 8. En la Figura 11, sólo la tercera trama de tiempo comprende valores diferentes de cero con un desplazamiento temporal de n/4 de una sub-banda a otra. Transformada al dominio de la frecuencia, se obtiene la señal en el dominio de la frecuencia de la derecha de la Figura 9, esquemáticamente presentada a la derecha de la Figura 11. En la parte inferior de la Figura 11 se muestra un gráfico esquemático de una representación en el dominio del tiempo de la parte izquierda de la Figura 9. Esta señal se produce como resultado de la transformación de una señal en el dominio de tiempo frecuencia al dominio del tiempo.

6 Medidas para describir propiedades perceptualmente relevantes del espectro de fase

Como se describe en la Sección 4, el espectro de fase en sí parece bastante desorganizado y es difícil observar directamente cuál es su efecto sobre la percepción. La Sección 5 presentó dos efectos que pueden provocarse por

5

10

15

20

25

30

35

40

45

50

55

60

la manipulación del espectro de fase en el dominio QMF: (a) el cambio de fase constante en el tiempo produce una sinusoide y la cantidad de cambio de la fase controla la frecuencia de la sinusoide y (b) el cambio de fase constante en la frecuencia produce un transitorio y la cantidad de cambio de la fase controla la posición temporal del transitorio.

La frecuencia y la posición temporal de un parcial son, evidentemente, significativas para la percepción humana, por lo que la detección de estas propiedades es potencialmente provechosa. Se pueden estimar calculando la derivada de la fase en el tiempo (PDT)

^(¿,11+ 1)-X^ibn) (12)

y calculando la derivada de la fase en la frecuencia (PDF)

») = tfpha(A + 1,ti) - XP^tM) (13)

Xpdt(k,n) está asociado a la frecuencia y Xpdf(k,n) a la posición temporal de un parcial. Debido a las propiedades del análisis de QMF (cómo coinciden las fases de los moduladores de las tramas temporales adyacentes en la posición de un transitorio), n se suma a las tramas temporales uniformes de Xpdf(k,n) en las figuras para fines de visualización para producir curvas lisas.

A continuación se investiga el aspecto de estas medidas en nuestras señales de ejemplo. La Figura 12 muestra las derivadas para las señales de violín y trombón. Más específicamente, la Figura 12a muestra una derivada de la fase en el tiempo Xpdt(k,n) de la señal de audio de violín original, es decir sin procesar, en el dominio QMF. La Figura 12b muestra una derivada de fase correspondiente en la frecuencia Xpdf(k,n). Las Figuras 12c y 12d muestran la derivada de la fase en el tiempo y la derivada de la fase en la frecuencia correspondiente a una señal de trombón, respectivamente. El gradiente de color indica valores de fase de rojo = n a azul = -n. En el caso del violín el espectro de magnitud es básicamente de ruido hasta transcurrir aproximadamente 0,13 segundos (véase la Figura 1) y por lo tanto las derivadas también tienen ruido. A partir de aproximadamente 0,13 segundos Xpdt parece tener valores relativamente estables en el tiempo. Esto significaría que la señal contiene fuertes sinusoides relativamente estables. Las frecuencias de estas sinusoides se determinan por los valores de Xpdt. Por el contrario, la representación de Xpdf parece tener relativamente ruido, por lo que no se encuentran datos relevantes para el violín utilizándolo.

En el caso del trombón Xpdt tiene relativamente ruido. Por el contrario, la Xpdf parece tener aproximadamente el mismo valor en todas las frecuencias. En la práctica, esto significa que todos los componentes armónicos están alineados en el tiempo produciendo una señal de tipo transitorio. Las ubicaciones temporales de los transitorios se determinan por los valores de Xpdf.

También se pueden calcular las mismas derivadas para las señales procesas por SBR Z(k,n) (véase la Figura 13). Las Figuras 13a a 13d están relacionadas directamente con las Figuras 12a a 12d, derivadas mediante el uso del algoritmo de SBR por copiado directo anteriormente descrito. Como el espectro de fase se copia simplemente de la banda base a los parches más altos, las PDT de los parches de frecuencia son idénticas a los de la banda base. Por consiguiente, en el caso del violín la PDT está relativamente alisada en el tiempo, produciendo sinusoides estables, como en el caso de la señal original. Sin embargo, los valores de Zpdt son diferentes de los encontrados en la señal original Xpdt, que provoca que las sinusoides producidas tengan diferentes frecuencias que en la señal original. Se describe el efecto perceptual de esto en la Sección 7.

En consecuencia, la PDF de los parches de frecuencia es de lo contrario idéntica a la de la banda base, aunque en la práctica, a las frecuencias de cruce, la PDF es bastante aleatoria. A la frecuencia de cruce, la PDF se calcula en realidad entre el último y el primer valor de fase del parche de frecuencia, es decir,

ZPár- (7. n) - ZPtofa n) - (7, n) = V'<'11113 (1, t¡ . i) - Y''lhíl (6, rt. É) (14)

Estos valores dependen de la PDF real y de la frecuencia de cruce, y no coinciden con los valores de la señal original.

En el caso del trombón, los valores de PDF de la señal copiada son correctos, aparte de las frecuencias de cruce. Por consiguiente, las ubicaciones temporales de la mayoría de los armónicos están en los lugares correctos, aunque los armónicos están, a las frecuencias de cruce, en lugares prácticamente aleatorios. En la Sección 7 se explica el efecto perceptual de esto.

7 Percepción humana de los errores de fase

5

10

15

20

25

30

35

40

45

50

55

60

Los sonidos se pueden dividir, a grandes rasgos, en dos categorías: señales armónicas y similares a ruido. Las señales similares a ruido tienen, ya por definición, propiedades de fases con ruido. Por consiguiente, se supone que los errores de fase provocados por la SBR no son perceptualmente significativos en ellas. Por el contrario, se concentran en las señales armónicas. La mayoría de los instrumentos musicales, así como la voz, producen estructuras armónicas en la señal, es decir que el tono contiene fuertes componentes sinusoides espaciados en la frecuencia por la frecuencia fundamental.

A menudo se supone que la audición humana se comporta como si contuviera un banco de filtros de paso banda solapados, denominado como los filtros auditivos. Por consiguiente, se puede suponer que la audición trata sonidos complejos de manera tal como se analicen los sonidos dentro del filtro auditivo como una sola entidad. La anchura de estos filtros puede aproximarse para seguir el ancho de banda rectangular equivalente (ERB) [11], que se puede determinar de acuerdo con

ERB = 24,7(4,37/c + 1), (15)

donde fc es la frecuencia central de la banda (en kHz). Como se analizará en la Sección 4, la frecuencia de cruce entre la banda base y los parches de SBR es de alrededor de 3 kHz. A estas frecuencias el ERB es de aproximadamente 350 Hz. El ancho de banda de una banda de frecuencia QMF es en realidad bastante cercano a este, 375 Hz. Por lo tanto, se puede suponer que el ancho de banda de la banda de las frecuencias QMF sigue el ERB a las frecuencias de interés.

En la Sección 6 se observaron dos propiedades de un sonido que pueden fallar debido al espectro de fase erróneo: la frecuencia y la temporización de un componente parcial. Concentrándose en la frecuencia, la pregunta es: ¿Puede un ser humano percibir las frecuencias de los armónicos individuales? Si puede, a continuación el desplazamiento de la frecuencia causado por la SBR debe corregirse; y si no, la corrección no es necesaria.

Se puede utilizar el concepto de armónicos resueltos y sin resolver [12] para aclarar este asunto. Si hay sólo un armónico dentro del ERB, el armónico se denomina resuelto. Por lo general se supone que la audición humana procesa los armónicos resueltos en forma individual y, por consiguiente, es sensible a la frecuencia de ellos. En la práctica, se percibe que el cambio de la frecuencia de los armónicos resueltos causa desarmonía.

En consecuencia, si hay múltiples armónicos dentro del ERB, los armónicos se denominan no resueltos. Se supone que la audición humana no procesa estos armónicos en forma individual sino que, por el contrario, su efecto conjunto es percibido por el sistema auditivo. El resultado es una señal periódica y la duración del período se determina espaciando los armónicos. La percepción de tono está asociada a la duración del período, por lo que se supone que la audición humana es sensible a la misma. De todos modos, si todos los armónicos dentro del parche de frecuencia en la SBR se desplazan en la misma cantidad, el espaciamiento entre los armónicos, y por consiguiente el tono percibido se mantiene inalterado. Por lo tanto, en el caso de los armónicos no resueltos, la audición humana no percibe los desplazamientos de frecuencia como desarmonía.

A continuación se consideran los errores relacionados con la temporización causados por la SBR. Por temporización se hace referencia a la posición temporal, o la fase, de un componente armónico. No se debe confundir esto con la fase de un segmento de QMF. La percepción de los errores relacionados con la temporización se estudió en detalle en [13]. Se observó que, en el caso de la mayoría de las señales, la audición humana no es sensible a la temporización, o la fase, de los componentes armónicos. Sin embargo, hay ciertas señales con las cuales la audición humana es muy sensible a la temporización de los parciales. Las señales incluyen, por ejemplo, sonidos de trombón y trompeta y voz humana. Con estas señales, se produce un determinado ángulo de fase en el mismo instante de tiempo con todos los armónicos. Se simuló la velocidad de descarga neural de diferentes bandas auditivas en [13]. Se descubrió que con estas señales sensibles a las fases la velocidad de descarga neural tiene picos en todas las bandas auditivas y que los picos se alinean en el tiempo. Cambiando la fase de incluso un único armónico puede cambiar la generación de picos de la velocidad de descarga neural con estas señales. De acuerdo con los resultados de la prueba de escucha formal, la audición humana es sensible a esto [13]. Los efectos producidos son la percepción de un componente sinusoide agregado o un ruido de banda estrecha a las frecuencias donde se modificó la fase.

Además, se descubrió que la sensibilidad a los efectos relacionados con la temporización depende de la frecuencia fundamental del tono del armónico [13]. Cuanto menor es la frecuencia fundamental, mayores son los efectos percibidos. Si la frecuencia fundamental es superior a aproximadamente 800 Hz, el sistema auditivo no es sensible en absoluto a los efectos asociados a la temporización.

Por consiguiente, si la frecuencia fundamental es baja y si la fase de los armónicos está alineada en la frecuencia (lo que significa que las posiciones temporales de los armónicos están alineadas), los cambios de temporización, o en otras palabras de la fase, de los armónicos pueden percibirse por la audición humana. Si la frecuencia fundamental es alta y/o la fase de los armónicos no está alineada en la frecuencia, la audición humana no es sensible a los

5

10

15

20

25

30

35

40

45

50

55

60

cambios de temporización de los armónicos.

8 Métodos de corrección

En la Sección 7, se observó que los seres humanos son sensibles a los errores en las frecuencias de los armónicos resueltos. Además, los seres humanos son sensibles a los errores en las posiciones temporales de los armónicos si la frecuencia fundamental es baja y si los armónicos se alinean en la frecuencia. La SBR puede causar ambos errores, como se menciona en la Sección 6, por lo que se puede mejorar la calidad percibida corrigiéndolos. En esta sección se sugieren métodos para hacerlo.

La Figura 14 ilustra esquemáticamente la idea básica de los métodos de corrección. La Figura 14a muestra esquemáticamente cuatro fases 45a-d de, por ejemplo las tramas de tiempo o sub-bandas de frecuencia subsiguientes, en un círculo unitario. Las fases 45a-d están igualmente espaciadas a 90°. La Figura 14b muestra las fases después del procesamiento por SBR y, en línea discontinua, las fases corregidas. La fase 45a antes del procesamiento se puede desplazar al ángulo de la fase 45a'. Lo mismo se aplica a las fases 45b a 45d. Se muestra que la diferencia entre las fases después del procesamiento, es decir la derivada de fase, puede corromperse después del procesamiento por SBR. Por ejemplo, la diferencia entre las fases 45a' y 45b' es 110° después del procesamiento por SBR, y era de 90° antes del procesamiento. Los métodos de corrección han de cambiar los valores de fase 45b' por el nuevo valor de fase 45b'' para recuperar la derivada de fase anterior de 90°. La misma corrección se aplica a las fases de 45d' y 45d''.

8.1 Corrección de errores de frecuencia - corrección de la derivada de la fase horizontal

Como se menciona en la Sección 7, los seres humanos pueden percibir un error en la frecuencia de un armónico mayormente cuando sólo hay un armónico dentro de un ERB. Más aun, se puede utilizar el ancho de banda de una banda de frecuencia QMF para estimar el ERB en el primer cruce. Por lo tanto, la frecuencia ha de corregirse sólo cuando hay un armónico dentro de una banda de frecuencia. Esto es muy conveniente, puesto que la Sección 5 mostró que, si hay un armónico por banda, los valores de PDT producidos son estables, o cambian lentamente en el tiempo, y potencialmente pueden corregirse utilizando una baja tasa de bits.

La Figura 15 muestra un procesador de audio 50 para procesar una señal de audio 55. El procesador de audio 50 comprende un calculador de medidas de fases de las señales de audio 60, un determinador de medidas de la fase objetivo 65 y un corrector de fase 70. El calculador de medidas de fases de las señales de audio 60 está configurado para calcular una medida de la fase 80 de la señal de audio 55 para una trama de tiempo 75. El determinador de medidas de la fase objetivo 65 está configurado para determinar una medida de la fase objetivo 85 para dicha trama de tiempo 75. Más aun, el corrector de fase está configurado para corregir las fases 45 de la señal de audio 55 para la trama de tiempo 75 empleando la medida de la fase calculada 80 y la medida de la fase objetivo 85 para obtener una señal de audio procesada 90. Opcionalmente, la señal de audio 55 comprende una pluralidad de señales de sub-bandas 95 para la trama de tiempo 75. Se describen otras realizaciones del procesador de audio 50 con respecto a la Figura 16. De acuerdo con una realización, el determinador de medidas de la fase objetivo 65 está configurado para determinar la primera medida de la fase objetivo 85a y la medida de una segunda fase objetivo 85b para la segunda señal de sub-banda 95b. En consecuencia, el calculador de medidas de fases de las señales de audio 60 está configurada para determinar la primera medida de la fase 80a para la primera señal de sub-banda 95a y la medida de una segunda fase 80b para la segunda señal de sub-banda 95b. El corrector de fase está configurado para corregir una fase 45a de la primera señal de sub-banda 95a utilizando la primera medida de la fase 80a de la señal de audio 55 y la primera medida de la fase objetivo 85a y para corregir una segunda fase 45b de la segunda señal de sub-banda 95b utilizando la segunda medida de la fase 80b de la señal de audio 55 y la segunda medida de la fase objetivo 85b. Más aun, el procesador de audio 50 comprende un sintetizador de señales de audio 100 para sintetizar la señal de audio procesada 90 utilizando la primera señal de sub-banda procesada 95a y la segunda señal de sub-banda procesada 95b. De acuerdo con otras realizaciones, la medida de la fase 80 es una derivada de la fase en el tiempo. Por lo tanto, el calculador de medidas de fases de las señales de audio 60 puede calcular, por cada sub-banda 95 de una pluralidad de sub-bandas, la derivada de fase de un valor de fase 45 de una trama de tiempo actual 75b y un valor de fase de una trama de tiempo futuro 75c. En consecuencia, el corrector de fase 70 puede calcular, por cada sub-banda 95 de la pluralidad de sub-bandas de la trama de tiempo actual 75b, una desviación entre la derivada de fase objetivo 85 y la derivada de la fase en el tiempo 80, en el que se realiza una corrección efectuada por el corrector de fase 70 utilizando la desviación.

Las realizaciones muestran que el corrector de fase 70 que está configurado para corregir señales de sub-bandas 95 de diferentes sub-bandas de la señal de audio 55 dentro de la trama de tiempo 75, de tal manera que las frecuencias de las señales de sub-bandas corregidas 95 tengan valores de frecuencia que estén asignados de manera armónica a una frecuencia fundamental de la señal de audio 55. La frecuencia fundamental es la frecuencia más baja que tiene lugar en la señal de audio 55 o, en otras palabras, los primeros armónicos de la señal de audio 55.

Más aun, el corrector de fase 70 está configurado para alisar la desviación 105 por cada sub-banda 95 de la

5

10

15

20

25

30

35

40

45

50

55

60

pluralidad de sub-bandas a lo largo de una trama de tiempo anterior, la trama de tiempo actual, y una trama de tiempo futuro 75a a 75c y está configurado para reducir los cambios rápidos de la desviación 105 dentro de una subbanda 95. De acuerdo con otras realizaciones, el alisado es una media ponderada, donde el corrector de fase 70 está configurado para calcular la media ponderada a lo largo de las tramas de tiempo anterior, actual y futuro 75a a 75c, ponderada en una magnitud de la señal de audio 55 de las tramas de tiempo anterior, actual y futuro 75a a 75c.

Las realizaciones muestran las etapas de procesamiento anteriormente descritas basándose en vectores. Por lo tanto, el corrector de fase 70 está configurado para formar un vector de desviaciones 105, en el que un primer elemento del vector se refiere a una primera desviación 105a para la primera sub-banda 95a de la pluralidad de subbandas y un segundo elemento del vector se refiere a una segunda desviación 105b para la segunda sub-banda 95b de la pluralidad de sub-bandas de una trama de tiempo anterior 75a a una trama de tiempo actual 75b. Más aun, el corrector de fase 70 puede aplicar el vector de desviaciones 105 a las fases 45 de la señal de audio 55, en el que el primer elemento del vector se aplica a una fase 45a de la señal de audio 55 en una primera sub-banda 95a de una pluralidad de sub-bandas de la señal de audio 55 y el segundo elemento del vector se aplica a una fase 45b de la señal de audio 55 en una segunda sub-banda 95b de la pluralidad de sub-bandas de la señal de audio 55.

Desde otro punto de vista, se puede afirmar que todo el procesamiento realizado en el procesador de audio 50 se basa en vectores, en el que cada vector representa una trama de tiempo 75, en el que cada sub-banda 95 de la pluralidad de sub-bandas comprende un elemento del vector. Otras realizaciones se concentran en el determinador de medidas de la fase objetivo que está configurado para obtener una estimación de la frecuencia fundamental 85b para una trama de tiempo actual 75b, en el que el determinador de medidas de la fase objetivo 65 está configurado para calcular una estimación de frecuencia 85 por cada sub-banda de la pluralidad de sub-bandas para la trama de tiempo 75 empleando la estimación de frecuencia fundamental 85 correspondiente a la trama de tiempo 75. Más aun, el determinador de medidas de la fase objetivo 65 puede convertir las estimaciones de frecuencia 85 por cada sub-banda 95 de la pluralidad de sub-bandas en una derivada de la fase en el tiempo utilizando un número total de sub-bandas 95 y una frecuencia de muestreo de la señal de audio 55. Para decirlo más claramente, se ha de tener en cuenta que la salida 85 del determinador de medidas de la fase objetivo 65 puede ser la estimación de frecuencia o la derivada de la fase en el tiempo, según la realización. Por lo tanto, en una realización, la estimación de frecuencia ya comprende el formato correcto para el posterior procesamiento en el corrector de fase 70 en el que, en otra realización, se ha de convertir la estimación de frecuencia a un formato adecuado, que puede ser una derivada de la fase en el tiempo.

En consecuencia, el determinador de medidas de la fase objetivo 65 puede observarse también como basado en vectores. Por lo tanto, el determinador de medidas de la fase objetivo 65 puede formar un vector de estimaciones de frecuencia 85 por cada sub-banda 95 de la pluralidad de sub-bandas, en el que el primer elemento del vector hace referencia a una estimación de frecuencia 85a para una primera sub-banda 95a y un segundo elemento del vector hace referencia a una estimación de frecuencia 85b para una segunda sub-banda 95b. Además, el determinador de medidas de la fase objetivo 65 puede calcular la estimación de frecuencia 85 utilizando múltiplos de la frecuencia fundamental, en el que la estimación de frecuencia 85 de la sub-banda actual 95 es el múltiplo de la frecuencia fundamental que más cerca está del centro de la sub-banda 95a, o en el que la estimación de frecuencia 85 de la sub-banda actual es una frecuencia de límite de la sub-banda actual 95 si ninguno de los múltiplos de la frecuencia fundamental está dentro de la sub-banda actual 95.

En otras palabras, el algoritmo sugerido para corregir los errores en las frecuencias de los armónicos utilizando el procesador de audio 50 funciona de la siguiente manera. En primer lugar, se calcula la PDT y la señal procesada por SBR Zpdt. Zpdt(k,n) = Zpha(k,n+1) - Zpha(k,n). A continuación se calcula la diferencia entre esta y una PdT objetivo para la corrección horizontal:

DP^Ck, n) = ZPdlt tk, - Zg?1t(Jt ft), (16a)

En este momento se puede suponer que la PDT objetivo es igual a la PDT de entrada de la señal de entrada

Zgt(k,n) = X

Más adelante se explica cómo se puede obtener una PDT objetivo con una baja tasa de bits.

Este valor (es decir el valor de error 105) se alisa en el tiempo utilizando una ventana de Hann W(/). La longitud adecuada es, por ejemplo, de 41 muestras en el dominio QMF (que corresponde a un intervalo de 55 ms). El alisado se pondera por la magnitud de las correspondientes piezas de tiempo-frecuencia

= media circular {DPdt(fc,n + V), W{l)ZmaHk,n + /)}, -20 < l < 20, (17)

5

10

15

20

25

30

35

40

45

50

55

60

donde media circulaba,b} indica el cálculo de la media circular para los valores angulares a ponderados por los valores b. El error alisado en la PDT Df^(k, n) se representa en la Figura 17 para la señal de violín en el dominio QMF utilizando SBR por copiado directo. El gradiente de color indica valores de fase de rojo = n a azul = -n.

A continuación, se genera una matriz moduladora para modificar el espectro de fase para obtener la PDT deseada

imagen1

El espectro de fase se procesa utilizando esta matriz

^(b) =: 2|,haOrfO + .1).

{15}

La Figura 18a muestra el error en la derivada de la fase en el tiempo (PDT) D^{k, ri) de la señal de violín en el dominio QMF en el caso de la SBR corregida. La Figura 18b muestra la derivada de la fase correspondiente en el tiempo ri), en el que se derivó el error en la PDT mostrada en la Figura 18a comparando los resultados

presentados en la Figura 12a con los resultados presentados en la Figura 18b. Una vez más, el gradiente de color indica valores de fase de rojo = rc a azul = - k. Se calcula la PDT correspondiente al espectro de fase corregido

Z^a(k,ri) (véase la Figura 18b). Puede observarse que la PDT del espectro de fase corregido se asemeja bien a

la PDT de la señal original (véase la Figura 12), y el error es pequeño en el caso de las piezas de tiempo-frecuencia que contienen una energía significativa (véase la Figura 18a). Se puede apreciar que la desarmonía de los datos de SBR no corregidos desaparece en gran parte. Más aun, el algoritmo no parece causar artefactos significativos.

Utilizando Xpdt(/<,n) como PDT objetivo, es posible transmitir los valores de error de PDT Dg^{k, ri) Por cada pieza

de tiempo-frecuencia. Se describe otra estrategia para calcular la PDT objetivo de tal manera que se reduzca el ancho de banda para la transmisión en la Sección 9.

En otras realizaciones, el procesador de audio 50 puede ser parte de un decodificador 110. Por lo tanto, el decodificador 110 para decodificar una señal de audio 55 puede comprender el procesador de audio 50, un decodificador del núcleo 115, y un generador de parches 120. El decodificador del núcleo 115 está configurado para decodificar en núcleo una señal de audio 25 en una trama de tiempo 75 con un número reducido de sub-bandas con respecto a la señal de audio 55. El generador de parches genera un parche para una serie de sub-bandas 95 de la señal de audio decodificada en el núcleo 25 con un número reducido de sub-bandas, en el que la serie de subbandas forma un primer parche 30a, hacia otras sub-bandas de la trama de tiempo 75, adyacentes al número reducido de sub-bandas, para obtener una señal de audio 55 con un número uniforme de sub-bandas. Además, el procesador de audio 50 está configurado para corregir las fases 45 dentro de las sub-bandas del primer parche 30a de acuerdo con una función objetivo 85. El procesador de audio 50 y la señal de audio 55 se han descrito con respecto a las Figuras 15 y 16, donde se explican los signos de referencia que no aparecen en la Figura 19. El procesador de audio de acuerdo con las realizaciones realiza la corrección de fase. Dependiendo de las realizaciones, el procesador de audio puede comprender además una corrección de magnitud de la señal de audio por medio de un aplicador de parámetros de ampliación de ancho de banda 125 aplicando parámetros de BWE o SBR a los parches. Más aun, el procesador de audio puede comprender el sintetizador 100, por ejemplo un banco de filtros de síntesis, para combinar, es decir sintetizar, las sub-bandas de la señal de audio para obtener un archivo de audio normal.

De acuerdo con otras realizaciones, el generador de parches 120 está configurado para generar parches en una serie de sub-bandas 95 de la señal de audio 25, en el que la serie de sub-bandas forma un segundo parche, hacia otras sub-bandas de la trama de tiempo, adyacentes al primer parche y en el que el procesador de audio 50 está configurado para corregir la fase 45 dentro de las sub-bandas del segundo parche. Por otro lado, el generador de parches 120 está configurado para generar parches del primer parche corregido a otras sub-bandas de la trama de tiempo, adyacentes al primer parche.

En otras palabras, en la primera opción, el generador de parches construye una señal de audio con un número uniforme de sub-bandas a partir de la parte transmitida de la señal de audio y posteriormente se corrigen las fases de cada parche de la señal de audio. La segunda opción corrige, en primer lugar, las fases del primer parche con respecto a la parte transmitida de la señal de audio y a continuación construye la señal de audio con el número uniforme de sub-bandas con el primer parche ya corregido.

Otras realizaciones muestran el decodificador 110 que comprende un extractor de flujos de datos 130 configurado para extraer una frecuencia fundamental 114 de la trama de tiempo actual 75 de la señal de audio 55 de un flujo de datos 135, en el que el flujo de datos comprende además la señal de audio codificada 145 con un número reducido

5

10

15

20

25

30

35

40

45

50

55

60

de sub-bandas. Por otro lado, el decodificador puede comprender un analizador de frecuencia fundamental 150 configurado para analizar la señal de audio decodificada en el núcleo 25 para calcular la frecuencia fundamental 140. En otras palabras, las opciones para derivar la frecuencia fundamental 140 son, por ejemplo, un análisis de la señal de audio en el decodificador o en el codificador, en el que en este último caso la frecuencia fundamental puede ser más precisa a costa de una tasa de bits más elevada, puesto que el valor debe transmitirse del codificador al decodificador.

La Figura 20 muestra un codificador 155 para codificar la señal de audio 55. El codificador comprende un codificador núcleo 160 para codificar en núcleo la señal de audio 55 para obtener una señal de audio codificada en núcleo 145 con un número reducido de sub-bandas con respecto a la señal de audio y el codificador comprende un analizador de frecuencia fundamental 175 para analizar la señal de audio 55 o una versión filtrada en paso bajo de la señal de audio 55 para obtener una estimación de la frecuencia fundamental de la señal de audio. Más aun, el codificador comprende un extractor de parámetros 165 para extraer parámetros de sub-bandas de la señal de audio 55 no incluidos en la señal de audio codificada en núcleo 145 y el codificador comprende un formador de señales de salida 170 para formar una señal de salida 135 que comprende la señal de audio codificada en núcleo 145, los parámetros y la estimación de frecuencia fundamental. En esta realización, el codificador 155 puede comprender un filtro paso bajo delante del decodificador del núcleo 160 y un filtro paso alto 185 delante del extractor de parámetros 165. De acuerdo con otras realizaciones, el formador de señales de salida 170 está configurado para formar la señal de salida 135 como una secuencia de tramas, en el que cada trama comprende la señal codificada en núcleo 145, los parámetros 190, y en el que sólo cada enésima trama comprende la estimación de frecuencia fundamental 140, en el que n > 2. En algunas realizaciones, el codificador núcleo 160 puede ser, por ejemplo un codificador AAC (Codificación Avanzada de Audio).

En una realización alternativa se puede utilizar un codificador con relleno de huecos inteligente para codificar la señal de audio 55. Por lo tanto, el codificador núcleo codifica una señal de audio con ancho de banda total, en la que se omite al menos una sub-banda de la señal de audio. Por lo tanto, el extractor de parámetros 165 extrae parámetros para reconstruir las sub-bandas omitidas en el proceso de codificación del codificador núcleo 160.

La Figura 21 muestra una ilustración esquemática de la señal de salida 135. La señal de salida es una señal de audio que comprende una señal de audio codificada en núcleo 145 con un número reducido de sub-bandas con respecto a la señal de audio original 55, un parámetro 190 que representa las sub-bandas de la señal de audio no incluidas en la señal de audio codificada en núcleo 145, y una estimación de la frecuencia fundamental 140 de la señal de audio 135 o la señal de audio original 55.

La Figura 22 muestra una realización de la señal de audio 135, en la que la señal de audio se forma en una secuencia de tramas 195, en el que cada trama 195 comprende la señal de audio codificada en núcleo 145, los parámetros 190, y en el que únicamente cada enésima trama 195 comprende la estimación de frecuencia fundamental 140, donde n > 2. Esto puede describir la transmisión de una estimación de frecuencia fundamental igualmente espaciada por ejemplo cada trama de orden 20, o en el que la estimación de frecuencia fundamental se transmite en forma irregular, por ejemplo a demanda o intencionalmente.

La Figura 23 muestra un método 2300 para procesar una señal de audio que incluye una etapa 2305 “calcular una medida de fases de una señal de audio para una trama de tiempo con un calculador de derivadas de fases de la señal de audio”, una etapa 2310 “determinar una medida de la fase objetivo para dicha trama de tiempo con un determinador de derivadas de la fase objetivo”, y una etapa 2315 “corregir fases de la señal de audio para la trama de tiempo con un corrector de fase utilizando el cálculo de la medida de la fase y la medida de la fase objetivo para obtener una señal de audio procesada”.

La Figura 24 muestra un método 2400 para decodificar una señal de audio que incluye una etapa 2405 “decodificar una señal de audio en una trama de tiempo con el número reducido de sub-bandas con respecto a la señal de audio”, una etapa 2410 “generar parches de una serie de sub-bandas de la señal de audio decodificada con el número reducido de sub-bandas, en el que la serie de sub-bandas forma un primer parche, hacia otras sub-bandas en la trama de tiempo, adyacentes al número reducido de sub-bandas, para obtener una señal de audio con un número uniforme de sub-bandas”, y una etapa 2415 “corregir las fases dentro en las sub-bandas del primer parche de acuerdo con una función objetivo con el proceso de audio”.

La Figura 25 muestra un método 2500 para codificar una señal de audio que incluye una etapa 2505 “codificar en núcleo la señal de audio con un codificador núcleo para obtener una señal de audio codificada en núcleo con un número reducido de sub-bandas con respecto a la señal de audio”, una etapa 2510 “analizar la señal de audio o una versión filtrada por paso bajo de la señal de audio con un analizador de frecuencia fundamental para obtener una estimación de la frecuencia fundamental para la señal de audio”, una etapa 2515 “extraer parámetros de sub-bandas de la señal de audio no incluidos en la señal de audio codificada en núcleo con un extractor de parámetros” y una etapa 2520 “formar una señal de salida que comprende la señal de audio codificada en núcleo, los parámetros y la estimación de frecuencia fundamental con un formador de señales de salida”.

5

10

15

20

25

30

35

40

45

50

55

60

Los métodos descritos 2300, 2400 y 2500 pueden implementarse en un código de programa de un programa informático para realizar los métodos cuando el programa informático se ejecuta en un ordenador.

8.2 Corrección de errores temporales - corrección de derivada de la fase vertical

Como se mencionara anteriormente, los seres humanos pueden percibir un error en la posición temporal de un armónico si los armónicos se sincronizan en la frecuencia y si la frecuencia fundamental es baja. En la Sección 5 se demostró que los armónicos se sincronizan si la derivada de la fase en la frecuencia es constante en el dominio QMF. Por lo tanto, es ventajoso tener al menos un armónico en cada banda de frecuencia. De lo contrario, las bandas de frecuencia “vacías” tendrían fases aleatorias y perturbarían esta medida. Afortunadamente, los seres humanos son sensibles a la ubicación temporal de los armónicos sólo cuando la frecuencia fundamental es baja (véase la Sección 7). Por consiguiente, se puede usar la derivada de fase en la frecuencia como medida para determinar los efectos perceptualmente significativos debido a los movimientos temporales de los armónicos.

La Figura 26 muestra un diagrama esquemático de bloques de un procesador de audio 50' para procesar una señal de audio 55, en el que el procesador de audio 50' comprende un determinador de medidas de la fase objetivo 65', un calculador de errores de fase 200 y un corrector de fase 70'. El determinador de medidas de la fase objetivo 65' determina una medida de la fase objetivo 85' para la señal de audio 55 en la trama de tiempo 75. El calculador de errores de fase 200 calcula un error de fase 105' utilizando una fase de la señal de audio 55 en la trama de tiempo 75 y la medida de la fase objetivo 85'. El corrector de fase 70' corrige la fase de la señal de audio 55 en la trama de tiempo utilizando el error de fase 105' formando la señal de audio procesada 90'.

La Figura 27 muestra un diagrama esquemático de bloques del procesador de audio 50' de acuerdo con otra realización. Por lo tanto, la señal de audio 55 comprende una pluralidad de sub-bandas 95 para la trama de tiempo 75. En consecuencia, el determinador de medidas de la fase objetivo 65' está configurado para determinar la primera medida de la fase objetivo 85a' para una primera señal de sub-banda 95a y una segunda medida de fase objetivo 85b' para una segunda señal de sub-banda 95b. El calculador de errores de fase 200 forma un vector de errores de fase 105', en el que un primer elemento del vector hace referencia a una primera desviación 105a' de la fase de la primera señal de sub-banda 95 y la primera medida de la fase objetivo 85a' y en el que un segundo elemento del vector hace referencia a una segunda desviación 105b' de la fase de la segunda señal de sub-banda 95b y la segunda medida de la fase objetivo 85b'. Más aun, el procesador de audio 50' comprende un sintetizador de señales de audio 100 para sintetizar una señal de audio corregida 90' utilizando una primera señal de sub-banda corregida 90a' y una segunda señal de sub-banda corregida 90b'.

Con respecto a otras realizaciones, la pluralidad de sub-bandas 95 se agrupa en una banda base 30 y una serie de parches de frecuencia 40, comprendiendo la banda base 30 una sub-banda 95 de la señal de audio 55 y la serie de parches de frecuencia 40 comprende dicha al menos una sub-banda 95 de la banda base 30 a una frecuencia más elevada que la frecuencia de la al menos una sub-banda en la banda base. Debe tenerse en cuenta que la generación de parches de la señal de audio ya se ha descrito con respecto a la Figura 3 y por lo tanto no se describe en detalle en esta parte de la descripción. Sólo basta mencionar que los parches de frecuencia 40 pueden consistir en la señal sin procesar de banda base a mayores frecuencias multiplicadas por un factor de ganancia, en la que se puede aplicar la corrección de fase. Más aun, de acuerdo con una realización preferida la multiplicación de la ganancia y la corrección de fase pueden conmutarse de tal manera que las fases de la señal sin procesar de banda base se copien a las mayores frecuencias antes de multiplicarlas por el factor de ganancia. La realización muestra además el calculador de errores de fase 200 que calcula una media de los elementos de un vector de errores de fase 105' con referencia a un primer parche 40a de la serie de parches de frecuencia 40 para obtener un error de fase promedio 105''. Más aun, se muestra un calculador de derivadas de fases de la señal de audio 210 para calcular una media de las derivadas de fases en la frecuencia 215 para la banda base 30.

La Figura 28a muestra una descripción más detallada del corrector de fase 70' en un diagrama de bloques. El corrector de fase 70' en la parte superior de la Figura 28a está configurado para corregir una fase de las señales de sub-bandas 95 en el primer parche y subsiguientes parches de frecuencia 40 de la serie de parches de frecuencia. En la realización de la Figura 28a se muestra que las sub-bandas 95c y 95d pertenecen al parche 40a y las subbandas 95e y 95f pertenecen al parche de frecuencia 40b. Las fases se corrigen utilizando un error de fase promedio ponderado, en el que el error de fase promedio 105 se pondera de acuerdo con un índice del parche de frecuencia 40 para obtener una señal de parche modificada 40'.

Otra realización se muestra en la parte inferior de la Figura 28a. En la esquina superior izquierda del corrector de fase 70' se presenta la realización ya descrita para obtener la señal de parche modificada 40' a partir de los parches 40 y el error de fase promedio 105''. Más aun, el corrector de fase 70' calcula, en una etapa de inicialización, una señal de parche modificada adicional 40'' con un primer parche de frecuencia optimizado sumando la media de las derivadas de fases en la frecuencia 215, ponderada en un índice de sub-banda actual, a la fase de la señal de subbanda con un índice de sub-banda más elevado en la banda base 30 de la señal de audio 55. Para este paso de

5

10

15

20

25

30

35

40

45

50

55

60

inicialización, el conmutador 220a está en su posición izquierda. Para cualquier paso de procesamiento posterior, el conmutador debe estar en la otra posición, formando una conexión en dirección vertical.

En otra realización, el calculador de derivadas de fases de la señal de audio 210 está configurado para calcular una media de las derivadas de fases en la frecuencia 215 para una pluralidad de señales de sub-bandas que comprenden frecuencias más altas que la señal de banda base 30 para detectar transitorios en la señal de subbanda 95. Se debe tener en cuenta que la corrección de transitorios es similar a la corrección de fase vertical del procesador de audio 50' con la diferencia de que las frecuencias de la banda base 30 no reflejan las frecuencias más altas de un transitorio. Por lo tanto, estas frecuencias deben tenerse en cuenta para la corrección de fase de un transitorio.

Después de la etapa de inicialización, el corrector de fase 70' está configurado para actualizar de manera recursiva, basándose en los parches de frecuencia 40, la señal de parche modificada 40'' adicional sumando la media de las derivadas de fases en la frecuencia 215, ponderada con un índice de sub-banda de la sub-banda actual 95, a la fase de la señal la sub-banda con el índice de sub-banda más elevado del parche de frecuencia anterior. La realización preferida es una combinación de las realizaciones anteriormente descritas, donde el corrector de fase 70' calcula una media ponderada de la señal de parche modificada 40' y la señal de parche modificada 40'' adicional para obtener una señal de parche modificada combinada 40'''. Por lo tanto, el corrector de fase 70' actualiza de manera recursiva, basándose en los parches de frecuencia 40, una señal de parche modificada combinada 40''' sumando la media de las derivadas de fases en la frecuencia 215, ponderada con un índice de sub-banda de la sub-banda actual 95 a la fase de la señal la sub-banda con el índice de sub-banda más elevado del parche de frecuencia anterior de la señal de parche modificada combinada 40'''. Para obtener los parches modificados combinados 40a''', 40b''', etc., el conmutador 220b se desplaza a la siguiente posición después de cada recursión, comenzando por la modificada combinada 48''' para la etapa de inicialización, conmutando al parche modificado combinado 40b''' después de la primera recursión y así sucesivamente.

Más aun, el corrector de fase 70' puede calcular una media ponderada de una señal de parche 40' y la señal de parche modificada 40'' utilizando una media circular de la señal de parche 40' en el parche de frecuencia actual ponderado con una primera función de ponderación específica y la señal de parche modificada 40'' en el parche de frecuencia actual ponderado con una segunda función de ponderación específica.

Para proporcionar una interoperabilidad entre el procesador de audio 50 y el procesador de audio 50', el corrector de fase 70' puede formar un vector de desviaciones de fase, en el que las desviaciones de fase se calculan utilizando una señal de parche modificada combinada 40''' y la señal de audio 55.

La Figura 28b muestra las etapas de la corrección de fase desde otro punto de vista. Para una primera trama de tiempo 75a, se deriva la señal de parche 40' aplicando el primer modo de corrección de fase a los parches de la señal de audio 55. La señal de parche 40' se utiliza en el paso de inicialización del segundo modo de corrección para obtener la señal de parche modificada 40''. Una combinación de la señal de parche 40' y la señal de parche modificada 40'' da como resultado una señal de parche modificada combinada 40'''.

El segundo modo de corrección se aplica, por lo tanto, a la señal de parche modificada combinada 40''' para obtener la señal de parche modificada 40'' para la segunda trama de tiempo 75b. Además, el primer modo de corrección se aplica a los parches de la señal de audio 55 en la segunda trama de tiempo 75b para obtener la señal de parche 40'. Una vez más, una combinación de la señal de parche 40' y la señal de parche modificada 40'' da como resultado la señal de parche modificada combinada 40'''. Se aplica el esquema de procesamiento descrito para la segunda trama de tiempo a la tercera trama de tiempo 75c y, en consecuencia, a cualquier otra trama de tiempo de la señal de audio 55.

La Figura 29 muestra un diagrama de bloques detallado del determinador de medidas de la fase objetivo 65'. De acuerdo con una realización, el determinador de medidas de la fase objetivo 65' comprende un extractor de flujos de datos 130' para extraer una posición de pico 230 y una frecuencia fundamental de las posiciones de los picos 235 en una trama de tiempo actual de la señal de audio 55 de un flujo de datos 135. Por otro lado, el determinador de medidas de la fase objetivo 65' comprende un analizador de señales de audio 225 para analizar la señal de audio 55 en la trama de tiempo actual para calcular una posición de pico 230 y una frecuencia fundamental de las posiciones de los picos 235 en la trama de tiempo actual. Además, el determinador de medidas de la fase objetivo comprende un generador de espectro objetivo 240 para estimar posiciones de los picos adicionales en la trama de tiempo actual utilizando la posición de pico 230 y la frecuencia fundamental de las posiciones de los picos 235.

La Figura 30 ilustra un diagrama de bloques detallado del generador de espectro objetivo 240 descrito en la Figura 29. El generador de espectro objetivo 240 comprende un generador de picos 245 para generar un tren de pulsos 265 en el tiempo. Un formador de señales 250 ajusta una frecuencia del tren de pulsos de acuerdo con la frecuencia fundamental de las posiciones de los picos 235. Más aun, un posicionador de pulsos 255 ajusta la fase del tren de pulsos 265 de acuerdo con la posición de pico 230. En otras palabras, el formador de señales 250 cambia la forma

5

10

15

20

25

30

35

40

45

50

55

60

de una frecuencia aleatoria del tren de pulsos 265 de tal manera que la frecuencia del tren de pulsos sea igual a la frecuencia fundamental de las posiciones de los picos de la señal de audio 55. Más aun, el posicionador de pulsos 255 desplaza la fase del tren de pulsos de tal manera que uno de los picos del tren de pulsos sea igual a la posición de pico 230. Seguidamente, un analizador de espectro 260 genera un espectro de fase del tren de pulsos ajustado, en el que el espectro de fase de la señal en el dominio del tiempo es la medida de la fase objetivo 85'.

La Figura 31 muestra un diagrama esquemático de bloques de un decodificador 110' para decodificar una señal de audio 55. El decodificador 110 comprende un decodificador en núcleo 115 configurado para decodificar una señal de audio 25 en una trama de tiempo de la banda base, y un generador de parches 120 para distribuir una serie de subbandas 95 de la banda base decodificada, en el que la serie de sub-bandas forma un parche, hacia otras subbandas de la trama de tiempo, adyacentes a la banda base, para obtener una señal de audio 32 que comprende frecuencias superiores a las frecuencias de la banda base. Más aun, el decodificador 110' comprende un procesador de audio 50' para corregir fases de las sub-bandas del parche de acuerdo con una medida de la fase objetivo.

De acuerdo con otra realización, el generador de parches 120 está configurado para generar parches a la serie de sub-bandas 95 de la señal de audio 25, donde la serie de sub-bandas forma otro parche, hacia otras sub-bandas de la trama de tiempo, adyacentes al parche, y en el que el procesador de audio 50' está configurado para corregir las fases dentro de las sub-bandas del parche adicional. Por otro lado, el generador de parches 120 está configurado para generar parches al parche corregido a otras sub-bandas de las tramas de tiempo adyacentes al parche.

Otra realización se refiere a un decodificador para decodificar una señal de audio que comprende un transitorio, en el que el procesador de audio 50' está configurado para corregir la fase del transitorio. El tratamiento de los transitorios se describe en otras palabras en la Sección 8.4. Por lo tanto, el decodificador 110 comprende un procesador de audio adicional 50' para recibir otra derivada de fase de una frecuencia y para corregir los transitorios de la señal de audio 32 utilizando la derivada de fase o la frecuencia recibida. Más aun, se debe apreciar que el decodificador 110' de la Figura 31 es similar al decodificador 110 de la Figura 19, de manera que la descripción con respecto a los elementos principales es mutuamente intercambiable en los casos no relacionados a la diferencia de los procesadores de audio 50 y 50'.

La Figura 32 muestra un codificador 155' para codificar una señal de audio 55. El codificador 155' comprende un codificador núcleo 160, un analizador de la frecuencia fundamental 175', un extractor de parámetros 165 y un formador de señales de salida 170. El codificador núcleo 160 está configurado para codificar en núcleo la señal de audio 55 para obtener una señal de audio codificada en núcleo 145 con un número reducido de sub-bandas con respecto a la señal de audio 55. El analizador de la frecuencia fundamental 175' analiza las posiciones de los picos 230 en la señal de audio 55 o una versión filtrada por paso bajo de la señal de audio para obtener una estimación de la frecuencia fundamental de las posiciones de los picos 235 en la señal de audio. Más aun, el extractor de parámetros 165 extrae los parámetros 190 de las sub-bandas de la señal de audio 55 no incluidos en la señal de audio codificada en núcleo 145 y el formador de señales de salida 170 forma una señal de salida 135 que comprende la señal de audio codificada en núcleo 145, los parámetros 190, la frecuencia fundamental de las posiciones de los picos 235 y una de las posiciones de los picos 230. De acuerdo con algunas realizaciones, el formador de señales de salida 170 está configurado para formar la señal de salida 135 en la configuración de secuencia de tramas, donde cada trama comprende la señal de audio codificada en núcleo 145, los parámetros 190, y en el que únicamente cada enésima trama comprende la estimación de frecuencia fundamental de las posiciones de los picos 235 y la posición de pico 230, en el que n > 2.

La Figura 33 muestra una realización de la señal de audio 135 que comprende una señal de audio codificada en núcleo 145 que comprende un número reducido de sub-bandas con respecto a la señal de audio original 55, el parámetro 190 que representa las sub-bandas de la señal de audio no incluidas en la señal de audio codificada en núcleo, una estimación de la frecuencia fundamental de las posiciones de los picos 235, y una estimación de las posiciones de los picos 230 de la señal de audio 55. Por otro lado, la señal de audio 135 adopta la forma de una secuencia de tramas, donde cada trama comprende la señal de audio codificada en núcleo 145, los parámetros 190, y en el que únicamente cada enésima trama comprende la estimación de la frecuencia fundamental de las posiciones de los picos 235 y la posición de pico 230, en el que n > 2. El concepto ya se ha descrito con respecto a la Figura 22.

La Figura 34 muestra un método 3400 para procesar una señal de audio con un procesador de audio. El método 3400 comprende una etapa 3405 “determinar una medida de la fase objetivo para la señal de audio en una trama de tiempo con una medida de la fase objetivo”, una etapa 3410 “calcular un error de fase con un calculador de errores de fase utilizando la fase de la señal de audio en la trama de tiempo y la medida de la fase objetivo” y una etapa 3415 “corregir la fase de la señal de audio en la trama de tiempo con una fase corregida utilizando el error de fase”.

La Figura 35 muestra un método 3500 para decodificar una señal de audio con un decodificador. El método 3500 comprende una etapa 3505 “decodificar una señal de audio en una trama de tiempo de la banda base con un decodificador del núcleo”, una etapa 3510 “generar parches para una serie de sub-bandas de la banda base

5

10

15

20

25

30

35

40

45

50

55

decodificada con un generador de parches, en el que la serie de sub-bandas forma un parche, hacia otras subbandas de la trama de tiempo, adyacentes a la banda base, para obtener una señal de audio que comprende frecuencias superiores a las frecuencias de la banda base” y una etapa 3515 “corregir las fases con las sub-bandas del primer parche con un procesador de audio de acuerdo con una medida de la fase objetivo”.

La Figura 36 muestra un método 3600 para codificar una señal de audio con un codificador. El método 3600 comprende una etapa 3605 “codificar en núcleo la señal de audio con un codificador núcleo para obtener una señal de audio codificada en núcleo con un número reducido de sub-bandas con respecto a la señal de audio”, una etapa 3610 “analizar la señal de audio o una versión filtrada en paso bajo de la señal de audio con un analizador de la frecuencia fundamental para obtener una estimación de la frecuencia fundamental de las posiciones de los picos en la señal de audio”, una etapa 3615 “extraer los parámetros de las sub-bandas de la señal de audio no incluidas en la señal de audio codificada en núcleo con un extractor de parámetros” y una etapa 3620 “formar una señal de salida con un formador de señales de salida que comprende la señal de audio codificada en núcleo, los parámetros, la frecuencia fundamental de las posiciones de los picos y la posición de pico”.

En otras palabras, el algoritmo sugerido para corregir los errores en las posiciones temporales de los armónicos funciona de la siguiente manera. En primer lugar, se calcula una diferencia entre los espectros de fase de la señal

objetivo y la señal procesada por SBR (Z^hc> (7c, n) Y ZPha)

(20a)

lo que se representa en la Figura 37. La Figura 37 muestra el error en el espectro de fase Dpha(k,n) de la señal de trombón en el dominio QMF utilizando SBR por copiado directo. En este punto se puede suponer que el espectro de la fase objetivo es igual al de la señal de entrada

Z^\kfn) = X^{ktn) (20b)

Más adelante se presenta cómo se puede obtener el espectro de la fase objetivo con una baja tasa de bits.

Se realiza la corrección de la derivada de la fase vertical utilizando dos métodos y se obtiene el espectro de la fase final corregido como una mezcla de estos.

En primer lugar, se puede apreciar que el error es relativamente constante dentro del parche de frecuencia, y el error salta a un nuevo valor cuando entra un nuevo parche de frecuencia. Esto tiene sentido, puesto que la fase cambia con un valor constante en la frecuencia a todas las frecuencias en la señal original. El error se forma en el cruce y el error se mantiene constante dentro del parche. Por consiguiente, basta con un solo valor para corregir el error de fase de la totalidad del parche de frecuencia. Más aun, el error de fase de los parches de frecuencia más elevada puede corregirse utilizando este mismo valor de error una vez multiplicado por el número índice del parche de frecuencia.

Por lo tanto, se calcula la media circular del error de fase para el primer parche de frecuencia

Dgyf((n) = media circular {Dpba(k, n)}, 8 < k < 13. (21)

Se puede corregir el espectro de fase utilizándolo

K'í¡:». «.0 = - i ■ (22)

Esta corrección sin procesar produce un resultado exacto si la PDF objetivo, por ejemplo la derivada de la fase en la frecuencia Xpdf(k,n), es exactamente constante en todas las frecuencias. Sin embargo, como se puede observar en la Figura 12, con frecuencia hay una ligera fluctuación del valor de la frecuencia. Por consiguiente, se pueden obtener mejores resultados utilizando un procesamiento mejorado en los cruces para evitar toda discontinuidad en la PDF producida. En otras palabras, esta corrección produce valores correctos para la PDF en términos generales, aunque podría haber leves discontinuidades en las frecuencias de cruce de los parches de frecuencia. Para

evitarlas, se aplica el método de corrección. El espectro de fase corregido final Y?ha(k, n, i) se obtiene como una mezcla de dos métodos de corrección.

El otro método de corrección se inicia calculando una media de la PDF en la banda base

5

10

15

20

25

30

35

40

45

50

^avg(n) = media circu|arlibase(k' n)j- (23)

El espectro de fase puede corregirse utilizando esta medida suponiendo que la fase cambia con este valor promedio, es decir,

Y^fan, 1) = ^,(6,n) + k ■ X$(nl

0 = n.¡-\) + k- {24}

vpha

donde *cv es la señal de parche combinada de los dos métodos de corrección.

Esta corrección proporciona buena calidad en los cruces, aunque puede causar una oscilación en la PDF hacia mayores frecuencias. Para evitarlo, se combinan los dos métodos de corrección calculando una media circular ponderada de estos

Yfvha(k, n, i) = media circular \(k, n, i, c), Wfc(kr c)|,

donde c indica el método de corrección (Kc^a o Y Wc(k,c) es la función de ponderación

W{c(k, 1) = [0,2, 0,45, 0,7,1, 1, 1 ],

Wfjk, 2) = [0,8, 0,55, 0,3, 0, 0, 0],

(26a)

El espectro de fase obtenido Y¡Jba(k, n, i) no adolece de discontinuidades ni oscilaciones. El error en comparación con el espectro original y la PDF del espectro de fase corregido se representan en la Figura 38. La Figura 38a muestra el error en el espectro de fase D^3 (k, n) de la señal de trombón en el dominio QMF utilizando la señal de fase SBR corregida, en el que la Figura 38b muestra la derivada de la fase correspondiente en la frecuencia Z^f(k, ti). Se puede apreciar que el error es significativamente menor que sin la corrección y la PDF no presenta

discontinuidades de consideración. Hay errores significativos en ciertas tramas temporales, aunque estos intervalos tienen baja energía (véase la Figura 4), por lo que tienen un efecto perceptual insignificante. Los intervalos temporales con energía significativa se corrigen relativamente bien. Puede observarse que los artefactos de la SBR no corregida se mitigan significativamente.

El espectro de fase corregido Z^a(k,n) se obtiene concatenando los parches de frecuencia corregidos

YCyha (k, n, í) . Para que sea compatible con el modo de corrección horizontal, la corrección de fase vertical se puede presentar asimismo utilizando una matriz moduladora (véase la Ec. 18)

Q?h*{k,7i) = Z^ihn) - Zpba(k,n)r (26b)

8.3 Conmutación entre diferentes métodos de corrección de fase

Las Secciones 8.1 y 8.2 demostraron que los errores de fase inducidos por la SBR se pueden corregir aplicando la corrección de PDT al violín y la corrección de PDF al trombón. Sin embargo, no se consideró cómo saber cuál de las correcciones se debe aplicar a una señal desconocida, o si se debe aplicar una de ellas. Esta sección propone un método para seleccionar automáticamente la dirección de corrección. La dirección de corrección (horizontal/vertical) se decide basándose en la variación de la derivada de fases de la señal de entrada.

Por lo tanto, en la Figura 39, se muestra un calculador para determinar datos de corrección de fase para una señal de audio 55. El determinador de variaciones 275 determina la variación de una fase 45 de la señal de audio 55 en un primero y en un segundo modo de variación. El comparador de variaciones 280 compara una primera variación 290a que se determina utilizando el primer modo de variación y una segunda variación 290b que se determina utilizando el segundo modo de variación y un calculador de datos de corrección calcula los datos de corrección de fase 295 de acuerdo con el primer modo de variación o el segundo modo de variación basándose en un resultado del comparador.

5

10

15

20

25

30

35

40

45

50

55

60

Más aun, el determinador de variaciones 275 puede estar configurado para determinar una medida de la desviación típica de una derivada de la fase en el tiempo (PDT) para una pluralidad de tramas de tiempo de la señal de audio 55 como la variación 290a de la fase en el primer modo de variación y para determinar una medida de la desviación típica de una derivada de la fase en la frecuencia (PDF) para una pluralidad de sub-bandas de la señal de audio 55 como la variación 290b de la fase en el segundo modo de variación. Por lo tanto, el comparador de variaciones 280 compara la medida de la derivada de la fase en el tiempo como primera variación 290a y la medida de la derivada de la fase en la frecuencia como una segunda variación 290b para las tramas de tiempo de la señal de audio.

Las realizaciones muestran el determinador de variaciones 275 para determinar una desviación típica circular de una derivada de la fase en el tiempo de un intervalo actual y una pluralidad de intervalos anteriores de la señal de audio 55 como la medida de desviación típica y para determinar una desviación típica circular de una derivada de la fase en el tiempo del intervalo actual y una pluralidad de intervalos futuros de la señal de audio 55 para una trama de tiempo actual como medida de la desviación típica. Más aun, el determinador de variaciones 275 calcula, al determinar la primera variación 290a, un mínimo de ambas desviaciones típicas circulares. En otra realización, el determinador de variaciones 275 calcula la variación 290a en el primer modo de variación como una combinación de una medida de la desviación típica correspondiente a una pluralidad de sub-bandas 95 en una trama de tiempo 75 para formar una medida de la desviación típica promediada de una frecuencia. El comparador de variaciones 280 está configurado para realizar la combinación de las medidas de desviación típica calculando una media ponderada de la energía de las medidas de desviación típica de la pluralidad de sub-bandas utilizando los valores de magnitud de la señal de sub-banda 95 en la trama de tiempo actual 75 como una medida de la energía.

En una realización preferida, el determinador de variaciones 275 alisa la medida de la desviación típica promediada al determinar la primera variación 290a, en la trama de tiempo actual y en una pluralidad de tramas de tiempo anteriores y futuros. El alisado se pondera de acuerdo con una energía calculada utilizando las correspondientes tramas de tiempo y una función de generación de ventanas. Más aun, el determinador de variaciones 275 está configurado para alisar la medida de desviación típica, cuando se determina la segunda variación 290b en la trama de tiempo actual y en una pluralidad de tramas de tiempo anteriores y futuros 75, en el que el alisado se pondera de acuerdo con la energía calculada utilizando las correspondientes tramas de tiempo y una función de generación de ventanas. Por lo tanto, el comparador de variaciones 280 compara la medida de desviación típica promediada alisada como la primera variación 290a que se determina utilizando el primer modo de variación y compara la medida de desviación típica alisada como la segunda variación 290b que se determina utilizando el segundo modo de variación.

En la Figura 40 se muestra una realización preferida. De acuerdo con esta realización, el determinador de variaciones 275 comprende dos parches de procesamiento para calcular la primera y la segunda variación. Un primer parche de procesamiento comprende un calculador de PDT 300a, para calcular la medida de la desviación típica de la derivada de la fase en el tiempo 305a de la señal de audio 55 o de la fase de la señal de audio. Un calculador de desviación típica circular 310a determina una primera desviación típica circular 315a y una segunda desviación típica circular 315b a partir de la medida de la desviación típica de una derivada de la fase en el tiempo 305a. La primera y segunda desviaciones típicas circulares 315a y 315b se comparan por un comparador 320. El comparador 320 calcula la mínima 325 de las dos medidas de desviación típica circular 315a y 315b. Un combinador combina la mínima 325 en la frecuencia para formar una medida promedio de desviación típica 335a. Un alisador 340a alisa la medida de desviación típica circular 335a para formar una medida promedio de desviación típica alisada 345a.

El segundo parche de procesamiento comprende un calculador de PDF 300b para calcular una derivada de la fase en la frecuencia 305b a partir de la señal de audio 55 o una fase de la señal de audio. Un calculador de desviación típica circular 310b forma una medida de las desviaciones típicas 335b de la derivada de la fase en la frecuencia 305. La medida de la desviación típica 305 se alisa por un alisador 340b para formar una medida de desviación típica alisada 345b. Las medidas de la desviación típica promediadas y alisadas 345a y la medida de la desviación típica alisada 345b son la primera y la segunda variación, respectivamente. El comparador de variaciones 280 compara la primera y segunda variaciones y el calculador de datos de corrección 285 calcula los datos de corrección de fase 295 basándose en la comparación de la primera y segunda variaciones.

Otras realizaciones muestran el calculador 270 manejando tres modos de corrección de fases. En la Figura 41 se muestra un diagrama de bloques figurativo. La Figura 41 muestra que el determinador de variaciones 275 determina adicionalmente una tercera variación 290c de la fase de la señal de audio 55 en un tercer modo de variación, en el que el tercer modo de variación es un modo de detección de transitorios. El comparador de variaciones 280 compara la primera variación 290a, que se determina utilizando el primer modo de variación, la segunda variación 290b, que se determina utilizando el segundo modo de variación y la tercera variación 290c, que se determina utilizando la tercera variación. Por lo tanto, el calculador de datos de corrección 285 calcula los datos de corrección de fase 295 de acuerdo con el primer modo de corrección, el segundo modo de corrección, o el tercer modo de corrección, basándose en el resultado de la comparación. Para calcular la tercera variación 290c en el tercer modo de variación, el comparador de variaciones 280 puede estar configurado para calcular una estimación de energía instantánea de

5

10

15

20

25

30

35

40

45

50

55

la trama de tiempo actual y una estimación de energía promediada en el tiempo de una pluralidad de tramas de tiempo 75. Por lo tanto, el comparador de variaciones 280 está configurado para calcular una relación de la estimación de energía instantánea y la estimación de energía promediada en el tiempo y está configurado para comparar la relación con un umbral definido para detectar transitorios en una trama de tiempo 75.

El comparador de variaciones 280 debe determinar un modo de corrección adecuado basándose en tres variaciones. Basándose en esta decisión, el calculador de datos de corrección 285 calcula los datos de corrección de fase 295 de acuerdo con un tercer modo de variación en caso de detectarse un transitorio. Más aun, el calculador de datos de corrección 85 calcula los datos de corrección de fase 295 de acuerdo con un primer modo de variación, en caso de detectarse la ausencia de un transitorio y, si la primera variación 290a determinada en el primer modo de variación, es inferior o igual a la segunda variación 290b, determinada en el segundo modo de variación. En consecuencia, los datos de corrección de fase 295 se calculan de acuerdo con el segundo modo de variación en caso de detectarse la ausencia de un transitorio y si la segunda variación 290b determinada en el segundo modo de variación, es menor que la primera variación 290a, determinada en el primer modo de variación.

El calculador de datos de corrección está configurado además para calcular los datos de corrección de fase 295 para la tercera variación 290c para tramas de tiempo actuales, uno o más anteriores o futuras. En consecuencia, el calculador de datos de corrección 285 está configurado para calcular los datos de corrección de fase 295 para el segundo modo de variación 290b para una trama actual, uno o más anteriores o futuras. Más aun, el calculador de datos de corrección 285 está configurado para calcular los datos de corrección 295 para una corrección de la fase horizontal y el primer modo de variación, calcular los datos de corrección 295 para una corrección de fase vertical en el segundo modo de variación y para calcular los datos de corrección 295 para una corrección de transitorio en el tercer modo de variación.

La Figura 42 muestra un método 4200 para determinar los datos de corrección de fase a partir de una señal de audio. El método 4200 comprende una etapa 4205 “determinar una variación de una fase de la señal de audio con un determinador de variaciones en un primero y en un segundo modo de variación”, una etapa 4210 “comparar la variación que se determina utilizando el primero y segundo modos de variación con un comparador de variaciones” y una etapa 4215 “calcular la corrección de fase con un calculador de datos de corrección de acuerdo con el primer modo de variación o el segundo modo de variación basándose en un resultado de la comparación”.

En otras palabras, la PDT del violín es lisa en el tiempo, mientras que la PDF del trombón es lisa en la frecuencia. Por lo tanto, se puede utilizar la desviación típica (STD) de estas medidas como medida de la variación para seleccionar el método de corrección apropiado. La STD de la derivada de la fase en el tiempo se puede calcular de la siguiente manera

X*'10, n) = c ¡n:5td{A 11 C¿t n 4- f)}r -23 < í £ 0,

+ Í)]P 1> < I <

X^tk.ri) - mi nJjf itdTl(ftj n), Jf5”1 (fc, ?i)},

y la STD de la derivada de la fase en la frecuencia de esta manera

= c¡rcstd{*l*d|r0k, n)}, 2 <, k £ 13.

W)

donde circstd{} indica el cálculo de la STD circular (potencialmente se podrían ponderar los valores de ángulos en la energía para evitar STD elevada debido a los segmentos con ruido de baja energía, o se podría restringir el cálculo de la STD a los segmentos con energía suficiente). Las STD para el violín y al trombón se muestran en las Figuras 43a, 43b y Figuras 43c, 43d, respectivamente. Las Figuras 43a y c muestran la desviación típica de la derivada de la fase en el tiempo Xstdt(k,n) en el dominio QMF, en el que las Figuras 43b y 43d muestran la correspondiente desviación típica en la frecuencia Xstóf(n) sin corrección de fase. El gradiente de color indica valores de rojo = 1 a azul = 0. Se puede apreciar que la STD de la PDT es más baja en el caso del violín, mientras que la STD de la PDF es más baja en el caso del trombón (especialmente en el caso de las piezas de tiempo-frecuencia con alta energía).

El método de corrección utilizado para cada trama de tiempo se selecciona basándose en cuál de las STD es menor. Para ello, se tiene que combinar los valores Xtdt(k,n) en la frecuencia. La fusión se realiza calculando una media ponderada por la energía correspondiente a un rango de frecuencias predefinido

5

10

15

20

25

30

35

40

45

50

imagen2

Las estimaciones de desviación se alisan en el tiempo para tener una conmutación lisa y, de esta manera, evitar artefactos potenciales. El alisado se realiza utilizando una ventana de Hann y se pondera por la energía de la trama temporal

imagen3

en el que W(l) es la función de ventana y Xma&(ii) = Yik=iXmas(.k, n) es la suma de Xma9(k,n) en la frecuencia. Se utiliza una ecuación correspondiente para alisar ^®tdf(n).

El método de corrección de fase se determina comparando X|^lt(n) Y f(n)- ^ método por defecto es la

corrección por PDT (horizontal), y si X|^ff(n) < , se aplica la corrección de PDF (vertical) al intervalo [n

- 5, n + 5]. Si ambas desviaciones son grandes, por ejemplo superiores a un valor umbral predefinido, no se aplica ninguno de los métodos de corrección y se podrían conseguir ahorros de tasas de bits.

8.4 Manejo de transitorios - corrección de la derivada de fase correspondiente a los transitorios

En la Figura 44 se expone la señal de violín con un aplauso agregado en el medio. La magnitud Xmag(k,n) de una señal de violín + aplauso en el dominio QMF se muestra en la Figura 44a, y el espectro de fase correspondiente Xpha(k,n) en la Figura 44b. Con respecto a la Figura 44a, el gradiente de color indica valores de magnitud de rojo = 0 dB a azul = -80 dB. En consecuencia, en el caso de la Figura 44b, el gradiente de fase indica valores de fase de rojo = n a azul = -n. Las derivadas de fase en el tiempo y en la frecuencia se presentan en la Figura 45. La derivada de la fase en el tiempo Xpdt(k,n) de la señal de violín + aplauso en el dominio QMF se muestra en la Figura 45a, y la derivada de la fase correspondiente en la frecuencia Xpdf(k,n) en la Figura 45b. El gradiente de color indica valores de fase de rojo = n a azul = -n. Se puede observar que la PDT tiene ruido para el aplauso, aunque la PDF es algo lisa, al menos a frecuencias elevadas. Por consiguiente, la corrección de PDF se debe aplicar al aplauso para mantener su precisión. Sin embargo, el método de corrección sugerido en la Sección 8.2 podría no funcionar correctamente con esta señal, puesto que el sonido del violín perturba las derivadas a bajas frecuencias. Como resultado, el espectro de fase de la banda base no refleja las frecuencias elevadas, y por consiguiente la corrección de fase de los parches de frecuencia utilizando un único valor puede no funcionar. Más aun, la detección de los transitorios basándose en la variación del valor de PDF (véase la Sección 8.3) sería difícil debido a los valores de PDF con ruido a bajas frecuencias.

La solución al problema es sencilla. En primer lugar, se detectan los transitorios utilizando un sencillo método basado en la energía. Se compara la energía instantánea de las medias/altas frecuencias con una estimación de energía alisada. La energía instantánea de las medias/altas frecuencias se calcula de la siguiente manera

imagen4

El alisado se realiza utilizando un filtro de IR de primer orden

X'™emh(n) = 0,1 • Imasmh(n) + 0,9 ■ X™emh

(n - 1).

(32)

Si Zmagmh(n)/X™agmh(n) > 8 , se ha detectado un transitorio. El umbral 6 puede ajustarse con precisión para

detectar la cantidad de transitorios deseada. Por ejemplo, se puede utilizar 9 = 2. La trama detectada no se selecciona directamente para que sea la trama transitoria. En su lugar, se busca la energía local máxima de lo que la rodea. En la implementación actual, el intervalo seleccionado es [n - 2, n + 7]. Se selecciona la trama temporal con la energía máxima dentro de este intervalo para que sea el transitorio.

En teoría, también se puede aplicar el modo de corrección vertical correspondiente a los transitorios. Sin embargo,

28

5

10

15

20

25

30

35

40

45

50

55

60

en el caso de los transitorios, con frecuencia el espectro de fase de la banda base no refleja las altas frecuencias. Esto puede llevar a ecos anteriores y posteriores en la señal procesada. Por consiguiente, se sugiere un procesamiento ligeramente modificado para los transitorios.

Se calcula la PDF promedio del transitorio a altas frecuencias

. (n) = media circular fXPdí'(/í, H )], - 1 1 < k < 36, (33)

«TV gil! v ^ v. N >

El espectro de fase para el intervalo transitorio se sintetiza utilizando este cambio de fase constante como en la Ec.

24, aunque A3jvg(n)se reemplaza por^aVgh¡(n)- Se aplica la misma corrección a las tramas temporales dentro del

intervalo [n - 2, n + 2] (n se suma a la PDF de las tramas n - 1 y n + 1 debido a las propiedades del QMF, véase la Sección 6). Esta corrección ya produce un transitorio en una posición adecuada, aunque la forma del transitorio no es necesariamente la conveniente, y se pueden presentar considerables lóbulos laterales (es decir, transitorios adicionales) debido al considerable solapamiento temporal de las tramas QMF. Por lo tanto, el ángulo de fase absoluto también ha de corregirse. El ángulo absoluto se corrige calculando el error medio entre el espectro sintetizado y el de la fase original. Se realiza la corrección por separado para cada trama de tiempo del transitorio.

El resultado de la corrección de transitorios se presenta en la Figura 46. Se muestra una derivada de la fase en el tiempo Xpdt(k,n) de la señal de violín + aplauso en el dominio QMF utilizando la fase SBR corregida. La Figura 47b muestra la derivada de la fase correspondiente en la frecuencia Xpdf(k,n). Una vez más, el gradiente de color indica valores de fase de rojo = n a azul = -n. Se puede percibir que el aplauso con fase corregida tiene la misma agudeza que la señal original, si bien la diferencia en comparación con el copiado directo no es grande. Por lo tanto, la corrección de transitorios no es un requisito imprescindible en todos los casos cuando sólo se activa el copiado directo. Por el contrario, si se habilita la corrección de PDT, es importante contar con el manejo de transitorios, ya que de lo contrario la corrección de PDT ensuciaría severamente los transitorios.

9 Compresión de los datos de corrección

La Sección 8 mostró que los errores de fase pueden corregirse, aunque no se consideró en absoluto la tasa de bits adecuada para la corrección. Esta sección sugiere métodos para representar los datos de corrección con baja tasa de bits.

9.1 Compresión de los datos de corrección de PDT - Crear el espectro objetivo para la corrección horizontal

Hay numerosos parámetros posibles que podrían transmitirse para habilitar la corrección de PDT. Sin embargo, dado que Dsm(k> n) se alisa en el tiempo, es un potencial candidato para la transmisión a bajas tasas de bits.

En primer lugar, se analiza una tasa de actualización adecuada. El valor se actualizó sólo cada N tramas y se interpola linealmente entre éstas. El intervalo de actualización para obtener una buena calidad es de aproximadamente 40 ms. Para ciertas señales es ventajoso un bit menos y para otras un bit más. Las pruebas de escucha formales serían provechosas para evaluar una tasa de actualización óptima. De todos modos, parecer ser aceptable un intervalo de actualización relativamente largo.

También se estudió una precisión angular adecuada para D^^(_k, n) ■ 6 bits (64 valores de ángulo posibles) son

suficientes para una buena calidad perceptual. Más aun, se evaluó la transmisión de sólo el cambio de valor. Con frecuencia los valores parecen cambiar sólo un poco, por lo que se puede aplicar la cuantificación no uniforme para lograr una mayor precisión en el caso de los cambios pequeños. Utilizando esta estrategia, se encontró que 4 bits (16 valores de ángulo posibles) proporcionaban una buena calidad.

Lo último a tener en cuenta es una precisión espectral adecuada. Como se puede apreciar en la Figura 17, muchas bandas de frecuencias parecen compartir aproximadamente el mismo valor. Por consiguiente, se podría emplear probablemente un valor para representar varias bandas de frecuencia. Además, a altas frecuencias hay múltiples armónicos dentro de una banda de frecuencia, por lo que probablemente se necesite menos precisión. De todos modos, se encontró otra estrategia posiblemente mejor, por lo que no se investigaron a fondo estas opciones. A continuación se describe la estrategia más eficaz sugerida.

9.1.1 Uso de estimación de la frecuencia para comprimir los datos de corrección de PDT

Como se analiza en la Sección 5, la derivada de la fase en el tiempo significa básicamente la frecuencia de la sinusoide producida. Las PDT del QMF complejo de 64 bandas aplicado se pueden transformar a frecuencias utilizando la siguiente ecuación

5

10

15

20

25

30

35

40

45

50

55

60

imagen5

Las frecuencias producidas están dentro del intervalo finter(k) = [fc(k) - /Bw, fc(k) + /Bw], donde fc(k) es la frecuencia

central de la banda de frecuencia k y /Bw es 375 Hz. El resultado se muestra en la Figura 47 en una representación de tiempo-frecuencia de las frecuencias de las bandas de QMF X:eq(k,rí) para la señal de violín. Se puede observar que las frecuencias parecen seguir los múltiplos de la frecuencia fundamental del tono y de esta manera los armónicos están espaciados en la frecuencia por la frecuencia fundamental. Además, el vibrato parece causar la modulación de la frecuencia.

Puede aplicarse la misma representación al copiado directo Xreq(k,ri) y a la SBR corregida Z^eq (k, n) (véase las

Figuras 48a y Figura 48b, respectivamente). La Figura 48a muestra una representación de tiempo-frecuencia de las frecuencias de las bandas de QMF de la señal de SBR por copiado directo Zfreq(k,n) en comparación con la señal original X?req(k,ri), mostrada en la Figura 47. La Figura 48b muestra la representación correspondiente de la señal de

SBR corregida Z^q(k, n). En los trazados de la Figura 48a y Figura 48b, la señal original está dibujada en color azul, en el que las señales de SBR por copiado directo y SBR corregida están trazadas en rojo. En la figura puede observarse desarmonía de la SBR por copiado directo, especialmente al comienzo y al final de la muestra. Además, se puede observar que la profundidad de modulación de la frecuencia es claramente menor que la de la señal original. Por el contrario, en el caso de la SBR corregida, las frecuencias de los armónicos parecen seguir las frecuencias de la señal original. Además, la profundidad de modulación parece ser correcta. Por consiguiente, esta representación parece confirmar la validez del método de corrección sugerido. Por lo tanto, a continuación se concentra la atención en la compresión real de los datos de corrección.

Dado que las frecuencias de Xfreq(k,n) están espaciadas a la misma distancia, las frecuencias de todas las bandas de frecuencia pueden aproximarse si se estima y transmite el espaciamiento entre las frecuencias. En el caso de las señales armónicas, el espaciamiento debe ser igual a la frecuencia fundamental del tono. Por consiguiente, sólo se tiene que transmitir un valor para representar todas las bandas de frecuencia. En el caso de señales más irregulares, se necesitan más valores para describir el comportamiento de los armónicos. Por ejemplo, el espaciamiento de los armónicos se incrementa ligeramente en el caso de un tono plano [14]. Para simplificar, se supone a continuación que los armónicos están espaciados en la misma cantidad. De todos modos, esto no limita la generalidad del procesamiento de audio descrito.

Por consiguiente, se estima la frecuencia fundamental del tono para estimar las frecuencias de los armónicos. La estimación de la frecuencia fundamental es un asunto extensamente estudiado (por ejemplo, véase [14]). Por lo tanto, se implementa un sencillo método de estimación para generar los datos empleados para las etapas de procesamiento adicionales. El método básicamente calcula los espaciamientos entre los armónicos, y combina el resultado de acuerdo con cierta heurística (cuánta energía, cuánto estable es el valor en la frecuencia y tiempo, etc.). En todo caso, el resultado es una estimación de la frecuencia fundamental por cada trama de tiempo X0(rí). En otras palabras, la derivada de la fase en el tiempo está asociada a la frecuencia del correspondiente segmento de QMF. Además, los artefactos relacionados con errores en la PDT se pueden percibir mayormente con señales armónicas. Por consiguiente, se sugiere que la TDP objetivo (véase la Ec. 16a) pueda estimarse utilizando la estimación de la frecuencia fundamental /0. La estimación de una frecuencia fundamental es un asunto ampliamente estudiado, y hay numerosos métodos robustos disponibles para obtener estimaciones confiables de la frecuencia fundamental.

En este caso, se supone la frecuencia fundamental X0(n), como es conocida por el decodificador con anterioridad a la ejecución de la BWE y el empleo de la corrección de fase de la invención dentro de la BWE. Por lo tanto, es ventajoso que la etapa de codificación transmita la frecuencia fundamental estimada X0(rí). Además, para una eficacia mejorada de la codificación, se puede actualizar el valor sólo, por ejemplo, cada trama de tiempo de orden 20 (que corresponde a un período de -27 ms), e interpolarlo entre estas.

Por otro lado, se podría estimar la frecuencia fundamental en la etapa de decodificación, y no es necesario transmitir ninguna información. Sin embargo, se pueden obtener mejores estimaciones si la estimación se realiza con la señal original en la etapa de la codificación.

El procesamiento por el decodificador se inicia obteniendo una estimación de la frecuencia fundamental X0(n) por cada trama de tiempo.

Las frecuencias de los armónicos se pueden obtener multiplicándolas por un vector índice

V k 3 n t Xh*Tm(K, n) ~ k- X^(n) (35}

5

10

15

20

25

30

35

40

45

50

55

El resultado se muestra en la Figura 49. La Figura 49 muestra una representación tiempo frecuencia de las frecuencias estimadas de los armónicos X"arm(k,n) en comparación con las frecuencias de las bandas de QMF de la señal original X?req(k,n). Una vez más, azul indica la señal original y rojo la señal estimada. Las frecuencias de los armónicos estimados coinciden con la señal original bastante bien. Se puede considerar que estas frecuencias son las frecuencias 'permitidas'. Si el algoritmo produce estas frecuencias, se deben evitar los artefactos asociados a la desarmonía.

El parámetro transmitido del algoritmo es la frecuencia fundamental X°(n). Para una eficacia de codificación mejorada, el valor se actualiza sólo cada trama de tiempo de orden 20 (es decir, cada 27 ms). Este valor parece producir una buena calidad perceptual basándose en la escucha informal. Sin embargo, las pruebas de escucha formales son útiles para evaluar un valor más óptimo para la velocidad de actualización.

La etapa siguiente del algoritmo consiste en hallar un valor adecuado para cada banda de frecuencia. Esto se realiza seleccionando el valor de Xharm(k,n) que es más cercano a la frecuencia central de cada banda fc(k) para reflejar esa banda. Si el valor más cercano está fuera de los posibles valores de la banda de frecuencia (f¡nterM), se usa el valor

límite de la banda. La matriz así obtenida X^^ (k,ri) contiene una frecuencia por cada pieza de tiempo- frecuencia.

La etapa final del algoritmo de compresión de datos de corrección es convertir los datos de frecuencia nuevamente a datos de PDT

*5JVM) - 2n ■ mad 1 (36)

donde mod() indica el operador del módulo. El algoritmo de corrección real funciona de la manera mostrada en la

Sección 8.1. Se reemplaza z^\k,n) en la Ec. 16a por X^t(k,ri) como PDT objetivo y las Eos. 17-19 se utilizan como en la Sección 8.1. El resultado del algoritmo de corrección con datos de corrección comprimidos se muestra en la Figura 50. La Figura 50 muestra el error en la PDT Dg^(_k,ri)de la señal de violín en el dominio QMF de la SBR corregida con datos de corrección comprimidos. La Figura 50b muestra la derivada de la fase correspondiente en el tiempo Z^^/c, n). Los gradientes de colore indican valores de rojo = rc a azul = -k. Los

valores de PDT siguen a los valores de PDT de la señal original con similar precisión que el método de corrección sin la compresión de datos (véase la Figura 18). Por consiguiente, el algoritmo de compresión es válido. La calidad percibida con y sin la compresión de los datos de corrección es similar.

Las realizaciones utilizan una mayor precisión para las bajas frecuencias y menor para las altas frecuencias, utilizando el total de 12 bits por cada valor. La tasa de bits así producida es de aproximadamente 0,5 kbps (sin compresión alguna, como por ejemplo codificación por entropía). Esta precisión produce una calidad percibida igual a la que se obtiene sin cuantificación. Sin embargo, probablemente se puede usar una tasa de bits significativamente menor en muchos casos, produciendo una calidad percibida suficientemente buena.

Una opción para los esquemas de bajas tasas de bits consiste en estimar la frecuencia fundamental en la fase de decodificación utilizando la señal transmitida. En este caso no se tiene que transmitir valor alguno. Otra opción es estimar la frecuencia fundamental utilizando la señal transmitida, compararla con la estimación obtenida utilizando la señal de banda ancha y transmitir sólo la diferencia. Se puede suponer que esta diferencia podría representarse utilizando muy bajas tasas de bits.

9.2 Compresión de los datos de corrección de PDF

Como se menciona en la Sección 8.2, los datos adecuados para la corrección de la PDF es el error de fase promedio del primer parche de frecuencia ^avg (n)- Se puede realizar la corrección para todos los parches de

frecuencia conociendo este valor, por lo que sólo es necesaria la transmisión de un valor por cada trama de tiempo. Sin embargo, la transmisión de incluso un único valor por cada trama de tiempo puede producir una tasa de bits demasiado elevada.

Examinando la Figura 12 en el caso del trombón se puede observar que la PDF tiene un valor relativamente constante en la frecuencia, y el mismo valor está presente para unos pocos intervalos temporales. El valor es constante en el tiempo siempre que el mismo transitorio esté dominando la energía de la ventana de análisis QMF. Cuando un nuevo transitorio comienza a ser el dominante, se presenta un nuevo valor. El ángulo de cambio entre

5

10

15

20

25

30

35

40

45

50

55

60

estos valores de PDF parece ser igual de un transitorio a otro. Esto tiene sentido, puesto que la PDF está controlando la ubicación temporal del transitorio, y la señal tiene una frecuencia fundamental constante, el espaciamiento entre transitorios debe ser constante.

Por lo tanto, se puede transmitir la PDF (o la ubicación de un transitorio) sólo de manera espaciada en el tiempo y el comportamiento de la PDF entre estos instantes de tiempo podría estimarse utilizando el conocimiento de la frecuencia fundamental. La corrección de PDF se puede realizar utilizando esta información. Este concepto duplica en realidad la corrección de PDT, donde se supone que las frecuencias de los armónicos están igualmente espaciadas. En este caso, se utiliza el mismo concepto, pero en su lugar, se supone que las ubicaciones temporales de los transitorios están igualmente espaciadas. A continuación se sugiere un método que se basa en la detección de las posiciones de los picos en la forma de onda, y utilizando esta información, se genera un espectro de referencia para la corrección de la fase.

9.2.1 Uso de la detección de picos para comprimir los datos de corrección de PDF - Crear el espectro objetivo para la corrección vertical

Las posiciones de los picos tienen que estimarse para realizar la corrección satisfactoria de la PDF. Una solución sería calcular las posiciones de los picos utilizando el valor de PDF, de manera similar a la Ec. 34, y estimar las posiciones de los picos intermedios utilizando la frecuencia fundamental estimada. Sin embargo, esta estrategia requeriría una estimación relativamente estable de la frecuencia fundamental. Las realizaciones muestran un método alternativo sencillo, de rápida implementación, que muestra que la estrategia de compresión sugerida es posible.

Una representación en el dominio del tiempo de la señal de trombón se muestra en la Figura 51. La Figura 51a muestra la forma de onda de la señal de trombón en una representación en el dominio del tiempo. La Figura 51b muestra una correspondiente señal en el dominio del tiempo que contiene sólo los picos estimados, en la que las posiciones de los picos se han obtenido utilizando los metadatos transmitidos. La señal de la Figura 51b es el tren de pulsos 265 descrito, por ejemplo, con respecto a la Figura 30. El algoritmo se inicia analizando las posiciones de los picos en la forma de onda. Esto se realiza buscando la máxima local. Por cada 27 ms (es decir, por cada 20 tramas de QMF), se transmite la ubicación del pico más cercano al punto medio de la trama. Entre las ubicaciones de los picos transmitidas, se supone que los picos están igualmente espaciados en el tiempo. Por consiguiente, conociendo la frecuencia fundamental, se puede estimar las ubicaciones de los picos. En esta realización, se transmite el número de los picos detectados (se debe tener en cuenta que esto requiere la detección exitosa de todos los picos; la estimación basada en la frecuencia fundamental produciría probablemente resultados más robustos). La tasa de bits así obtenida es de aproximadamente 0,5 kbps (sin compresión alguna, como por ejemplo en la codificación por entropía), que consiste en la transmisión de la ubicación del pico por cada 27 ms utilizando 9 bits y la transmisión del número de transitorios entre ellos utilizando 4 bits. Se encontró que esta precisión producía una calidad percibida igual a la obtenida sin cuantificación. Sin embargo, probablemente se puede emplear una tasa de bits significativamente más baja en muchos casos produciendo una calidad percibida suficientemente buena.

Utilizando los metadatos transmitidos, se genera una señal en el dominio del tiempo, que consiste en impulsos en las posiciones de los picos estimados (véase la Figura 51b). Se realiza el análisis de QMF de esta señal y se calcula

el espectro de fase X^ya(k,n). Por lo demás la corrección de PDF real se realiza de la manera sugerida en la Sección 8.2, aunque se reemplaza Z^B(k,n) de la Ec. 20a por X^a(k,n).

La forma de onda de las señales con coherencia de la fase vertical por lo general contiene picos y se asemeja a un tren de pulsos. Por consiguiente, se sugiere que se puede estimar el espectro de la fase objetivo para la corrección vertical modelándolo como espectro de fase de un tren de pulsos que tiene picos en las posiciones correspondientes y con una correspondiente frecuencia fundamental.

Se transmite la posición más cercana al punto medio de la trama de tiempo, por ejemplo, por cada trama de tiempo de orden 20 (que corresponde a un período de -27 ms). La frecuencia fundamental estimada, que se transmite con una tasa igual, se utiliza para interpolar las posiciones de los picos entre las posiciones transmitidas.

Por otro lado, se podría estimar la frecuencia fundamental y las posiciones de los picos en la etapa de decodificación, y no sería necesario transmitir información alguna. Sin embargo, se pueden esperar estimaciones mejores si la estimación se realiza con la señal original en la etapa de codificación.

El procesamiento en el decodificador se inicia obteniendo una estimación de la frecuencia fundamental X°(n) por cada trama de tiempo y, además se estiman las posiciones de los picos en la forma de onda. Las posiciones de los picos se utilizan para generar una señal en el dominio del tiempo que consiste en impulsos en estas posiciones. Se

utiliza el análisis de QMF para crear el espectro de fase correspondiente X^^ a(/c, n). Se puede usar este espectro de fase estimado en la Ec. 20a como espectro de la fase objetivo

5

10

15

20

25

30

35

40

45

50

55

60

j£hiU’0 = Jfí¿B^n). [37)

El método sugerido utiliza la etapa de codificación para transmitir sólo las posiciones de los picos y las frecuencias fundamentales estimadas con una tasa de actualización, por ejemplo, de 27 ms. Además, se debe tener en cuenta que los errores en la derivada de la fase vertical son perceptibles sólo cuando la frecuencia fundamental es relativamente baja. Por consiguiente, la frecuencia fundamental se puede transmitir con una tasa de bits relativamente baja.

El resultado del algoritmo de corrección con datos de corrección comprimidos se muestra en la Figura 52. La Figura

Oha /"i

52a muestra el error en el espectro de fase Dcw \kfn) de la señal de trombón en el dominio QMF con SBR

corregida y datos de corrección comprimidos. En consecuencia, la Figura 52b muestra la derivada de la fase

od f

correspondiente en la frecuencia Zcv {k,n) ■ El gradiente de color indica valores de rojo = n a azul = -n. Los valores de PDF siguen los valores de PDF de la señal original con similar precisión que en el método de corrección sin la compresión de datos (véase la Figura 13). Por consiguiente, el algoritmo de compresión es válido. La calidad percibida con y sin la compresión de los datos de corrección es similar.

9.3 Compresión de los datos de manejo de transitorios

Como se puede suponer que los transitorios son relativamente escasos, se puede suponer que estos datos podrían transmitirse directamente. Algunas realizaciones muestran la transmisión de seis valores por transitorio: un valor para la PDF promedio y cinco valores para los errores en al ángulo de fase absoluto (un valor por cada trama de tiempo dentro del intervalo [n - 2, n + 2]). Una alternativa consiste en transmitir la posición del transitorio (es decir un

valor) y estimar el espectro de la fase objetivo X¡c’jlJ(k, n) como en el caso de la corrección vertical.

Si es necesario comprimir la tasa de bits para los transitorios, se podría emplear un enfoque similar para la corrección de la PDF (véase la Sección 9.2). Simplemente se podría transmitir la posición del transitorio, es decir, un solo valor. Se podría obtener el espectro de la fase objetivo y la PDF objetivo utilizando este valor de ubicación como en la Sección 9.2.

Por otro lado, se podría estimar la posición de los transitorios en la etapa de decodificación y no tendría que transmitirse información alguna. Sin embargo, se pueden obtener mejores estimaciones si la estimación se realiza con la señal original en la etapa de la codificación.

Todas las realizaciones anteriormente descritas pueden considerarse independientemente de otras realizaciones o en una combinación de realizaciones. Por lo tanto, las Figuras 53 a 57 presentan un codificador y un decodificador que combinan algunas de las realizaciones anteriormente descritas.

La Figura 53 muestra un decodificador 110'' para decodificar una señal de audio. El decodificador 110'' comprende un primer generador de espectro objetivo 65a, un primer corrector de la fase 70a y un calculador de señales de subbandas de audio 350. El primer generador de espectro objetivo 65a, al que también se denomina como determinador de medidas de la fase objetivo, genera un espectro objetivo 85a'' para una primera trama de tiempo de una señal de sub-banda de la señal de audio 32 utilizando primeros datos de corrección 295a. El primer corrector de fase 70a corrige una fase 45 de la señal de sub-banda en la primera trama de tiempo de la señal de audio 32 determinado con un algoritmo de corrección de la fase, donde se realiza la corrección reduciendo una diferencia entre una medida de la señal de sub-banda en la primera trama de tiempo de la señal de audio 32 y el espectro objetivo 85''. El calculador de señales de sub-bandas de audio 350 calcula la señal de sub-banda de audio 355 correspondiente a la primera trama de tiempo utilizando una fase corregida 91a para la trama de tiempo. Por otro lado, el calculador de señales de sub-bandas de audio 350 calcula la señal de sub-banda de audio 355 para una segunda trama de tiempo diferente de la primera trama de tiempo utilizando la medida de la señal de sub-banda 85a'' en la segunda trama de tiempo o utilizando un cálculo de fase corregido de acuerdo con otro algoritmo de corrección de fase diferente del algoritmo de corrección de la fase. La Figura 53 muestra además un analizador 360 que analiza opcionalmente la señal de audio 32 con respecto a una magnitud 47 y una fase 45. El algoritmo de corrección de fase adicional se puede realizar en un segundo corrector de fase 70b o en un tercer corrector de fase 70c. Estos correctores de fase adicionales están mostrados en relación con la Figura 54. El calculador de señales de sub-bandas de audio 250 calcula la señal de sub-banda de audio correspondiente a la primera trama de tiempo utilizando la fase corregida 91 para la primera trama de tiempo y el valor de magnitud 47 de la señal de sub-banda de audio de la primera trama de tiempo, en el que el valor de magnitud 47 es una magnitud de la señal de audio 32, en la primera trama de tiempo o una magnitud procesada de la señal de audio 35 en la primera trama de tiempo.

La Figura 54 muestra otra realización del decodificador 110''. Por lo tanto, el decodificador 110'' comprende un

5

10

15

20

25

30

35

40

45

50

55

60

segundo generador de espectro objetivo 65b, en el que el segundo generador de espectro objetivo 65b genera un espectro objetivo 85b'' para la segunda trama de tiempo de la sub-banda de la señal de audio 32 utilizando segundos datos de corrección 295b. El detector 110'' comprende asimismo un segundo corrector de fase 70b para corregir una fase 45 de la sub-banda en la trama de tiempo de la señal de audio 32 determinada con un segundo algoritmo de corrección de fase, en el que se realiza la corrección reduciendo una diferencia entre una medida de la trama de tiempo de la sub-banda de la señal de audio y el espectro objetivo 85b''.

En consecuencia, el decodificador 110'' comprende un tercer generador de espectro objetivo 65c, en el que el tercer generador de espectro objetivo 65c genera un espectro objetivo correspondiente a una tercera trama de tiempo de la sub-banda de la señal de audio 32 utilizando terceros datos de corrección 295c. Más aun, el decodificador 110'' comprende un tercer corrector de fase 70c para corregir una fase 45 de la señal de sub-banda y la trama de tiempo de la señal de audio 32 determinada con un tercer algoritmo de corrección de fase, en el que se realiza la corrección reduciendo una diferencia entre una medida de la trama de tiempo de la sub-banda de la señal de audio y el espectro objetivo 85c. El calculador de señales de sub-bandas de audio 350 puede calcular la señal de sub-banda de audio para una tercera trama de tiempo diferente de la primera y segunda tramas de tiempo utilizando la corrección de fase del tercer corrector de fase.

De acuerdo con una realización, el primer corrector de fase 70a está configurado para almacenar una señal de subbanda de fase corregida 91a de una trama de tiempo anterior de la señal de audio o para recibir una señal de subbanda de fase corregida de la trama de tiempo anterior 375 de la señal de audio procedente de un segundo corrector de fase 70b del tercer corrector de fase 70c. Más aun, el primer corrector de fase 70a corrige la fase 45 de la señal de audio 32 en una trama de tiempo actual de la señal de sub-banda de audio basándose en la señal de sub-banda con fase corregida almacenada o recibida de la trama de tiempo precedente 91a, 375.

Otras realizaciones muestran el primer corrector de fase 70a realizando una corrección de la fase horizontal, el segundo corrector de fase 70b realizando una corrección de la fase vertical y el tercer corrector de fase 70c realizando una corrección de la fase correspondiente a los transitorios.

Desde otro punto de vista, la Figura 54 muestra un diagrama de bloques de la etapa de decodificación en el algoritmo de corrección de la fase. La entrada al procesamiento es la señal de BWE en el dominio de tiempo- frecuencia y los metadatos. Una vez más, en aplicaciones prácticas se prefiere la corrección de derivadas de fase de la invención al uso conjunto del banco de filtros o la transformación de un esquema de BWE existente. En el presente ejemplo este es un dominio QMF utilizado en la SBR. Un primer demultiplexor (no se muestra) extrae los

datos de corrección de derivadas de fase del flujo de bits del códec perceptual equipado con BWE que se está

mejorando por la corrección inventiva.

Un segundo demultiplexor 130 (DEMUX) divide en primer lugar los metadatos recibidos 135 en datos de activación 365 y datos de corrección 295a-c para los diferentes modos de corrección. Basándose en los datos de activación, se activa el cálculo del espectro objetivo para el modo de corrección apropiado (otros pueden estar inactivos). Utilizando el espectro objetivo, se realiza la corrección de fase de la señal de BWE recibida utilizando el modo de corrección elegido. Se debe tener en cuenta que como la corrección horizontal 70a se realiza de manera recursiva (en otras palabras: dependiendo de las tramas precedentes de la señal), recibe las matrices de corrección precedentes también de otros modos de corrección 70b, c. Por último, se envía la señal corregida, o la que no se ha procesado, a la salida basándose en los datos de activación.

Una vez corregidos los datos de fase, se continúa la síntesis de BWE subyacente aguas abajo, en el caso del

presente ejemplo la síntesis de SBR. Podrían existir variaciones donde se inserta exactamente la corrección de fase

en la señal de síntesis de BWE. Preferentemente, la corrección de la derivada de fase se realiza como ajuste inicial en los parches espectrales sin procesar que tienen las fases Zpha(k,n) y todas las etapas de procesamiento de BWE o ajuste adicionales (en la SBR esto puede ser la adición de ruido, filtrado inverso, sinusoides faltantes, etc.) se

ejecutan más adelante en las fases corregidas Z^na{k, rí).

La Figura 55 muestra otra realización del decodificador 110''. De acuerdo con esta realización, el decodificador 110'' comprende un decodificador de núcleo 115, un generador de parches 120, un sintetizador 100 y el bloque A, que es el decodificador 110'' de acuerdo con las realizaciones anteriores mostradas en la Figura 54. El decodificador de núcleo 115 está configurado para decodificar la señal de audio 25 en una trama de tiempo con un número reducido de sub-bandas con respecto a la señal de audio 55. El generador de parches 120 genera parches a una serie de sub-bandas de la señal de audio decodificada en el núcleo 25 con un número reducido de sub-bandas, en el que la serie de sub-bandas forma un primer parche, hacia otras sub-bandas en la trama de tiempo, adyacentes al número reducido de sub-bandas, para obtener una señal de audio 32 con un número uniforme de sub-bandas. El procesador de magnitudes 125' procesa los valores de magnitud de la señal de sub-banda de audio 355 en la trama de tiempo. De acuerdo con los decodificadores anteriores 110 y 110', el procesador de magnitudes puede ser el aplicador de parámetros de ampliación de ancho de banda 125.

5

10

15

20

25

30

35

40

45

50

55

60

Se pueden idear muchas otras realizaciones donde se conmutan los bloques del procesador de señales. Por ejemplo, el procesador de magnitudes 125' y el bloque A se pueden intercambiar. Por lo tanto, el bloque A funciona sobre la señal de audio reconstruida 35, donde los valores de magnitud de los parches ya se han corregido. Por otro lado, el calculador de señales de sub-bandas de audio 350 puede estar situado después del procesador de magnitudes 125' para formar la señal de audio corregida 355 a partir de la parte con fase corregida y magnitud corregida de la señal de audio.

Más aun, el decodificador 110'' comprende un sintetizador 100 para sintetizar la señal de audio con fase y magnitud corregidas para obtener la señal de audio procesada combinada en la frecuencia 90. Opcionalmente, dado que no se aplica ni la magnitud ni la corrección de fase a la señal de audio decodificada en el núcleo 25, dicha señal de audio puede transmitirse directamente al sintetizador 100. Todo bloque de procesamiento opcional aplicado a uno de los decodificadores anteriormente descritos 110 o 110' se puede aplicar asimismo al decodificador 110''.

La Figura 56 muestra un codificador 155'' para codificar una señal de audio 55. El codificador 155'' comprende un determinador de fase 380 conectado a un calculador 270, un codificador núcleo 160, un extractor de parámetros 165 y un formador de señales de salida 170. El determinador de fase 380 determina una fase 45 de la señal de audio 55 en el que el calculador 270 determina datos de corrección de fase 295 para la señal de audio 55 basándose en la fase determinada 45 de la señal de audio 55. El codificador núcleo 160 codifica en núcleo la señal de audio 55 para obtener una señal de audio codificada en núcleo 145 con un número reducido de sub-bandas con respecto a la señal de audio 55. El extractor de parámetros 165 extrae parámetros 190 de la señal de audio 55 para obtener una representación paramétrica de baja resolución para una segunda serie de sub-bandas no incluidas en la señal de audio codificada en núcleo. El formador de señales de salida 170 forma la señal de salida 135 que comprende los parámetros 190, la señal de audio codificada en núcleo 145 y los datos de corrección de fase 295'. Opcionalmente, el codificador 155'' comprende un filtro paso bajo 180 antes de la codificación en núcleo de la señal de audio 55 y un filtro paso alto 185 antes de extraer los parámetros 190 de la señal de audio 55. Por otro lado, en lugar del filtrado paso bajo o alto de la señal de audio 55, se puede usar un algoritmo de relleno de huecos, en el que el codificador núcleo 160 codifica en núcleo un número reducido de sub-bandas, en el que al menos una sub-banda dentro de la serie de sub-bandas no se codifica en núcleo. Más aun, el extractor de parámetros extrae parámetros 190 de dicha al menos una sub-banda no codificada con el codificador núcleo 160.

De acuerdo con las realizaciones, el calculador 270 comprende una serie de calculadores de datos de corrección 285a-c para corregir la corrección de fase de acuerdo con un primer modo de variación, un segundo modo de variación o un tercer modo de variación. Más aun, el calculador 270 determina datos de activación 365 para activar un calculador de datos de corrección de la serie de calculadores de datos de corrección 285a-c. El formador de señales de salida 170 forma la señal de salida que comprende los datos de activación, los parámetros, la señal de audio codificada en núcleo y los datos de corrección de fase.

La Figura 57 muestra una implementación alternativa del calculador 270 que puede utilizarse en el codificador 155'' mostrado en la Figura 56. El calculador de modos de corrección 385 comprende el determinador de variaciones 275 y el comparador de variaciones 280. Los datos de activación 365 son el resultado de la comparación de diferentes variaciones. Más aun, los datos de activación 365 activan uno de los calculadores de datos de corrección 185a-c de acuerdo con la variación determinada. Los datos de corrección calculados 295a, 295b, o 295c pueden ser la entrada del formador de señales de salida 170 del codificador 155'' y por lo tanto, parte de la señal de salida 135.

Algunas realizaciones muestran el calculador 270 que comprende un formador de metadatos 390, que forma un flujo de metadatos 295' que comprende los datos de corrección calculados 295a, 295b, o 295c y los datos de activación 365. Los datos de activación 365 pueden transmitirse al decodificador si los datos de corrección en sí no comprenden suficiente información sobre el modo de corrección actual. Suficiente información puede ser, por ejemplo, un número de bits usado para representar los datos de corrección, que es diferente para los datos de corrección 295a, los datos de corrección 295b y los datos de corrección 295c. Más aun, el formador de señales de salida 170 puede utilizar adicionalmente los datos de activación 365, de manera que se puede omitir el formador de metadatos 390.

Desde otro punto de vista, el diagrama de bloques de la Figura 57 muestra la etapa de codificación en el algoritmo de corrección de la fase. La entrada al procesamiento es la señal de audio original 55 y el dominio del tiempo- frecuencia. En aplicaciones prácticas, se prefiere la corrección de derivadas de fase de la invención al uso conjunto del banco de filtros o un esquema de BWE existente. En el presente ejemplo, este es un domino QMF empleado en la SBR.

El bloque de cálculo de modos de corrección calcula en primer lugar el modo de corrección que se aplica por cada trama de tiempo. Basándose en los datos de activación 365, se activa el cálculo de datos de corrección 295a-c en el modo de corrección correcto (los demás pueden estar inactivos). Por último, el multiplexor (MUX) combina los datos de activación y los datos de corrección de los diferentes modos de corrección.

5

10

15

20

25

30

35

40

45

50

55

60

Otro multiplexor (no se muestra) fusiona los datos de corrección de derivadas de fase en un flujo de bits de la BWE y el codificador perceptual que se está mejorando con la corrección inventiva.

La Figura 58 muestra un método 5800 para decodificar una señal de audio. El método 5800 comprende una etapa 5805 “generar un espectro objetivo para una primera trama de tiempo de una señal de sub-banda de la señal de audio con un primer generador de espectro objetivo utilizando primeros datos de corrección”, una etapa 5810 “corregir una fase de la señal de sub-banda en la primera trama de tiempo de la señal de audio con un primer corrector de la fase determinado con un algoritmo de corrección de la fase, en el que se realiza la corrección reduciendo una diferencia entre una medida de la señal de sub-banda en la primera trama de tiempo de la señal de audio y el espectro objetivo, y una etapa 5815 “calcular la señal de sub-banda de audio para la primera trama de tiempo con un calculador de señales de sub-bandas de audio utilizando una fase corregida de la trama de tiempo y calcular señales de audio de sub-bandas para una segunda trama de tiempo diferente de la primera trama de tiempo utilizando la medida de la señal de sub-banda en la segunda trama de tiempo o utilizando un cálculo de fase corregido de acuerdo con otro algoritmo de corrección de fase diferente del algoritmo de corrección de la fase”.

La Figura 59 muestra un método 5900 para codificar una señal de audio. El método 5900 comprende una etapa 5905 “determinar una fase de la señal de audio con un determinador de fase”, una etapa 5910 “determinar datos de corrección de fase para una señal de audio con un calculador basándose en la fase determinada de la señal de audio”, una etapa 5915 “codificar en núcleo la señal de audio con un codificador núcleo para obtener una señal de audio codificada en núcleo con un número reducido de sub-bandas con respecto a la señal de audio”, una etapa 5920 “extraer parámetros de la señal de audio con un extractor de parámetros para obtener una representación paramétrica de baja resolución para una segunda serie de sub-bandas no incluidas en la señal de audio codificada en núcleo”, y una etapa 5925 “formar una señal de salida con un formador de señales de salida que comprende los parámetros, la señal de audio codificada en núcleo y los datos de corrección de fase”.

Los métodos 5800 y 5900, como así también los métodos anteriormente descritos 2300, 2400, 2500, 3400, 3500, 3600 y 4200, pueden implementarse en un programa informático para realizarse en un ordenador.

Se debe tener en cuenta que señal de audio 55 se utiliza como un término general para indicar una señal de audio, especialmente para la señal de audio original, es decir, sin procesar, la parte transmitida de la señal de audio Xtrans(k,n) 25, la señal de banda base Xbase(k,n) 30, la señal de audio procesada que comprende frecuencias más elevadas 32 en comparación con la señal de audio original, la señal de audio reconstruida 35, el parche de frecuencia con magnitud corregida Y(k,n,i) 40, la fase 45 de la señal de audio, o la magnitud 47 de la señal de audio. Por lo tanto, las diferentes señales de audio pueden intercambiarse mutuamente según el contexto de la realización.

Otras realizaciones se refieren a diferentes bancos de filtro o dominios de transformación utilizados para el procesamiento de tiempo-frecuencia de la invención, por ejemplo el dominio de la transformada de Fourier de tiempo reducido (STFT), de la Transformada de Coseno Discreta Modificada Compleja (CMDCT), o de Transformada de Fourier Discreta (DFT). Por lo tanto, se pueden tener en cuenta las propiedades específicas de la fase relacionadas con la transformada. En detalle, si se copian, por ejemplo, los coeficientes de un número par a un número impar o viceversa, es decir si se copia la segunda sub-banda de la señal de audio original a la novena sub-banda en lugar de la octava sub-banda como se describe en las realizaciones, se puede usar la compleja conjugada del parche para el procesamiento. Lo mismo se aplica a un espejado de los parches en lugar de usar por ejemplo, el algoritmo de copiado, para superar el orden invertido de los ángulos de fase dentro de un parche.

Otras realizaciones podrían resignar la información secundaria del codificador y estimar algunos o todos los parámetros de corrección necesarios del lado del decodificador. Otras realizaciones podrían tener otros esquemas de generación de parches subyacentes para BWE que utilicen, por ejemplo, diferentes porciones de la banda base, un número o tamaño diferente de parches o técnicas de transposición diferentes, por ejemplo espejado espectral o modulación de banda de lateral única (SSB). También podrían existir variaciones en las que se estipula exactamente la corrección de fase en el flujo de señales de síntesis de BWE. Más aun, el alisado se realiza utilizando una ventana deslizante de Hann, que puede reemplazarse para una mayor eficacia computacional, por ejemplo, por IIR de primer orden.

El uso de los códecs perceptuales de audio de la técnica actual con frecuencia perjudica la coherencia de fases de los componentes espectrales de una señal de audio, especialmente a tasas de bits bajas, donde se aplican técnicas de codificación paramétrica como la ampliación de ancho de banda. Esto lleva a una alteración de la derivada de fase de la señal de audio. Sin embargo, en ciertos tipos de señal la conservación de la derivada de fase es importante. Como resultado, se perjudica la calidad perceptual de esos sonidos. La presente invención reajusta la derivada de fase ya sea en la frecuencia (“vertical”) o en el tiempo (“horizontal”) de esas señales si una restauración de la derivada de fase es perceptualmente ventajosa. Más aun, se toma una decisión de si se prefiere perceptualmente ajustar la derivada de la fase vertical o la horizontal. La transmisión de sólo información secundaria muy compacta es necesaria para controlar el procesamiento de corrección de la derivada de fase. Por lo tanto, la

5

10

15

20

25

30

35

40

45

50

55

60

invención mejora la calidad del sonido de los codificadores perceptuales de audio a costa de una moderada información secundaria.

En otras palabras, la replicación de la banda espectral (SBR) puede causar errores en el espectro de fase. Se estudió la percepción humana de estos errores, revelando dos efectos perceptualmente significativos: diferencias en las frecuencias y las posiciones temporales de los armónicos. Los errores de frecuencia parecen ser perceptibles sólo cuando la frecuencia fundamental es suficientemente alta para que sólo haya un armónico dentro de una banda de ERB. En consecuencia, los errores de posición temporal sólo parecen ser perceptibles si la frecuencia fundamental es baja y si las fases de los armónicos están alineadas en la frecuencia.

Los errores de frecuencia pueden detectarse calculando la derivada de la fase en el tiempo (PDT). Si los valores de PDT son estables en el tiempo, sus diferencias entre las señales procesadas por SBR y las originales deben corregirse. Esto efectivamente corrige las frecuencias de los armónicos, y por consiguiente, se evita la percepción de desarmonía.

Los errores de posición temporal pueden detectarse calculando la derivada de la fase en el tiempo (PDT). Si los valores de PDT son estables en la frecuencia, las diferencias entre las señales procesadas por SBR y las originales deben corregirse. Esto efectivamente corrige las posiciones temporales de los armónicos, y por consiguiente, se evita la percepción de ruidos de modulación a las frecuencias de cruce.

Aunque se ha descrito la presente invención en el contexto de diagramas de bloques en que los bloques representan componentes reales o lógicos, la presente invención también puede implementarse por un método implementado por ordenador. En este último caso, los bloques representan etapas correspondientes del método, donde estas etapas representan las funcionalidades realizadas por bloques lógicos o físicos de hardware correspondientes.

Si bien se han descrito algunos aspectos en el contexto de un aparato, es obvio que estos aspectos también representan una descripción del método correspondiente, en el cual un bloque o dispositivo corresponde a una etapa del método o a una característica de una etapa del método. De manera análoga, los aspectos descritos en el contexto de una etapa del método también representan una descripción de un bloque o elemento correspondiente o de una característica de un aparato correspondiente. Algunas o todas las etapas del método pueden ejecutarse por (o utilizando) un aparato de hardware, como por ejemplo un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, una o más de las etapas más importantes del método pueden ejecutarse por un aparato de este tipo.

La señal de inventiva transmitida o codificada puede almacenarse en un medio de almacenamiento digital o puede transmitirse por un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión por cable tal como la Internet.

Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención pueden implementarse en hardware o en software. La implementación se puede realizar empleando un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un Blue-Ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene almacenada en la misma señales control legibles electrónicamente, que cooperan (o tienen capacidad para cooperar) con un sistema informático programable de tal manera que se realice el método respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.

Algunas realizaciones de acuerdo con la invención comprenden un portador de datos que comprende señales de control legibles electrónicamente, con capacidad para cooperar con un sistema informático programable de tal manera que se realice uno de los métodos descritos en el presente documento.

En general, las realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, siendo el código de programa operativo para realizar uno de los métodos al ejecutarse el programa informático en un ordenador. El código de programa puede almacenarse, por ejemplo, en un portador legible por una máquina.

Otras realizaciones comprenden el programa informático para realizar uno de los métodos descritos en el presente documento, almacenado en un portador legible por una máquina.

Dicho de otro modo, una realización del método de la invención consiste, por lo tanto, en un programa informático que consta de un código de programa para realizar uno de los métodos descritos en el presente documento al ejecutarse el programa informático en un ordenador.

Otra realización del método de la invención consiste, por lo tanto, en un portador de datos (o un medio de almacenamiento no transitorio tal como un medio de almacenamiento digital o un medio legible por ordenador) que

5

10

15

20

25

30

35

40

45

50

55

60

comprende, grabado en el mismo, el programa informático para realizar uno de los métodos descritos en el presente documento. El portador de datos, el medio de almacenamiento digital o el medio grabado son por lo general tangibles y/o no transitorios.

Otra realización del método de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representa el programa informático para realizar uno de los métodos descritos en el presente documento. El flujo de datos o la secuencia de señales pueden estar configurados, por ejemplo, para transferirse a través de una conexión de comunicación de datos, por ejemplo, a través de la Internet.

Otra realización comprende un medio de procesamiento, por ejemplo un ordenador, o un dispositivo lógico programable, configurado o adaptado para realizar uno de los métodos descritos en el presente documento.

Otra realización comprende un ordenador que tiene instalado en el mismo el programa informático para realizar uno de los métodos descritos en el presente documento.

Otra realización de acuerdo con la invención comprende un aparato o un sistema configurado para transferir (por ejemplo por electrónica u ópticamente) un programa informático para transferir uno de los métodos descritos en el presente documento a un receptor. El receptor puede ser, por ejemplo, un ordenador, un dispositivo móvil, un dispositivo de memoria o similar. El aparato o sistema puede comprender, por ejemplo, un servidor de archivos para transferir el programa informático a un receptor.

En algunas realizaciones, se puede utilizar un dispositivo lógico programable (por ejemplo, un campo de matrices de puertas programables) para realizar algunas o todas las funcionalidades de los métodos descritos en el presente documento. En algunas realizaciones, un campo de matrices de puertas programables puede cooperar con un microprocesador para realizar uno de los métodos descritos en el presente documento. Por lo general, los métodos se realizan preferentemente por cualquier aparato de hardware.

Las realizaciones anteriormente descritas son meramente ilustrativas de los principios de la presente invención. Se entiende que serán evidentes modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento para los expertos en la materia. Por lo tanto, sólo se pretende limitarse al alcance de las siguientes reivindicaciones de patente y no a los detalles específicos presentados a manera de descripción y explicación de las realizaciones del presente documento.

Referencias

[1] Painter, T.: Spanias, A. Perceptual coding of digital audio, Proceedings of the IEEE, 88(4), 2000; págs. 451513.

[2] Larsen, E.; Aarts, R. Audio Bandwidth Extension: Application of psychoacoustics, signal processing and loudspeaker design, John Wiley and Sons Ltd, 2004, Capítulos 5, 6.

[3] Dietz, M.; Liljeryd, L.; Kjorling, K.; Kunz, 0. Spectral Band Replication, a Novel Approach in Audio Coding, 112th AES Convention, abril de 2002, Preimpresión 5553.

[4] Nagel, F.; Disch, S.; Rettelbach, N. A Phase Vocoder Driven Bandwidth Extension Method with Novel Transient Handling for Audio Codecs, 126th AES Convention, 2009.

[5] D. Griesinger 'The Relationship between Audience Engagement and the ability to Perceive Pitch, Timbre, Azimuth and Envelopment of Multiple Sources' Tonmeister Tagung 2010.

[6] D. Dorran y R. Lawlor, "Time-scale modification of music using a synchronized subband/time domain approach," IEEE International Conference on Acoustics, Speech and Signal Processing, págs. IV 225 - IV 228, Montreal, mayo de 2004.

[7] J. Laroche, "Frequency-domain techniques for high quality voice modification", Proceedings of the International Conference on Digital Audio Effects, págs. 328-322, 2003.

[8] Laroche, J.; Dolson, M.; , "Phase-vocoder: about this phasiness business", Applications of Signal Processing to Audio and Acoustics, 1997. 1997 IEEE ASSP Workshop on, vol., n°., págs. 4 págs., 19-22, Oct 1997

[9] M. Dietz, L. Liljeryd, K. Kjorling y O. Kunz, “Spectral band replication, a novel approach in audio coding," in aEs 112th Convention, (Múnich, Alemania), mayo de 2002.

[10] P. Ekstrand, “Bandwidth extension of audio signals by spectral band replication", in IEEE Benelux Workshop

on Model based Processing and Coding of Audio, (Leuven, Bélgica), noviembre de 2002.

[11] B. C. J. Moore y B. R. Glasberg, “Suggested formulae for calculating auditory-filter bandwidths and excitation patterns", J. Acoust. Soc. Am., vol. 74, págs. 750-753, septiembre de 1983.

5

[12] T. M. Shackleton y R. P. Carlyon, “The role of resolved and unresolved harmonics in pitch perception and frequency modulation discrimination", J. Acoust. Soc. Am., vol. 95, págs. 3529-3540, junio de 1994.

[13] M.-V. Laitinen, S. Disch y V. Pulkki, “Sensitivity of human hearing to changes in phase spectrum", J. Audio 10 Eng. Soc., vol. 61, págs. 860{877, noviembre de 2013.

[14] A. Klapuri, “Multiple fundamental frequency estimation based on harmonicity and spectral smoothness", IEEE T ransactions on Speech and Audio Processing, vol. 11, noviembre de 2003.

Claims

5

10

15

20

25

30

35

40

45

50

55

60

REIVINDICACIONES

1. Un procesador de audio (50) para procesar una señal de audio (55) que comprende:

un calculador de medida de fase de la señal de audio (60) configurado para calcular una medida de fase (80) de una señal de audio para una trama de tiempo (75a);

un determinador de medida de fase objetivo (65) para determinar una medida de fase objetivo (85) para dicha trama de tiempo (75a);

un corrector de fase (70) configurado para corregir fases (45) de la señal de audio (55) para la trama de tiempo (75a) usando la medida de fase calculada (80) y la medida de fase objetivo (85) para obtener una señal de audio procesada (90).
2. El procesador de audio (50) de acuerdo con la reivindicación 1,

en el que la señal de audio (55) comprende una pluralidad de señales de sub-banda (95a,b) para la trama de tiempo (75a);

en el que el determinador de medida de fase objetivo está configurado para determinar una primera medida de fase objetivo (85a) para una primera señal de sub-banda (95a) y una segunda medida de fase objetivo (85b) para una segunda señal de sub-banda (95b);

en el que el calculador de medida de fase de señal de audio (60) está configurado para determinar una primera medida de fase (80a) para la primera señal de sub-banda (95a) y una segunda medida de fase (80b) para la segunda señal de sub-banda (95b);

en el que el corrector de fase (70) está configurado para corregir una primera fase (45a) de la primera señal de subbanda (95a) usando la primera medida de fase (80a) de la señal de audio (55) y la primera medida de fase objetivo (85) para obtener una primera señal de sub-banda procesada (90a) y para corregir una segunda fase (45b) de la segunda señal de sub-banda (95b) usando la segunda medida de fase (80b) de la señal de audio (55) y la segunda medida de fase objetivo (85b) para obtener una segunda señal de sub-banda procesada (90b); y un sintetizador de señal de audio (100) para sintetizar la señal de audio procesada (90) usando la primera señal de sub-banda procesada (90a) y la segunda señal de sub-banda procesada (90b).
3. El procesador de audio (50) de acuerdo con una de las reivindicaciones 1 o 2, en el que la medida de fase (80) es una derivada de la fase en el tiempo;

en el que el calculador de medida de fase de la señal de audio (60) está configurado para calcular, para cada subbanda (95) de una pluralidad de sub-bandas, la derivada de la fase de un valor de fase de una trama de tiempo actual (75b) y un valor de fase de una trama de tiempo futura (75c);

en el que el corrector de fase (70) está configurado para calcular, para cada sub-banda (95) de la pluralidad de subbandas de la trama de tiempo actual (75b), una desviación (105) entre la derivada de la fase objetivo (85) y la derivada de la fase en el tiempo (80);

en el que se realiza una corrección realizada por el corrector de fase (70) usando la desviación.
4. El procesador de audio (50) de acuerdo con una de las reivindicaciones 1 - 3,

en el que el corrector de fase (70) está configurado para corregir señales de sub-banda (95) de diferentes subbandas de la señal de audio (55) en la trama de tiempo (75), de modo que las frecuencias de señales de sub-banda corregidas (90a,b) tienen valores de frecuencia que están asignados armónicamente a una frecuencia fundamental de la señal de audio (55).
5. El procesador de audio (50) de acuerdo con una de las reivindicaciones 1 - 4,

en el que el corrector de fase (70) está configurado para alisar la desviación (105) para cada sub-banda (95) de la pluralidad de sub-bandas a través de una trama de tiempo anterior (75a), la actual (75b), y una futura (75c) y está configurado para reducir cambios rápidos de la desviación (105) en una sub-banda (95).
6. El procesador de audio (50) de acuerdo con la reivindicación 5, en el que el alisado es una media ponderada;

en el que el corrector de fase (70) está configurado para calcular la media ponderada a través de la trama de tiempo anterior (75a), la actual (75b) y la futura (75c), ponderadas por una magnitud (47) de la señal de audio (55) en la trama de tiempo anterior (75a), la actual (75b) y la futura (75c).
7. El procesador de audio (50) de acuerdo con una de las reivindicaciones 1 - 6,

en el que el corrector de fase (70) está configurado para formar un vector de desviaciones (105), en el que un primer elemento del vector hace referencia a una primera desviación (105a) para la primera sub-banda (95a) de la pluralidad de sub-bandas y un segundo elemento del vector hace referencia a una segunda desviación (105b) para la segunda sub-banda (95b) de la pluralidad de sub-bandas de una trama de tiempo anterior (75a) a una trama de tiempo actual (75b);

en el que el corrector de fase (70) está configurado para aplicar el vector de desviaciones (105) a las fases (45) de la señal de audio, en el que el primer elemento del vector se aplica a una fase (45a) de la señal de audio (55) en una

5

10

15

20

25

30

35

40

45

50

55

60

primera sub-banda (95a) de una pluralidad de sub-bandas de la señal de audio (55) y el segundo elemento del vector se aplica a una fase (45b) de la señal de audio (55) en una segunda sub-banda (95b) de la pluralidad de subbandas de la señal de audio (55).
8. El procesador de audio (50) de acuerdo con una de las reivindicaciones 1 - 7,

en el que el determinador de medida de fase objetivo (65) está configurado para obtener una estimación de frecuencia fundamental (85) para una trama de tiempo (75);

en el que el determinador de medida de fase objetivo (65) está configurado para calcular una estimación de frecuencia (85) para cada sub-banda (95) de la pluralidad de sub-bandas de la trama de tiempo (75) usando la frecuencia fundamental para la trama de tiempo (75).
9. El procesador de audio (50) de acuerdo con la reivindicación 8,

en el que el determinador de medida de fase objetivo (65) está configurado para convertir las estimaciones de frecuencia (85) para cada sub-banda (95) de la pluralidad de sub-bandas en una derivada de la fase en el tiempo (85) usando un número total de sub-bandas (95) y una frecuencia de muestreo de la señal de audio (55).
10. El procesador de audio (50) de acuerdo con la reivindicación 8 o 9,

en el que el determinador de medida de fase objetivo (65) está configurado para formar un vector de estimaciones de frecuencia (85) para cada sub-banda (95) de la pluralidad de sub-bandas, en el que el primer elemento del vector hace referencia a una estimación de frecuencia (85a) para una primera sub-banda (95a) y un segundo elemento del vector hace referencia a una estimación de frecuencia (85b) para una segunda sub-banda (95b); en el que el determinador de medida de fase objetivo (65) está configurado para calcular la estimación de frecuencia (85) usando múltiplos de la frecuencia fundamental, en el que la estimación de frecuencia (85) de la sub-banda actual (95) es ese múltiplo de la frecuencia fundamental que está más cercano al centro de la sub-banda (95), o en el que la estimación de frecuencia (85) de la sub-banda actual (95) es una frecuencia de borde de la sub-banda actual (95) si ninguno de los múltiplos de la frecuencia fundamental está en la sub-banda actual (95).
11. Un decodificador (110) para decodificar una señal de audio (55), comprendiendo el decodificador (110): un procesador de audio (50) de acuerdo con una de las reivindicaciones 1 - 10;

un decodificador por núcleo (115) configurado para decodificar por núcleo de una señal de audio (25) en una trama de tiempo (75) con un número reducido de sub-bandas con respecto a la señal de audio (55); un generador de parches (120) configurado para generar parches en un conjunto de sub-bandas (95) de la señal de audio decodificada por núcleo (25) con el número reducido de sub-bandas, en el que el conjunto de subbandas forma un primer parche (30a), a sub-bandas adicionales en la trama de tiempo (75), adyacentes al número reducido de sub-bandas, para obtener una señal de audio (55) con un número normal de sub-bandas; en el que el procesador de audio (50) está configurado para corregir las fases (45) en las sub-bandas del primer parche (30a) de acuerdo con una función objetivo (85).
12. El decodificador (110) de acuerdo con la reivindicación 11,

en el que el generador de parches (120) está configurado para generar parches en el conjunto de sub-bandas (95) de la señal de audio (25), en el que el conjunto de sub-bandas forma un segundo parche, a sub-bandas adicionales de la trama de tiempo (75), adyacentes al primer parche; y

en el que el procesador de audio (50) está configurado para corregir las fases (45) en las sub-bandas (95) del segundo parche; o

en el que el generador de parches (120) está configurado para generar parches en el primer parche corregido a subbandas adicionales de la trama de tiempo, adyacentes al primer parche.
13. El decodificador (110) de acuerdo con la reivindicación 11 o 12, comprendiendo el decodificador:

un extractor de flujo de datos (130) configurado para extraer una frecuencia fundamental (140) de la trama de tiempo actual (75) de la señal de audio (55) desde un flujo de datos (135), en el que el flujo de datos comprende adicionalmente la señal de audio codificada (145) con el número reducido de sub-bandas; o un analizador de frecuencia fundamental (150) configurado para analizar la señal de audio decodificada por núcleo (25) para calcular una frecuencia fundamental (140).
14. Codificador (155) para codificar una señal de audio (55), comprendiendo el codificador (155):

un codificador por núcleo (160) configurado para codificar por núcleo la señal de audio (55) para obtener una señal de audio codificada por núcleo (145) que tiene un número reducido de sub-bandas con respecto a la señal de audio (55);

un analizador de frecuencia fundamental (175) para analizar la señal de audio (55) o una versión filtrada de paso bajo de la señal de audio para obtener una estimación de frecuencia fundamental (140) de la señal de audio (155);

5

10

15

20

25

30

35

40

45

50

55

un extractor de parámetros (165) configurado para extraer parámetros de sub-bandas de la señal de audio (55) no incluidos en la señal de audio codificada por núcleo (145);

un formador de señal de salida (170) configurado para formar una señal de salida (135) que comprende la señal de audio codificada por núcleo (145), los parámetros (190), y la estimación de la frecuencia fundamental (140).
15. Codificador (155) de acuerdo con la reivindicación 14, en el que el formador de señal de salida (170) está configurado para formar la señal de salida (135) en una secuencia de tramas, en el que cada trama comprende la señal de audio codificada por núcleo (145), los parámetros (190), y en el que únicamente cada enésima trama comprende la estimación de frecuencia fundamental (140), en el que N es mayor o igual que 2.
16. Método (2300) para procesar una señal de audio (55), comprendiendo el método las siguientes etapas:

calcular una medida de fase de una señal de audio (55) para una trama de tiempo con un calculador de medida de fase de señal de audio (60);

determinar una medida de fase objetivo para dicha trama de tiempo con un determinador de medida de fase objetivo (65);

corregir fases de la señal de audio (55) para la trama de tiempo con un corrector de fase (70) usando la medida de fase calculada y la medida de fase objetivo para obtener una señal de audio procesada (90).
17. Método (2400) para decodificar una señal de audio (55), comprendiendo el método las siguientes etapas:

decodificar una señal de audio (25) en una trama de tiempo con un número reducido de sub-bandas con respecto a la señal de audio (55);

generar parches en un conjunto de sub-bandas de la señal de audio decodificada (25) con el número reducido de sub-bandas, en el que el conjunto de sub-bandas forma un primer parche, a sub-bandas adicionales en la trama de tiempo, adyacentes al número reducido de sub-bandas, para obtener una señal de audio (55) con un número normal de sub-bandas;

corregir las fases en las sub-bandas del primer parche de acuerdo con una función objetivo con el método de acuerdo con la reivindicación 16.
18. Método para codificar una señal de audio (55), comprendiendo el método las siguientes etapas:

codificar por núcleo la señal de audio con un codificador por núcleo (160) para obtener una señal de audio codificada por núcleo que tiene un número reducido de sub-bandas con respecto a la señal de audio (55); analizar la señal de audio (55) o una versión filtrada de paso bajo de la señal de audio con un analizador de frecuencia fundamental para obtener una estimación de frecuencia fundamental (140) de la señal de audio; extraer parámetros de sub-bandas de la señal de audio (55) no incluidos en la señal de audio codificada por núcleo (145) con un extractor de parámetros (165);

formar una señal de salida (135) que comprende la señal de audio codificada por núcleo (145), los parámetros (190), y la estimación de la frecuencia fundamental (140) con un formador de señal de salida (170).
19. Programa informático que tiene un código de programa adaptado para realizar el método de acuerdo con una de las reivindicaciones 16 - 18 cuando el programa informático se ejecuta en un ordenador.
20. Señal de audio (135) que comprende:

una señal de audio codificada por núcleo (145) que tiene un número reducido de sub-bandas con respecto a una señal de audio original (55);

un parámetro (190) que representa sub-bandas de la señal de audio no incluidas en la señal de audio codificada por núcleo (145);

una estimación de frecuencia fundamental (140) de la señal de audio (135) o la señal de audio original (55).
21. Señal de audio (135) de acuerdo con la reivindicación 20,

en la que la señal de audio (135) se forma en una secuencia de tramas, en el que cada trama comprende la señal de audio codificada por núcleo (145), los parámetros (190), y en el que únicamente cada enésima trama comprende la estimación de frecuencia fundamental (140), en el que N es mayor o igual que 2.