ES2678894T3

ES2678894T3 - Procesador de audio y método para procesar una señal de audio usando corrección de fase

Info

Publication number: ES2678894T3
Application number: ES15732231.4T
Authority: ES
Inventors: Sascha Disch; Mikko-Ville Laitinen; Ville Pulkki
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2014-07-01
Filing date: 2015-06-25
Publication date: 2018-08-20
Anticipated expiration: 2035-06-25
Also published as: SG11201610837XA; JP2017525995A; PL3164873T3; PT3164870T; EP3164870B1; KR20170031704A; WO2016001066A1; ES2677250T3; JP2017521705A; US10192561B2; US20170110135A1; SG11201610732WA; EP2963649A1; CA2953426A1; PT3164869T; CN106663438B; PL3164869T3; MX359035B; MX2016016770A; AU2015282748A1

Abstract

Un procesador de audio (50') para procesar una senal de audio (55), comprendiendo el procesador de audio (50'): un determinador de medida de fase objetivo (65') para determinar una medida de fase objetivo (85') para la senal de audio (55) en una trama de tiempo (75); un calculador de error de fase (200) para calcular un error de fase (105') usando una fase de la senal de audio (55) en la trama de tiempo (75) y la medida de fase objetivo (85'); y un corrector de fase (70') configurado para corregir la fase de la senal de audio (55) en la trama de tiempo usando el error de fase (105').

Description

5

10

15

20

25

30

35

40

45

50

55

60

Procesador de audio y metodo para procesar una senal de audio usando correccion de fase

DESCRIPCION

La presente invencion se refiere a un procesador de audio y a un metodo para procesar una senal de audio, un decodificador y un metodo para decodificar una senal de audio, y un codificador y un metodo para codificar una senal de audio. Ademas, se describe un calculador y un metodo para determinar datos de correccion de fase, una senal de audio, y un programa informatico para realizar uno de los metodos anteriormente descritos. En otras palabras, la presente invencion muestra una correccion de derivadas de fase y ampliacion de ancho de banda (BWE) para los codecs de audio perceptual o la correccion del espectro de la fase de senales con ancho de banda ampliado en el dominio QMF basandose en la importancia perceptual.

Codificacion perceptual de audio

La codificacion perceptual de audio vista hasta la fecha sigue varios temas comunes, que incluyen el uso del procesamiento en el dominio del tiempo/frecuencia, la reduccion de redundancia (codificacion por entropfa) y la eliminacion de irrelevancia por medio del aprovechamiento pronunciado de los efectos perceptuales [1]. Por lo general, la senal de entrada se analiza por un banco de filtros de analisis que convierte la senal en el dominio del tiempo en una representacion espectral (tiempo/frecuencia). La conversion a coeficientes espectrales permite procesar selectivamente los componentes de la senal dependiendo de su contenido de frecuencia (por ejemplo diferentes instrumentos con sus estructuras de sobretono individuales).

En paralelo, la senal de entrada se analiza con respecto a sus propiedades perceptuales, es decir se calcula espedficamente el umbral de enmascaramiento dependiente del tiempo y de la frecuencia. El umbral de enmascaramiento dependiente del tiempo/frecuencia se entrega a la unidad de cuantificacion a traves de un umbral de codificacion objetivo en forma de valor absoluto de energfa o una Relacion Enmascaramiento a Senal (MSR) por cada banda de frecuencia y trama de tiempo de codificacion.

Se cuantifican los coeficientes espectrales entregados por el banco de filtros de analisis para reducir la tasa de datos necesaria para representar la senal. Este paso conlleva una perdida de informacion e introduce una distorsion de codificacion (error, ruido) en la senal. Para minimizar el impacto audible de este ruido de codificacion, se controlan los tamanos de paso del cuantificador de acuerdo con los umbrales de codificacion objetivo para cada banda de frecuencia y trama. De manera ideal, el ruido de codificacion inyectado en cada banda de frecuencia es inferior al umbral de codificacion (enmascaramiento) y, por consiguiente, no hay degradacion perceptible del audio subjetivo (eliminacion de irrelevancia). Este control del ruido de cuantificacion en la frecuencia y el tiempo de acuerdo con los requisitos psicoacusticos lleva a un efecto de conformacion de ruido sofisticado y es lo que hace que el codificador sea un codificador perceptual de audio.

Posteriormente, los codificadores de audio modernos realizan la codificacion por entropfa (por ejemplo la codificacion de Huffman, codificacion aritmetica) en los datos espectrales cuantificados. La codificacion por entropfa es una etapa de codificacion sin perdidas, lo que produce mas ahorros de la tasa de bits.

Por ultimo, todos los datos espectrales codificados y los parametros adicionales relevantes (informacion secundaria, como por ejemplo los ajustes del cuantificador por cada banda de frecuencia) se empaquetan juntos en un flujo de bits, que es la representacion final codificada destinada al almacenamiento de archivos o a la transmision.

Ampliacion de ancho de banda

En la codificacion perceptual de audio basada en bancos de filtros, la parte principal de la tasa de bits consumida se gasta habitualmente en los coeficientes espectrales cuantificados. Por consiguiente, a tasas de bits muy bajas, no hay suficientes bits libres para representar todos los coeficientes con la precision necesaria para obtener una reproduccion perceptualmente intacta. De esta manera, los requisitos de bajas tasas de bits establecen de manera eficaz un lfmite al ancho de banda de audio que se puede obtener mediante la codificacion perceptual de audio. La ampliacion de ancho de banda [2] elimina esta limitacion fundamental duradera. La idea central de la ampliacion del ancho de banda es complementer un codec perceptual limitado por la banda mediante un procesador de alta frecuencia adicional que transmite y restablece el contenido de alta frecuencia faltante en forma parametrica compacta. El contenido de alta frecuencia se puede generar basandose en la modulacion de una banda lateral unica de la senal de banda base, en tecnicas de copiado como las utilizadas en la Replicacion de la Banda Espectral (SBR) [3] o en la aplicacion de tecnicas de desplazamiento de tono, como por ejemplo el codificador vocal [4].

Efectos del audio digital

Habitualmente se obtienen efectos de dilatacion temporal o desplazamiento de tono aplicando tecnicas en el dominio del tiempo como el solapamiento y suma sincronizados (SOLA) o tecnicas en el dominio de la frecuencia (codificador vocal). Ademas, se han propuesto sistemas hfbridos que aplican un procesamiento SOLA en las sub-bandas. Los

5

10

15

20

25

30

35

40

45

50

55

60

codificadores vocales y sistemas hnbridos por lo general sufren una distorsion denominada “reduccion progresiva” [8] que se puede atribuir a la perdida de coherencia de la fase vertical. Algunas publicaciones citan mejoras en la calidad del sonido de los algoritmos de dilatacion temporal mediante la conservacion de la coherencia de la fase vertical cuando esto es importante [6][7].

Los codificadores de audio del estado de la tecnica [1] habitualmente comprometen la calidad perceptual de las senales de audio al despreciar importantes propiedades de la fase de la senal que se debe codificar. En [9] se trata una propuesta general de correccion de coherencia de la fase en los codificadores perceptuales de audio.

Sin embargo, no se pueden corregir todos los tipos de errores de coherencia de fase al mismo tiempo y no todos los errores de coherencia de fase son perceptualmente importantes. Por ejemplo, en la ampliacion de ancho de banda de audio no resulta claro a partir del estado de la tecnica que errores relacionados con la coherencia de fases debenan corregirse con la mayor prioridad y que errores pueden quedar corregidos solo en parte o, en lo que respecta a su impacto perceptual insignificante, pueden desestimarse totalmente.

Especialmente debido a la aplicacion de la ampliacion de ancho de banda de audio [2][3][4], con frecuencia se deteriora la coherencia de fase en la frecuencia y en el tiempo. El resultado es un sonido sordo que muestra una aspereza sonora y puede contener tonos percibidos de mas que se desprenden de los objetos de audio de la senal original y por lo tanto se perciben como objetos auditivos por sf mismos adicionalmente a la senal original. Mas aun, tambien puede parecer que el sonido proviene desde una gran distancia y que tiene menos “zumbido” y por consiguiente suscita poca atencion del oyente [5]

Por lo tanto, existe una necesidad de un enfoque mejorado.

El documento US 2007/0238415 A1 desvela “una tecnica de ampliacion de ancho de banda que opera usando un modelo de auto-similitud fractal o un modelo de sustitucion espectral precisa, o ambos. Una tecnica de codificacion de amplitud temporal de multiples bandas ayuda con la reconstruccion precisa de la envolvente temporal y emplea un banco de filtros de utilidad. Un codificador perceptual que usa un modelo de liberacion de enmascaramiento co- modulacion que opera tfpicamente con codificadores mas convencionales hace el modelo perceptual mas preciso y por lo tanto aumenta la eficacia del codificador perceptual global”.

Un objetivo de la presente invencion es proporcionar un concepto mejorado para el procesamiento de una senal de audio. Este objetivo se resuelve mediante la materia objeto de las reivindicaciones independientes. Se definen realizaciones espedficas mediante las reivindicaciones dependientes. La presente invencion se basa en el hallazgo de que se puede corregir la fase de una senal de audio de acuerdo con una fase objetivo calculada por un procesador de audio o un decodificador. La fase objetivo puede observarse como una representacion de una fase de una senal de audio sin procesar. Por lo tanto, la fase de la senal de audio procesada se ajusta para que se adapte mejor a la fase de la senal de audio sin procesar. Teniendo, por ejemplo una representacion de tiempo-frecuencia de la senal de audio, se puede ajustar la fase de la senal de audio para tramas de tiempo subsiguientes en una sub- banda, o bien se puede ajustar la fase en una trama de tiempo para las sub-bandas de frecuencia subsiguientes. Por lo tanto, se encontro un calculador que detecta y elige automaticamente el metodo de correccion mas adecuado. Los hallazgos descritos pueden implementarse en diferentes realizaciones o implementarse conjuntamente en un decodificador y/o codificador.

Las realizaciones muestran un procesador de audio para procesar una senal de audio que comprende un calculador de medidas de fases de las senales de audio configurado para calcular una medida de fases de una senal de audio para un intervalo de tiempo. Mas aun, la senal de audio comprende un determinador de medidas de la fase objetivo para determinar una medida de la fase objetivo para dicho intervalo de tiempo y un corrector de fase configurado para corregir las fases de la senal de audio para la trama de tiempo utilizando la medida de la fase calculada y la medida de la fase objetivo para obtener una senal de audio procesada.

De acuerdo con otras realizaciones, la senal de audio puede comprender una pluralidad de senales de sub-bandas para la trama de tiempo. El determinador de medidas de la fase objetivo esta configurado para determinar una primera medida de fase objetivo para una primera senal de sub-banda y una segunda medida de fase objetivo para una segunda senal de sub-banda. Ademas, el calculador de medidas de fases de las senales de audio determina la primera medida de fase para la primera senal de sub-banda y una segunda medida de fase para la segunda senal de sub-banda. El corrector de fase esta configurado para corregir la primera fase de la primera senal de sub-banda utilizando la primera medida de fase de la senal de audio y la primera medida de la fase objetivo y para corregir una segunda fase de la segunda senal de sub-banda utilizando la medida de la senal de audio y la segunda medida de la fase objetivo. Por lo tanto, el procesador de audio puede comprender un sintetizador de senales de audio para sintetizar una senal de audio corregida utilizando la primera senal de sub-banda corregida y la segunda senal de sub-banda corregida.

De acuerdo con la presente invencion, el procesador de audio esta configurado para corregir la fase de la senal de

5

10

15

20

25

30

35

40

45

50

55

60

audio en direccion horizontal, es decir una correccion en el tiempo. Por lo tanto, la senal de audio se puede dividir en una serie de tramas de tiempo, donde la fase de cada trama de tiempo puede ajustarse de acuerdo con la fase objetivo. La fase objetivo puede ser una representacion de una senal de audio original, en la que el procesador de audio puede ser parte de un decodificador para decodificar la senal de audio que es una representacion codificada de la senal de audio original. Opcionalmente, se puede aplicar la correccion horizontal de fase por separado para un numero de sub-bandas de la senal de audio, si la senal de audio esta disponible en una representacion de tiempo- frecuencia. La correccion de la fase de la senal de audio puede realizarse restando una desviacion de una derivada de fase en el tiempo de la fase objetivo y la fase de la senal de audio de la fase de la senal de audio.

“ — f

Por lo tanto, dado que la derivada de la fase en el tiempo es una frecuencia ( ' , donde cp es una fase), la

correccion de fase descrita realiza un ajuste de frecuencia para cada sub-banda de la senal de audio. En otras palabras, se puede reducir la diferencia de cada sub-banda de la senal de audio a una frecuencia objetivo para obtener una mejor calidad de la senal de audio.

Para determinar la fase objetivo, el determinador de fase objetivo esta configurado para obtener una estimacion de la frecuencia fundamental para una trama de tiempo actual y para realizar una estimacion de frecuencia por cada sub-banda de la pluralidad de sub-bandas de la trama de tiempo usando la estimacion de frecuencia fundamental para la trama de tiempo. La estimacion de frecuencia se puede convertir en una derivada de la fase en el tiempo utilizando un numero total de sub-bandas y una frecuencia de muestreo de la senal de audio. En otra realizacion, el procesador de audio comprende un determinador de medidas de la fase objetivo para determinar una medida de la fase objetivo para la senal de audio en una trama de tiempo, un calculador de errores de fase para calcular un error de fase utilizando una fase de la senal de audio y la trama de tiempo de la medida de la fase objetivo, y un corrector de fase configurado para corregir la fase de la senal de audio y la trama de tiempo utilizando el error de fase.

De acuerdo con otras realizaciones, se puede obtener la senal de audio en una representacion de tiempo- frecuencia, en la que la senal de audio comprende una pluralidad de sub-bandas para la trama de tiempo. El determinador de medidas de la fase objetivo determina una primera medida de fase objetivo para una primera senal de sub-banda y una segunda medida de fase objetivo para una segunda senal de sub-banda. Mas aun, el calculador de errores de fase forma un vector de errores de fase, en el que un primer elemento del vector se refiere a una primera desviacion de la fase de la primera senal de sub-banda y la primera medida de la fase objetivo y en el que un segundo elemento del vector se refiere a una segunda desviacion de la fase de la segunda senal de sub-banda y la segunda medida de la fase objetivo. Adicionalmente, el procesador de audio de esta realizacion comprende un sintetizador de senales de audio para sintetizar una senal de audio corregida utilizando la primera senal de sub- banda corregida y la segunda senal de sub-banda corregida. Esta correccion de fase produce valores de fase corregidos de media.

Adicionalmente o como alternativa, la pluralidad de sub-bandas se agrupa en una banda base y una serie de parches de frecuencia, en el que la banda base comprende una sub-banda de la senal de audio y la serie de parches de frecuencia comprende al menos una sub-banda de la banda base a una frecuencia mas alta que la frecuencia de la al menos una sub-banda en la banda base.

Otras realizaciones muestran el calculador de errores de fase configurado para calcular una media de los elementos de un vector de errores de fase que se refiere a un primer parche del segundo numero de parches de frecuencia para obtener un error de fase promedio. El corrector de fase esta configurado para corregir una fase de la senal de sub-banda en el primer parche de frecuencia y subsiguientes de la serie de parches de frecuencia de la senal de parche utilizando un error de fase promedio ponderado, en el que el error de fase promedio se divide de acuerdo con un mdice del parche de frecuencia para obtener una senal de parche modificada. Esta correccion de fase proporciona una buena calidad a las frecuencias de cruce, que son las frecuencias lfmite entre dos parches de frecuencia posteriores.

De acuerdo con otra realizacion, pueden combinarse las dos realizaciones previamente descritas para obtener una senal de audio corregida que comprende valores de fase corregidos que de media son buenos y a las frecuencias de cruce. Por lo tanto, el calculador de derivadas de fases de la senal de audio esta configurado para calcular una media de derivadas de fases en la frecuencia para una banda base. El corrector de fase calcula una senal de parche modificada adicional con un primer parche de frecuencia optimizado sumando la media de las derivadas de fases en la frecuencia ponderada en un mdice de sub-banda actual a la fase de la senal la sub-banda con el mdice de sub- banda mas elevado en una banda base de la senal de audio. Mas aun, el corrector de fase puede estar configurado para calcular una media ponderada de la senal de parche modificada y de la senal de parche modificada adicional para obtener una senal de parche modificada combinada y para actualizar, de manera recursiva, basandose en los parches de frecuencia, la senal de parche modificada combinada mediante la suma de la media de las derivadas de fases en la frecuencia, ponderada por el mdice de sub-banda de la sub-banda actual, a la fase de la senal de la sub- banda con el mdice de sub-banda mas elevado del parche de frecuencia anterior de la senal de parche modificada combinada.

5

10

15

20

25

30

35

40

45

50

55

60

Para determinar la fase objetivo, el determinador de medidas de la fase objetivo puede comprender un extractor de flujos de datos configurado para extraer una posicion de pico y una frecuencia fundamental de las posiciones de los picos en una trama de tiempo actual de la senal de audio de un flujo de datos. Por otro lado, el determinador de medidas de la fase objetivo puede comprender un analizador de senales de audio configurado para analizar la trama de tiempo actual para calcular una posicion de pico y una frecuencia fundamental de las posiciones de los picos en la trama de tiempo actual. Mas aun, el determinador de medidas de la fase objetivo comprende un generador de espectros objetivo para estimar posiciones de los picos adicionales en la trama de tiempo actual utilizando la posicion de pico y la frecuencia fundamental de las posiciones de los picos. En detalle, el generador de espectros objetivo puede comprender un detector de picos para generar un tren de pulsos de un tiempo, un formador de senales para ajustar la frecuencia del tren de pulsos de acuerdo con la frecuencia fundamental de las posiciones de los picos, un posicionador de pulsos para ajustar la fase del tren de pulsos de acuerdo con la posicion y un analizador de espectros para generar un espectro de fase del tren de pulsos ajustado, en el que el espectro de fase de la senal en el dominio del tiempo es la medida de la fase objetivo. La realizacion descrita del determinador de medidas de la fase objetivo es ventajosa para generar un espectro objetivo para una senal de audio que tiene una forma de onda con picos.

Las realizaciones del segundo procesador de audio describen una correccion de fase vertical. La correccion de fase vertical ajusta la fase de la senal de audio en una trama de tiempo a traves de todas las sub-bandas. El ajuste de fases de la senal de audio, aplicado de manera independiente a cada sub-banda da como resultado, despues de sintetizar las sub-bandas de la senal de audio, una forma de onda de la senal de audio diferente de la senal de audio sin corregir. Por lo tanto, es posible, por ejemplo, remodelar un pico borroso o un transitorio.

De acuerdo con otra realizacion, se muestra un calculador para determinar datos de correccion de fase para una senal de audio con un determinador de variaciones para determinar una variacion de la fase de la senal de audio en un primero y en un segundo modo de variacion, un comparador de variaciones para comparar una primera variacion que se determina utilizando el modo de variacion de fases y una segunda variacion que se determina utilizando el segundo modo de variacion, y un calculador de datos de correccion para calcular la correccion de fase de acuerdo con el primer modo de variacion o el segundo modo de variacion basandose en el resultado de la comparacion.

Otra realizacion muestra el determinador de variaciones para determinar una medida de la desviacion tfpica de una derivada de la fase en el tiempo (PDT) para una pluralidad de tramas de tiempo de la senal de audio como la variacion de la fase en el primer modo de variacion o una medida de la desviacion tfpica de una derivada de la fase en la frecuencia (PDF) para una pluralidad de sub-bandas como variacion de la fase en el segundo modo de variacion. El comparador de variaciones compara la medida de la derivada de la fase en el tiempo como el primer modo de variacion y la medida de la derivada de la fase en la frecuencia como segundo modo de variacion para tramas de tiempo de la senal de audio. De acuerdo con otra realizacion, el determinador de variaciones esta configurado para determinar una variacion de la fase de la senal de audio en un tercer modo de variacion, en el que el tercer modo de variacion es un modo de deteccion de transitorios. Por lo tanto, el comparador de variaciones compara los tres modos de variacion y el calculador de datos de correccion calcula la correccion de la fase de acuerdo con el primer modo de variacion, la segunda variacion, o el tercer modo de variacion basandose en un resultado de la comparacion.

Las reglas de decision del calculador de datos de correccion se pueden describir de la siguiente manera. En caso de detectarse un transitorio, se corrige la fase de acuerdo con la correccion de fase para que los transitorios restablezcan la forma del transitorio. De lo contrario, si la primera variacion es menor o igual que la segunda variacion, se aplica la correccion de fase del primer modo de variacion o, si la segunda variacion es mayor que la primera variacion, se aplica la correccion de fase de acuerdo con el segundo modo de variacion. Si se detecta la ausencia de un transitorio y si tanto la primera como la segunda variacion exceden un valor umbral, no se aplica ninguno de los modos de correccion de la fase.

El calculador puede estar configurado para analizar la senal de audio, por ejemplo, en una etapa de codificacion de audio, para determinar el mejor modo de correccion de la fase y para calcular los parametros relevantes correspondientes al modo de correccion de la fase determinado. En una etapa de decodificacion, pueden utilizarse los parametros para obtener una senal de audio decodificada de mejor calidad, en comparacion con las senales de audio que se decodifican utilizando codecs del estado de la tecnica. Debe observarse que el calculador detecta de manera autonoma el modo apropiado de correccion para cada trama de tiempo de la senal de audio.

Las realizaciones muestran un decodificador para decodificar una senal de audio con un primer generador de espectros objetivo para generar un espectro objetivo para una primera trama de tiempo de una segunda senal de la senal de audio utilizando primeros datos de correccion y un primer corrector de la fase para corregir una fase de la senal de sub-banda en la primera trama de tiempo de la senal de audio que se determina con un algoritmo de correccion de la fase, en el que la correccion se realiza reduciendo una diferencia entre una medida de la senal de sub-banda en la primera trama de tiempo de la senal de audio y el espectro objetivo. Ademas, el decodificador

5

10

15

20

25

30

35

40

45

50

55

60

comprende un calculador de senales de sub-bandas de audio para calcular la senal de sub-banda de audio para la primera trama de tiempo utilizando una fase corregida para la trama de tiempo y para calcular la senal de sub-banda de audio para a una segunda trama de tiempo diferente de la primera trama de tiempo utilizando la medida de la senal de sub-banda en la segunda trama de tiempo o utilizando un calculo de fase corregido de acuerdo con otro algoritmo de correccion de fase diferente del algoritmo de correccion de la fase.

De acuerdo con otras realizaciones, el decodificador comprende un segundo y un tercer generadores de espectros objetivo equivalentes al primer generador de espectros objetivo y un segundo y un tercer correctores de fase equivalentes al primer corrector de fase. Por lo tanto, el primer corrector de fase puede realizar una correccion de la fase horizontal, el segundo corrector de fase puede realizar una correccion de la fase vertical, y el tercer corrector de fase puede realizar transitorios de correccion de fase. De acuerdo con otra realizacion, el decodificador comprende un decodificador de nucleo configurado para decodificar la senal de audio en una trama de tiempo con un numero reducido de sub-bandas con respecto a la senal de audio. Mas aun, el decodificador puede comprender un generador de parches para generar parches en una serie de sub-bandas de la senal de audio decodificada en nucleo con un numero reducido de sub-bandas, en el que la serie de sub-bandas forma un primer parche, hacia otras sub-bandas de la trama de tiempo, adyacentes al numero reducido de sub-bandas, para obtener una senal de audio con un numero uniforme de sub-bandas. Mas aun, el decodificador puede comprender un procesador de magnitudes para procesar valores de magnitud de la senal de sub-banda de audio en la trama de tiempo y un sintetizador de senales de audio para sintetizar senales de audio de sub-bandas o una magnitud de las senales de audio de sub-bandas procesadas para obtener una senal de audio decodificada sintetizada. Esta realizacion puede establecer un decodificador para la ampliacion de ancho de banda que comprende una correccion de fase de la senal de audio decodificada.

En consecuencia, un codificador para codificar una senal de audio que comprende un determinador de fase para determinar una fase de la senal de audio, un calculador para determinar datos de correccion de fase para una senal de audio basandose en la fase determinada de la senal de audio, un codificador nucleo configurado para codificar en nucleo la senal de audio para obtener una senal de audio codificada en nucleo que tiene un numero reducido de sub-bandas con respecto a la senal de audio, y un extractor de parametros configurado para extraer los parametros de la senal de audio para obtener una representacion parametrica de baja resolucion para una segunda serie de sub-bandas no incluidas en la senal de audio codificada en nucleo, y un formador de senales de audio para formar una senal de salida que comprende los parametros, la senal de audio codificada en nucleo, y los datos de correccion de fase pueden formar un codificador para la ampliacion de ancho de banda.

Todas las realizaciones previamente descritas pueden observarse en su totalidad o en combinacion, por ejemplo en un codificador y/o decodificador para ampliacion de ancho de banda con una correccion de fase de la senal de audio decodificada. Como alternativa, es posible tambien ver todas las realizaciones descritas de manera independiente unas con respecto a las otras.

Se analizaran realizaciones de la presente invencion posteriormente haciendo referencia a los dibujos adjuntos, en los que:

La Figura 1a

La Figura 1b La Figura 1c

La Figura 1d

muestra el espectro de magnitud de una senal de violin en una representacion de tiempo- frecuencia;

muestra el espectro de fase que corresponde al espectro de magnitud de la Figura 1a;

muestra el espectro de magnitud de una senal de trombon en el dominio QMF en una representacion de tiempo-frecuencia;

muestra el espectro de fase que corresponde al espectro de magnitud de la Figura 1c;

La Figura 2 muestra un diagrama de tiempo frecuencia que comprende piezas de tiempo frecuencia (por ejemplo segmentos de QMF, segmentos de bancos de Filtros Espejo en Cuadratura), definidos por una trama de tiempo y una sub-banda;

La Figura 3a muestra un diagrama de frecuencia ejemplar de una senal de audio, en el que la magnitud de la frecuencia se representa a traves de diez sub-bandas diferentes;

La Figura 3b muestra una representacion de frecuencia ejemplar de la senal de audio despues de la recepcion, por ejemplo durante un proceso de decodificacion en una etapa intermedia;

La Figura 3c muestra una representacion de frecuencia ejemplar de la senal de audio reconstruida Z(k,n);

La Figura 4a muestra un espectro de magnitud de la senal de violin en el dominio QMF utilizando SBR por

La Figura 4b: copiado directo en una representacion de tiempo-frecuencia; muestra un espectro de fase que corresponde al espectro de magnitud de la Figura 4a;

5 La Figura 4c: muestra un espectro de magnitud de una senal de trombon en el dominio QMF utilizando SBR por copiado directo en una representacion de tiempo-frecuencia;

La Figura 4d La Figura 5 10: muestra el espectro de fase que corresponde al espectro de magnitud de la Figura 4c; muestra una representacion en el dominio del tiempo de un unico segmento de QMF con diferentes valores de fases;

La Figura 6: muestra una presentacion en el dominio del tiempo y en el dominio de la frecuencia de una senal, que tiene una banda de frecuencia distinta de cero y con un cambio de la fase en un valor fijo, n/4 (superior) y 3n/4 (inferior);

15 La Figura 7: muestra una presentacion en el dominio del tiempo y en el dominio de la frecuencia de una senal, que tiene una banda de frecuencia distinta de cero y con un cambio de la fase aleatorio;

La Figura 8 20: muestra el efecto descrito con respecto a la Figura 6 en una representacion de tiempo frecuencia de cuatro tramas de tiempo y cuatro sub-bandas de frecuencia, donde solo la tercera sub-banda comprende una frecuencia diferente de cero;

La Figura 9: muestra una representacion en el dominio del tiempo y en el dominio de la frecuencia de una senal, que tiene una trama de tiempo distinta de cero y donde la fase cambia en un valor fijo, n/4

25: (superior) y 3n/4 (inferior);

La Figura 10: muestra una representacion en el dominio del tiempo y en el dominio de la frecuencia de una senal, que tiene una trama de tiempo distinta de cero y donde la fase cambia de manera aleatoria;

30 La Figura 11: muestra un diagrama de tiempo frecuencia similar al diagrama de tiempo frecuencia mostrado en la Figura 8, donde solo la tercera trama de tiempo comprende una frecuencia diferente de cero;

La Figura 12a: muestra una derivada de la fase en el tiempo de la senal de violin en el dominio QMF en una representacion de tiempo-frecuencia;

35 La Figura 12b: muestra la frecuencia de la derivada de la fase que corresponde a la derivada de la fase en el tiempo mostrada en la Figura 12a;

La Figura 12c 40: muestra la derivada de la fase en el tiempo de la senal de trombon en el dominio QMF en una representacion de tiempo-frecuencia;

La Figura 12d: muestra la derivada de la fase en la frecuencia de la derivada de la fase correspondiente en el tiempo de la Figura 12c;

45 La Figura 13a: muestra la derivada de la fase en el tiempo de la senal de violin en el dominio QMF utilizando SBR por copiado directo en una representacion de tiempo-frecuencia;

La Figura 13b: muestra la derivada de la fase en la frecuencia que corresponde a la derivada de la fase en el tiempo mostrada en la Figura 13a;

50 La Figura 13c: muestra la derivada de la fase en el tiempo de la senal de trombon en el dominio QMF utilizando SBR por copiado directo en una representacion de tiempo-frecuencia;

La Figura 13d 55: muestra la derivada de la fase en la frecuencia que corresponde a la derivada de la fase en el tiempo mostrada en la Figura 13c;

La Figura 14a: muestra esquematicamente cuatro fases de, por ejemplo tramas de tiempo o sub-bandas de frecuencia subsiguientes, en un cfrculo unitario;

60 La Figura 14b: muestra las fases ilustradas en la Figura 14a despues del procesamiento por SBR y, en lmea discontinua, las fases corregidas;

La Figura 15: muestra un diagrama esquematico de bloques de un procesador de audio 50;

: La Figura 16

: La Figura 17

5

: La Figura 18a

10: La Figura 18b

: La Figura 19

: La Figura 20

15: La Figura 21

: La Figura 22

20: La Figura 23

: La Figura 24

: La Figura 25

25

: La Figura 26

: La Figura 27

30

: La Figura 28a

35: La Figura _Q OO CM

: La Figura 29

40

: La Figura 30

45: La Figura 31

: La Figura 32

: La Figura 33

50

: La Figura 34

: La Figura 35

55

: La Figura 36

: La Figura 37

60

: La Figura 38a

: La Figura _Q OO CO

muestra el procesador de audio en un diagrama esquematico de bloques de acuerdo con otra realizacion;

muestra un error alisado en la PDT de la senal de violm en el dominio QMF utilizando SBR por copiado directo en una representacion de tiempo-frecuencia;

muestra un error en la PDT de la senal de violin en el dominio QMF para la SBR corregida en una representacion de tiempo-frecuencia;

muestra la derivada de la fase en el tiempo que corresponde al error mostrado en la Figura 18a; muestra un diagrama esquematico de bloques de un decodificador;

muestra un diagrama esquematico de bloques de un codificador;

muestra un diagrama esquematico de bloques de un flujo de datos que puede ser una senal de audio;

muestra el flujo de datos de la Figura 21 de acuerdo con otra realizacion;

muestra un diagrama esquematico de bloques de un metodo para procesar una senal de audio;

muestra un diagrama esquematico de bloques de un metodo para decodificar una senal de audio;

muestra un diagrama esquematico de bloques de un metodo para codificar una senal de audio;

muestra un diagrama esquematico de bloques de un procesador de audio de acuerdo con otra realizacion;

muestra un diagrama esquematico de bloques del procesador de audio de acuerdo con una realizacion preferida;

muestra un diagrama esquematico de bloques de un corrector de fase del procesador de audio que ilustra el flujo de la senal en mas detalle;

muestra las etapas de la correccion de fase desde otro punto de vista en comparacion con las Figuras 26-28a;

muestra un diagrama esquematico de bloques de un determinador de medidas de la fase objetivo en el procesador de audio, que ilustra el determinador de medidas de la fase objetivo en mas detalle;

muestra un diagrama esquematico de bloques de un generador de espectro objetivo del procesador de audio, que ilustra el generador de espectro objetivo en mas detalle;

muestra un diagrama esquematico de bloques de un decodificador;

muestra un diagrama esquematico de bloques de un codificador;

muestra un error en el espectro de fase de la senal de trombon en el dominio QMF utilizando SBR por copiado directo en una representacion de tiempo-frecuencia;

muestra el error en el espectro de fase de la senal de trombon en el dominio QMF utilizando SBR corregida en una representacion de tiempo-frecuencia;

muestra la derivada de la fase en la frecuencia que corresponde al error mostrado en la Figura

10

15

20

25

30

35

40

45

50

55

La Figura 39 La Figura 40

La Figura 41 La Figura 42

La Figura 43a

La Figura 43b

La Figura 43c

La Figura 43d

La Figura 44a

La Figura 44b La Figura 45a

La Figura 45b

La Figura 46a

La Figura 46b

La Figura 47 La Figura 48a

La Figura 48b

La Figura 49

La Figura 50a

La Figura 50b

La Figura 51a La Figura 51b

38a;

muestra un diagrama esquematico de bloques de un calculador;

muestra un diagrama esquematico de bloques del calculador que ilustra el flujo de la senal en el determinador de variaciones en mas detalle;

muestra un diagrama esquematico de bloques del calculador de acuerdo con otra realizacion;

muestra un diagrama esquematico de bloques de un metodo para determinar datos de correccion de fase para una senal de audio;

muestra una desviacion tipica de la derivada de la fase en el tiempo de la senal de violin en el dominio QMF en una representacion de tiempo-frecuencia;

muestra la desviacion tfpica de la derivada de la fase en la frecuencia que corresponde a la desviacion tipica de la derivada de la fase en el tiempo mostrada con respecto a la Figura 43a;

muestra la desviacion tfpica de la derivada de la fase en el tiempo de la senal de trombon en el dominio QMF en una representacion de tiempo-frecuencia;

muestra la desviacion tfpica de la derivada de la fase en la frecuencia que corresponde a la desviacion tfpica de la derivada de la fase en el tiempo mostrada en la Figura 43c;

muestra la magnitud de la senal de violin + aplauso en el dominio QMF en una representacion de tiempo-frecuencia;

muestra el espectro de fase que corresponde al espectro de magnitud mostrado en la Figura 44a;

muestra una derivada de la fase en el tiempo de la senal de violin + aplauso en el dominio QMF en una representacion de tiempo-frecuencia;

muestra la derivada de la fase en la frecuencia que corresponde a la derivada de la fase en el tiempo mostrada en la Figura 45a;

muestra una derivada de la fase en el tiempo de la senal de violin + aplauso en el dominio QMF utilizando SBR corregida en una representacion tiempo frecuencia;

muestra la derivada de la fase en la frecuencia que corresponde a la derivada de la fase en el tiempo mostrada en la Figura 46a;

muestra las frecuencias de las bandas de QMF en una representacion de tiempo-frecuencia;

muestra las frecuencias de la SBR por copiado directo en las bandas de QMF en comparacion con las frecuencias originales mostradas en una representacion de tiempo-frecuencia;

muestra las frecuencias de la banda de QMF utilizando SBR corregida en comparacion con las frecuencias originales en una representacion de tiempo-frecuencia;

muestra las frecuencias estimadas de los armonicos en comparacion con las frecuencias de las bandas de QMF de la senal original en una representacion de tiempo-frecuencia;

muestra el error en la derivada de la fase en el tiempo de la senal de violin en el dominio QMF utilizando SBR corregida con datos de correccion comprimidos en una representacion de tiempo- frecuencia;

muestra la derivada de la fase en el tiempo que corresponde al error de la derivada de la fase en el tiempo mostrada en la Figura 50a;

muestra la forma de onda de la senal de trombon en un diagrama de tiempo;

muestra la senal en el dominio del tiempo que corresponde a la senal de trombon de la Figura 51a que contiene solo picos estimados; donde las posiciones de los picos han sido obtenidas utilizando los metadatos transmitidos;

5

10

15

20

25

30

35

40

45

50

55

60

La: Figura 52a

La: Figura 52b

La: Figura 53

La: Figura 54

La: Figura 55

La: Figura 56

La: Figura 57

La: Figura 58

La: Figura 59

muestra el error en el espectro de fase de la senal de trombon en el dominio QMF utilizando SBR corregida con datos de correccion comprimidos en una representacion de tiempo-frecuencia;

muestra la derivada de la fase en la frecuencia que corresponde al error en el espectro de la fase, mostrado en la Figura 52a;

muestra un diagrama esquematico de bloques de un decodificador; muestra un diagrama esquematico de bloques de acuerdo con una realizacion preferida; muestra un diagrama esquematico de bloques del decodificador de acuerdo con otra realizacion; muestra un diagrama esquematico de bloques de un codificador;

muestra un diagrama de bloques de un calculador que se puede utilizar en el codificador mostrado en la Figura 56;

y

muestra un diagrama esquematico de bloques de un metodo para codificar una senal de audio.

A continuacion se describen las realizaciones de la invencion en mas detalle. Los elementos mostrados en las respectivas figuras que tienen la misma o similar funcionalidad estan indicados en las mismas con los mismos signos de referencia.

Se describen las realizaciones de la presente invencion con respecto a un procesamiento espedfico de las senales. Por lo tanto, las Figuras 1-14 describen el procesamiento de senales aplicado a la senal de audio. Si bien se describen las realizaciones con respecto a este procesamiento especial de las senales, la presente invencion no se limita a este procesamiento y puede aplicarse asimismo a muchos otros esquemas de procesamiento. Mas aun, las Figuras 15-25 muestran realizaciones de un procesador de audio que puede usarse para la correccion de la fase horizontal de la senal de audio. Las Figuras 26-38 muestran realizaciones de un procesador de audio que puede usarse para la correccion de la fase vertical de la senal de audio. Ademas, las Figuras 39-52 muestran realizaciones de un calculador para determinar datos de correccion de fase para una senal de audio. El calculador puede analizar la senal de audio y determinar cual de los procesadores de audio antes citados debe aplicarse o, si ninguno de los procesadores de audio es adecuado para la senal de audio, no aplicar ninguno de los procesadores de audio a la senal de audio. Las Figuras 53-59 muestran realizaciones de un decodificador y un codificador que pueden comprender el segundo procesador y el calculador.

1 Introduccion

La codificacion perceptual de audio ha proliferado como tendencia dominante posibilitando la tecnologfa digital para todo tipo de aplicaciones que proporcionan audio y multimedia a los consumidores utilizando canales de transmision o almacenamiento con capacidad limitada. Se requiere que los codecs perceptuales de audio modernos ofrezcan una calidad de audio satisfactoria a tasas de bits cada vez mas bajas. A su vez, se tiene que soportar ciertos artefactos de codificacion que son muy tolerables para la mayona de los oyentes. La ampliacion de ancho de banda de Audio (BWE) es una tecnica para ampliar artificialmente el rango de frecuencias de un codificador de audio mediante la traslacion o transposicion espectral de las partes de baja banda de la senal hacia la banda alta a costa de introducir ciertos artefactos.

El hallazgo es que algunos de estos artefactos estan relacionados con el cambio de la derivada de la fase dentro de la banda alta artificialmente ampliada. Uno de estos artefactos es la alteracion de la derivada de fase en la frecuencia (vease asimismo coherencia de fase "vertical") [8]. La conservacion de dicha derivada de fase es perceptualmente importante para las senales tonales con una forma de onda en el domino del tiempo de tipo tren de pulsos y una frecuencia fundamental bastante baja. Los artefactos relacionados con un cambio de la derivada de la fase vertical corresponden a una dispersion local de la energfa en el tiempo y con frecuencia se encuentran en senales de audio que han sido procesadas por tecnicas de BWE. Otro artefacto es la alteracion de la derivada de la fase en el tiempo (vease tambien coherencia de fase "horizontal") que es perceptualmente importante para senales tonales ricas en sobretonos armonicos de cualquier frecuencia fundamental. Los artefactos asociados a una alteracion de la derivada de la fase horizontal corresponden a un desplazamiento de frecuencia local en el tono y con frecuencia se encuentran en senales de audio que han sido procesadas por tecnicas de BWE.

La presente invencion ofrece medios para reajustar la derivada de la fase vertical u horizontal de esas senales cuando esta propiedad se ha visto comprometida por la aplicacion de la denominada ampliacion de ancho de banda

5

10

15

20

25

30

35

40

45

50

55

60

de audio (BWE). Se ofrecen otros medios para decidir si un restablecimiento de la derivada de fase es perceptualmente ventajoso y si es perceptualmente preferible el ajuste de la derivada de la fase vertical u horizontal.

Los metodos de ampliacion de ancho de banda, tales como el de replicacion de la banda espectral (SBR) [9], se utilizan con frecuencia en los codecs de bajas tasas de bits. Permiten la transmision de solo una region de baja frecuencia relativamente estrecha junto con informacion parametrica acerca de las bandas mas altas. Dado que la tasa de bits de la informacion parametrica es pequena, se puede obtener una significativa mejora de la eficacia de codificacion.

Por lo general la senal para las bandas mas altas se obtiene simplemente copiandola de la region de baja frecuencia transmitida. El procesamiento se lleva a cabo habitualmente en el dominio de bancos de filtro espejo en cuadratura (QMF) con modulado complejo [10], que tambien se asume en lo sucesivo. La senal copiada se procesa multiplicando su espectro de magnitud por ganancias adecuadas basandose en los parametros transmitidos. El fin consiste en obtener un espectro de magnitud similar al de la senal original. Por el contrario, por lo general no se procesa en absoluto el espectro de fase de la senal copiada sino que, en su lugar, se utiliza directamente el espectro de fase copiado.

A continuacion se analizan las consecuencias perceptuales del uso directo del espectro copiado. Basandose en los efectos observados, se sugieren dos metricas para detectar los efectos perceptualmente mas significativos. Ademas, se sugieren metodos para corregir el espectro de fase basandose en los mismos. Por ultimo, se sugieren enfoques para minimizar la cantidad de valores parametricos transmitidos para realizar la correccion.

La presente invencion esta relacionada con el hallazgo de que la conservacion o restauracion de la derivada de fase puede remediar los artefactos prominentes inducidos por las tecnicas de ampliacion de ancho de banda de audio (BWE). Por ejemplo, las senales tfpicas, donde la conservacion de la derivada de fase es importante, consisten en tonos con gran contenido de sobretonos armonicos tales como la voz vocalizada, los instrumentos de viento o los de cuerdas y arco.

La presente invencion proporciona asimismo medios para decidir si - para una trama de senal dada - una restauracion de la derivada de fase es perceptualmente ventajosa y si es perceptualmente preferible el ajuste de la derivada de la fase vertical o la horizontal.

La invencion da a conocer un aparato y un metodo para la correccion de la derivada de fase en codecs de audio utilizando tecnicas de BWE con los siguientes aspectos:

1. Cuantificacion de la “importancia” de la correccion de la derivada de fase

2. Priorizacion dependiente de la senal de la correccion de derivada de la fase vertical ("frecuencia") o correccion de derivada de la fase horizontal ("tiempo")

3. Conmutacion dependiente de la senal de la direccion de la correccion ("frecuencia" o "tiempo")

4. Modo especializado de correccion de la derivada de la fase vertical para los transitorios

5. Obtencion de parametros estables para una correccion alisada

6. Formato de transmision compacto de la informacion secundaria de los parametros de correccion 2 Presentacion de senales en el dominio QMF

Una senal en el dominio del tiempo x(m), donde m es el tiempo discreto, se puede presentar en el dominio de tiempo-frecuencia, por ejemplo utilizando un banco de filtros espejo en cuadratura de (QMF) de modulacion compleja. La senal resultante es X(k,n), donde k es el mdice de banda de frecuencia y n el mdice de la trama de tiempo. Se asume el QMF de 64 bandas y na frecuencia de muestreo fs de 48 kHz para las visualizaciones y las realizaciones. Por consiguiente, el ancho de banda few de cada banda de frecuencia es de 375 Hz y el tamano de salto temporal fhop (17 en la Figura 2) es de 1,33 ms. Sin embargo, el procesamiento no se limita a esa transformada. Por otro lado, se puede usar en su lugar una MDCT (Transformada de Coseno Discreta Modificada) o una DFT (Transformada Discreta de Fourier).

La senal asf obtenida es X(k,n), donde k es el mdice de banda de frecuencia y n el mdice de la trama de tiempo. X(k,n) es una senal compleja. Por consiguiente, tambien puede presentarse utilizando la magnitud Xmag(k,n) y los componentes de la fase Xpha(k,n) donde j es el numero complejo

X(k. n) = rnis (k, n)e>x “‘"“'•"J. (1)

Las senales de audio se presentan en su mayona utilizando Xmag(k,n) y XPha(k,n) (vease la Figura 1 donde hay dos ejemplos).

La Figura 1a muestra un espectro de magnitud Xmag(k,n) de una senal de violin, en el que la Figura 1b muestra el

11

5

10

15

20

25

30

35

40

45

50

55

60

espectro de fase correspondiente Xpha(k,n), en ambos casos en el dominio QMF. Mas aun, la Figura 1c muestra un espectro de magnitud Xmag(k,n) de una senal de trombon, en el que la Figura 1d muestra el espectro de fase correspondiente una vez mas en el correspondiente dominio QMF. Con respecto a los espectros de magnitud de las Figuras 1a y 1c, el gradiente de color indica una magnitud de rojo = 0 dB a azul = -80 dB. Mas aun, con respecto a los espectros de fase de las Figuras 1b y 1d, el gradiente de color indica fases de rojo = n a azul = -n.

3 Datos de audio

Los datos de audio usados para mostrar un efecto de un procesamiento de audio descrito se denominan 'trombon' en el caso de una senal de audio de un trombon, Violin’ en el caso de una senal de audio de un violin, y 'violfn + aplauso' en el caso de la senal de violrn con un aplauso agregado en el medio.

4 Operacion basica de la SBR

La Figura 2 muestra un diagrama de tiempo frecuencia 5 que comprende piezas de tiempo frecuencia 10 (por ejemplo segmentos de QMF, segmentos de de bancos de Filtros Espejo en Cuadratura), definidos por una trama de tiempo 15 y una sub-banda 20. Una senal de audio se puede transformar en ese tipo de representacion tiempo- frecuencia utilizando una transformada QMF (Banco de Filtros Espejo en Cuadratura), una MDCT (Transformada de Coseno Discreta Modificada) o una DFT (Transformada Discreta de Fourier). La division de la senal de audio en tramas de tiempo puede comprender partes solapadas de la senal de audio. En la parte inferior de la Figura 1, se expone un unico solapamiento de las tramas de tiempo 15, donde se superponen como maximo dos tramas de tiempo simultaneamente. Mas aun, es decir si se necesita mas redundancia, tambien se puede dividir la senal de audio utilizando multiples solapamientos. En un algoritmo de multiples solapamientos, tres o mas tramas de tiempo pueden comprender la misma parte de la senal de audio en un determinado punto de tiempo. La duracion de un solapamiento es el tamano de salto thop 17.

Suponiendo una senal X(k,n), se obtiene la senal Z(k,n) con ancho de banda ampliado (BWE) de la senal de entrada X(k,n) copiando ciertas partes de la banda de frecuencias de baja frecuencia transmitida. Un algoritmo SBR se inicia seleccionando una region de frecuencia a transmitir. En este ejemplo, se seleccionan las bandas de 1 a 7:

imagen1

La cantidad de bandas de frecuencias a transmitir depende de la tasa de bits pretendida. Las figuras y las ecuaciones se producen utilizando 7 bandas, y se utilizan de 5 a 11 bandas para los correspondientes datos de audio. Por consiguiente, las frecuencias de cruce entre la region de frecuencia transmitida y las bandas superiores son de 1875 a 4125 Hz, respectivamente. Las bandas de frecuencia por encima de esta region no se transmiten en absoluto, sino que, por el contrario, se generan datos parametricos para describirlas. Se codifica y transmite Xtrans(k,n). Por motivos de simplicidad, se supone que la codificacion no modifica la senal de modo alguno, aunque se debe tener en cuenta que el procesamiento adicional no se limita al caso supuesto.

En el extremo de la recepcion, se utiliza directamente la region de frecuencia transmitida para las correspondientes frecuencias.

En el caso de las bandas mas altas, se puede crear la senal de alguna manera utilizando la senal transmitida. Un enfoque consiste simplemente en copiar la senal transmitida a frecuencias mas elevadas. En este caso se utiliza una version ligeramente modificada. En primer lugar, se selecciona una senal de banda base. Podna ser la totalidad de la senal transmitida, aunque en esta realizacion se omite la primera banda de frecuencia. La razon de esto es que se indico que en muchos casos el espectro de fase era irregular para la primera banda. Por consiguiente, la banda base a copiarse se define como

VI < k < 6 : Arbase(/c,n) = Xtnns(k + 1,71) (3)

Tambien se pueden utilizar otros anchos de banda para las senales transmitida y de banda base. Utilizando la senal de banda base, se generan senales sin procesar para las frecuencias mas elevadas

- Xb(4)

donde Yra4k,n,i) es la senal QMF compleja para el parche de frecuencia i. Las senales de parche de frecuencia sin procesar se tratan de acuerdo con los metadatos transmitidos multiplicandolas por las ganancias g(k,n,i)

Ytji.n.i) =■■ Y^ik.nAWi.nA), (5)

5

10

15

20

25

30

35

40

45

50

55

60

Se debe observar que las ganancias tienen valor real y, por consiguiente, solo se afecta al espectro de magnitud y de esta manera se adaptan a un valor objetivo deseado. Los enfoques conocidos muestran como se obtienen las ganancias. La fase objetivo queda sin corregir en dichos enfoques conocidos.

La senal final que se ha de reproducir se obtiene concatenando las senales transmitidas y de parche para ampliar de manera ininterrumpida para obtener una senal BWE del ancho de banda deseado. En esta realizacion, se supone que i = 7.

Z(.k,n) =

7.{k + 6i + l,n) ^ y(fc,n,i). (6)

La Figura 3 muestra las senales descritas en una representacion grafica. La Figura 3a muestra un ejemplo de diagrama de frecuencia de una senal de audio, en el que se representa la magnitud de la frecuencia en diez sub- bandas diferentes. Las primeras siete sub-bandas reflejan las bandas de frecuencia transmitidas Xtrans(k,n) 25. La banda base Xbase(k,n) 30 se deriva de la misma eligiendo la segunda a septima sub-bandas. La Figura 3a muestra la senal de audio original, es decir la senal de audio con anterioridad a la transmision o la codificacion. La Figura 3b muestra un ejemplo de representacion en la frecuencia de la senal de audio despues de la recepcion, por ejemplo durante un proceso de decodificacion en una etapa intermedio. El espectro de frecuencia de la senal de audio comprende las bandas de frecuencia transmitidas 25 y siete senales de banda base 30 copiadas para sub-bandas mas altas del espectro de frecuencia formando una senal de audio 32 que comprende frecuencias superiores a las frecuencias de la banda base. Tambien se hace referencia a la senal de banda base completa como un parche de frecuencia. La Figura 3c muestra una senal de audio reconstruida Z(k,n) 35. En comparacion con la Figura 3b, los parches de senales de banda base se multiplican individualmente por un factor de ganancia. Por lo tanto, el espectro de frecuencia de la senal de audio comprende el espectro de frecuencia principal 25 y un numero de parches con magnitud corregida Y(k,n,1) 40. Se hace referencia a este metodo de generacion de parches como generacion de parches por copiado directo. La generacion de parches por copiado directo se utiliza a modo de ejemplo para describir la presente invencion, aunque la invencion no se limita a un algoritmo de generacion de parches. Otro algoritmo de generacion de parches que puede usarse es, por ejemplo, un algoritmo de generacion de parches de armonicos.

Se supone que la representacion parametrica de las bandas superiores es perfecta, es decir, que el espectro de magnitud de la senal reconstruida es identico a la de la senal original

Zmas(/c,rc) = xmas<yctn). (7)

Sin embargo, se debe tener en cuenta que el espectro de fase no se corrige de manera alguna por el algoritmo, por lo que no es correcto incluso si el algoritmo funcionara perfectamente. Por lo tanto, las realizaciones muestran como adaptar y corregir adicionalmente el espectro de fase de Z(k,n) a un valor objetivo, de tal manera que se obtenga una mejora de la calidad perceptual. En las realizaciones, se puede realizar la correccion utilizando tres modos de procesamiento diferentes, “horizontal”, “vertical” y “transitorio”. Estos modos se describen por separado a continuacion.

En la Figura 4 se representan Zmag(k,n) y Zpha(k,n) para las senales de violin y el trombon. La Figura 4 muestra ejemplarmente los espectros de la senal de audio reconstruida 35 utilizando replicacion de la banda espectral (SBR) con generacion de parches por copiado directo. El espectro de magnitud Zmag(k,n) de una senal de violin se muestra en la Figura 4a, en el que la Figura 4b muestra el espectro de fase correspondiente Zpha(k,n). Las Figuras 4c y 4d muestran los correspondientes espectros de una senal de trombon. Todas las senales se presentan en el dominio QMF. Como ya se ha observado en la Figura 1, el gradiente de color indica una magnitud de rojo = 0 dB a azul = -80 dB, y una fase de rojo = n a azul = -n. Se puede apreciar que sus espectros de fase son diferentes de los espectros de las senales originales (vease la Figura 1). Debido a la SBR, se percibe que el violin contiene desarmoma y el trombon contiene ruidos de modulacion a las frecuencias de cruce. Sin embargo, los trazados de fases parecen bastante aleatorios, y es diffcil determinar que grado de diferencia tienen y cuales son los efectos perceptuales de las diferencias. Mas aun, no es factible enviar datos de correccion para este tipo de datos aleatorios en aplicaciones de codificacion que requieren bajas tasas de bits. Por consiguiente, es necesario comprender los efectos perceptuales del espectro de fase y hallar metricas para su descripcion. En las siguientes secciones se tratan estos asuntos.

5 Significado del espectro de fase en el dominio OMF

Con frecuencia se cree que el mdice de la banda de frecuencia define la frecuencia de un unico componente tonal,

5

10

15

20

25

30

35

40

45

50

55

60

la magnitud define su nivel y la fase define su 'temporizacion'. Sin embargo, el ancho de banda de una banda QMF es relativamente grande y los datos se sobremuestrean. Por consiguiente, es en realidad la interaccion entre las piezas de tiempo-frecuencia (es decir, los segmentos de QMF) lo que define todas estas propiedades.

En la Figura 5 se muestra una presentacion en el dominio del tiempo de un unico segmento de QMF con tres valores de fase diferentes, es decir, Xmag(3,1) y Xpha(3,1) = 0, n/2 o n El resultado es una funcion de tipo sincronizacion con una longitud de 13,3 ms. La forma exacta de la funcion esta definida por el parametro de fase.

Considerando un caso en que solo una banda de frecuencia es distinta de cero para todas las tramas temporales, es decir,

VnBFJ: = 1.

(3)

Cambiando la fase entre las tramas temporales a un valor fijo a, es decir,

X^(ft, n) = « - 1) + a. (9)

se genera una sinusoide. La senal asf obtenida (es decir, la senal en el dominio del tiempo despues de la transformada QMF inversa) se presenta en la Figura 6 con los siguientes valores a = n/4 (superior) y 3n/4 (inferior). Puede observarse que la frecuencia de la sinusoide se ve afectada por el cambio de fase. A la derecha se muestra el dominio de la frecuencia, en el que el dominio del tiempo de la senal aparece a la izquierda de la Figura 6.

De igual manera, si se selecciona la fase de manera aleatoria, el resultado es un ruido de banda estrecha (vease la Figura 7). Por consiguiente, se puede decir que la fase de un segmento de QMF controla el contenido de frecuencia dentro de la correspondiente banda de frecuencia.

La Figura 8 muestra el efecto descrito con respecto a la Figura 6 en una representacion tiempo frecuencia de cuatro tramas de tiempo y cuatro sub-bandas de frecuencia, donde solo la tercera sub-banda comprende una frecuencia diferente de cero. Esto da lugar a la senal en el dominio de la frecuencia de la Figura 6, representada esquematicamente a la derecha de la Figura 8, y en la representacion en el dominio del tiempo de la Figura 6 representada esquematicamente en la parte inferior de la Figura 8.

Considerando un caso en que solo una trama de tiempo es distinta de cero para todas las bandas de frecuencia, es decir,

Vk3N: xma£(k, 3) = l.

(10)

Cambiando la fase entre las bandas de frecuencia en un valor fijo a, es decir,

imagen2

se crea un transitorio. La senal asf obtenida (es decir, la senal en el dominio del tiempo despues de la transformada QMF inversa) se presenta en la Figura 9 con valores a = n/4 (superior) y 3n/4 (inferior). Se puede apreciar que la posicion temporal del transitorio se ve afectada por el cambio de la fase. El dominio de la frecuencia aparece a la derecha de la Figura 9, en el que el dominio del tiempo aparece a la izquierda de la Figura 9.

De manera correspondiente, si se selecciona la fase de manera aleatoria, el resultado es una corta rafaga de ruido (vease la Figura 10). Por consiguiente, se puede decir que la fase de un segmento de QMF tambien controla las posiciones temporales de los armonicos dentro de la correspondiente trama de tiempo.

La Figura 11 muestra un diagrama de tiempo frecuencia similar al diagrama de tiempo frecuencia mostrado en la Figura 8. En la Figura 11, solo la tercera trama de tiempo comprende valores diferentes de cero con un desplazamiento temporal de n/4 de una sub-banda a otra. Transformada al dominio de la frecuencia, se obtiene la senal en el dominio de la frecuencia de la derecha de la Figura 9, esquematicamente presentada a la derecha de la Figura 11. En la parte inferior de la Figura 11 se muestra un grafico esquematico de una representacion en el dominio del tiempo de la parte izquierda de la Figura 9. Esta senal se produce como resultado de la transformacion de una senal en el dominio de tiempo frecuencia al dominio del tiempo.

6 Medidas para describir propiedades perceptualmente relevantes del espectro de fase

Como se describe en la Seccion 4, el espectro de fase en sf parece bastante desorganizado y es diffcil observar

5

10

15

20

25

30

35

40

45

50

55

60

directamente cual es su efecto sobre la percepcion. La Seccion 5 presento dos efectos que pueden provocarse por la manipulacion del espectro de fase en el dominio QMF: (a) el cambio de fase constante en el tiempo produce una sinusoide y la cantidad de cambio de la fase controla la frecuencia de la sinusoide y (b) el cambio de fase constante en la frecuencia produce un transitorio y la cantidad de cambio de la fase controla la posicion temporal del transitorio.

La frecuencia y la posicion temporal de un parcial son, evidentemente, significativas para la percepcion humana, por lo que la deteccion de estas propiedades es potencialmente provechosa. Se pueden estimar calculando la derivada de la fase en el tiempo (PDT)

+ 1)-XPha(k,n) (12)

y calculando la derivada de la fase en la frecuencia (PDF)

X^f{k,n) = *fj}Ld(/c + l,n) -(13)

Xpdt(k,n) esta asociado a la frecuencia y Xpdf(k,n) a la posicion temporal de un parcial. Debido a las propiedades del analisis de QMF (como coinciden las fases de los moduladores de las tramas temporales adyacentes en la posicion de un transitorio), n se suma a las tramas temporales uniformes de Xpdf(k,n) en las figuras para fines de visualizacion para producir curvas lisas.

A continuacion se investiga el aspecto de estas medidas en nuestras senales de ejemplo. La Figura 12 muestra las derivadas para las senales de violin y trombon. Mas espedficamente, la Figura 12a muestra una derivada de la fase en el tiempo Xpdt(k,n) de la senal de audio de violfn original, es decir sin procesar, en el dominio QMF. La Figura 12b muestra una derivada de fase correspondiente en la frecuencia Xpdf(k,n). Las Figuras 12c y 12d muestran la derivada de la fase en el tiempo y la derivada de la fase en la frecuencia correspondiente a una senal de trombon, respectivamente. El gradiente de color indica valores de fase de rojo = n a azul = -n. En el caso del violrn el espectro de magnitud es basicamente de ruido hasta transcurrir aproximadamente 0,13 segundos (vease la Figura 1) y por lo tanto las derivadas tambien tienen ruido. A partir de aproximadamente 0,13 segundos Xpdt parece tener valores relativamente estables en el tiempo. Esto significarfa que la senal contiene fuertes sinusoides relativamente estables. Las frecuencias de estas sinusoides se determinan por los valores de Xpdt. Por el contrario, la representacion de Xpdf parece tener relativamente ruido, por lo que no se encuentran datos relevantes para el violfn utilizandolo.

En el caso del trombon Xpdt tiene relativamente ruido. Por el contrario, la Xpdf parece tener aproximadamente el mismo valor en todas las frecuencias. En la practica, esto significa que todos los componentes armonicos estan alineados en el tiempo produciendo una senal de tipo transitorio. Las ubicaciones temporales de los transitorios se determinan por los valores de Xpdf.

Tambien se pueden calcular las mismas derivadas para las senales procesas por SBR Z(k,n) (vease la Figura 13). Las Figuras 13a a 13d estan relacionadas directamente con las Figuras 12a a 12d, derivadas mediante el uso del algoritmo de SBR por copiado directo anteriormente descrito. Como el espectro de fase se copia simplemente de la banda base a los parches mas altos, las PDT de los parches de frecuencia son identicas a los de la banda base. Por consiguiente, en el caso del violrn la PDT esta relativamente alisada en el tiempo, produciendo sinusoides estables, como en el caso de la senal original. Sin embargo, los valores de Zpdt son diferentes de los encontrados en la senal original Xpdt, que provoca que las sinusoides producidas tengan diferentes frecuencias que en la senal original. Se describe el efecto perceptual de esto en la Seccion 7.

En consecuencia, la PDF de los parches de frecuencia es de lo contrario identica a la de la banda base, aunque en la practica, a las frecuencias de cruce, la PDF es bastante aleatoria. A la frecuencia de cruce, la PDF se calcula en realidad entre el ultimo y el primer valor de fase del parche de frecuencia, es decir,

^(7, n) = n) - ZP*1" (7. n) = r (1P n- 0 - ^ nl,fl (6.«J) (14)

Estos valores dependen de la PDF real y de la frecuencia de cruce, y no coinciden con los valores de la senal original.

En el caso del trombon, los valores de PDF de la senal copiada son correctos, aparte de las frecuencias de cruce. Por consiguiente, las ubicaciones temporales de la mayona de los armonicos estan en los lugares correctos, aunque los armonicos estan, a las frecuencias de cruce, en lugares practicamente aleatorios. En la Seccion 7 se explica el efecto perceptual de esto.

7 Percepcion humana de los errores de fase

5

10

15

20

25

30

35

40

45

50

55

60

Los sonidos se pueden dividir, a grandes rasgos, en dos categonas: senales armonicas y similares a ruido. Las senales similares a ruido tienen, ya por definicion, propiedades de fases con ruido. Por consiguiente, se supone que los errores de fase provocados por la SBR no son perceptualmente significativos en ellas. Por el contrario, se concentran en las senales armonicas. La mayona de los instrumentos musicales, asf como la voz, producen estructuras armonicas en la senal, es decir que el tono contiene fuertes componentes sinusoides espaciados en la frecuencia por la frecuencia fundamental.

A menudo se supone que la audicion humana se comporta como si contuviera un banco de filtros de paso banda solapados, denominado como los filtros auditivos. Por consiguiente, se puede suponer que la audicion trata sonidos complejos de manera tal como se analicen los sonidos dentro del filtro auditivo como una sola entidad. La anchura de estos filtros puede aproximarse para seguir el ancho de banda rectangular equivalente (ERB) [11], que se puede determinar de acuerdo con

ERB = 24,7(4,37/c + 1), (15)

donde fc es la frecuencia central de la banda (en kHz). Como se analizara en la Seccion 4, la frecuencia de cruce entre la banda base y los parches de SBR es de alrededor de 3 kHz. A estas frecuencias el ERB es de aproximadamente 350 Hz. El ancho de banda de una banda de frecuencia QMF es en realidad bastante cercano a este, 375 Hz. Por lo tanto, se puede suponer que el ancho de banda de la banda de las frecuencias QMF sigue el ERB a las frecuencias de interes.

En la Seccion 6 se observaron dos propiedades de un sonido que pueden fallar debido al espectro de fase erroneo: la frecuencia y la temporizacion de un componente parcial. Concentrandose en la frecuencia, la pregunta es: ^Puede un ser humano percibir las frecuencias de los armonicos individuales? Si puede, a continuacion el desplazamiento de la frecuencia causado por la SBR debe corregirse; y si no, la correccion no es necesaria.

Se puede utilizar el concepto de armonicos resueltos y sin resolver [12] para aclarar este asunto. Si hay solo un armonico dentro del ERB, el armonico se denomina resuelto. Por lo general se supone que la audicion humana procesa los armonicos resueltos en forma individual y, por consiguiente, es sensible a la frecuencia de ellos. En la practica, se percibe que el cambio de la frecuencia de los armonicos resueltos causa desarmoma.

En consecuencia, si hay multiples armonicos dentro del ERB, los armonicos se denominan no resueltos. Se supone que la audicion humana no procesa estos armonicos en forma individual sino que, por el contrario, su efecto conjunto es percibido por el sistema auditivo. El resultado es una senal periodica y la duracion del penodo se determina espaciando los armonicos. La percepcion de tono esta asociada a la duracion del penodo, por lo que se supone que la audicion humana es sensible a la misma. De todos modos, si todos los armonicos dentro del parche de frecuencia en la SBR se desplazan en la misma cantidad, el espaciamiento entre los armonicos, y por consiguiente el tono percibido se mantiene inalterado. Por lo tanto, en el caso de los armonicos no resueltos, la audicion humana no percibe los desplazamientos de frecuencia como desarmoma.

A continuacion se consideran los errores relacionados con la temporizacion causados por la SBR. Por temporizacion se hace referencia a la posicion temporal, o la fase, de un componente armonico. No se debe confundir esto con la fase de un segmento de QMF. La percepcion de los errores relacionados con la temporizacion se estudio en detalle en [13]. Se observo que, en el caso de la mayona de las senales, la audicion humana no es sensible a la temporizacion, o la fase, de los componentes armonicos. Sin embargo, hay ciertas senales con las cuales la audicion humana es muy sensible a la temporizacion de los parciales. Las senales incluyen, por ejemplo, sonidos de trombon y trompeta y voz humana. Con estas senales, se produce un determinado angulo de fase en el mismo instante de tiempo con todos los armonicos. Se simulo la velocidad de descarga neural de diferentes bandas auditivas en [13]. Se descubrio que con estas senales sensibles a las fases la velocidad de descarga neural tiene picos en todas las bandas auditivas y que los picos se alinean en el tiempo. Cambiando la fase de incluso un unico armonico puede cambiar la generacion de picos de la velocidad de descarga neural con estas senales. De acuerdo con los resultados de la prueba de escucha formal, la audicion humana es sensible a esto [13]. Los efectos producidos son la percepcion de un componente sinusoide agregado o un ruido de banda estrecha a las frecuencias donde se modifico la fase.

Ademas, se descubrio que la sensibilidad a los efectos relacionados con la temporizacion depende de la frecuencia fundamental del tono del armonico [13]. Cuanto menor es la frecuencia fundamental, mayores son los efectos percibidos. Si la frecuencia fundamental es superior a aproximadamente 800 Hz, el sistema auditivo no es sensible en absoluto a los efectos asociados a la temporizacion.

Por consiguiente, si la frecuencia fundamental es baja y si la fase de los armonicos esta alineada en la frecuencia (lo que significa que las posiciones temporales de los armonicos estan alineadas), los cambios de temporizacion, o en otras palabras de la fase, de los armonicos pueden percibirse por la audicion humana. Si la frecuencia fundamental

5

10

15

20

25

30

35

40

45

50

55

60

es alta y/o la fase de los armonicos no esta alineada en la frecuencia, la audicion humana no es sensible a los cambios de temporizacion de los armonicos.

8 Metodos de correccion

En la Seccion 7, se observo que los seres humanos son sensibles a los errores en las frecuencias de los armonicos resueltos. Ademas, los seres humanos son sensibles a los errores en las posiciones temporales de los armonicos si la frecuencia fundamental es baja y si los armonicos se alinean en la frecuencia. La SBR puede causar ambos errores, como se menciona en la Seccion 6, por lo que se puede mejorar la calidad percibida corrigiendolos. En esta seccion se sugieren metodos para hacerlo.

La Figura 14 ilustra esquematicamente la idea basica de los metodos de correccion. La Figura 14a muestra esquematicamente cuatro fases 45a-d de, por ejemplo las tramas de tiempo o sub-bandas de frecuencia subsiguientes, en un cfrculo unitario. Las fases 45a-d estan igualmente espaciadas a 90°. La Figura 14b muestra las fases despues del procesamiento por SBR y, en lmea discontinua, las fases corregidas. La fase 45a antes del procesamiento se puede desplazar al angulo de la fase 45a'. Lo mismo se aplica a las fases 45b a 45d. Se muestra que la diferencia entre las fases despues del procesamiento, es decir la derivada de fase, puede corromperse despues del procesamiento por SBR. Por ejemplo, la diferencia entre las fases 45a' y 45b' es 110° despues del procesamiento por SBR, y era de 90° antes del procesamiento. Los metodos de correccion han de cambiar los valores de fase 45b' por el nuevo valor de fase 45b'' para recuperar la derivada de fase anterior de 90°. La misma correccion se aplica a las fases de 45d' y 45d''.

8.1 Correccion de errores de frecuencia - correccion de la derivada de la fase horizontal

Como se menciona en la Seccion 7, los seres humanos pueden percibir un error en la frecuencia de un armonico mayormente cuando solo hay un armonico dentro de un ERB. Mas aun, se puede utilizar el ancho de banda de una banda de frecuencia QMF para estimar el ERB en el primer cruce. Por lo tanto, la frecuencia ha de corregirse solo cuando hay un armonico dentro de una banda de frecuencia. Esto es muy conveniente, puesto que la Seccion 5 mostro que, si hay un armonico por banda, los valores de PDT producidos son estables, o cambian lentamente en el tiempo, y potencialmente pueden corregirse utilizando una baja tasa de bits.

La Figura 15 muestra un procesador de audio 50 para procesar una senal de audio 55. El procesador de audio 50 comprende un calculador de medidas de fases de las senales de audio 60, un determinador de medidas de la fase objetivo 65 y un corrector de fase 70. El calculador de medidas de fases de las senales de audio 60 esta configurado para calcular una medida de la fase 80 de la senal de audio 55 para una trama de tiempo 75. El determinador de medidas de la fase objetivo 65 esta configurado para determinar una medida de la fase objetivo 85 para dicha trama de tiempo 75. Mas aun, el corrector de fase esta configurado para corregir las fases 45 de la senal de audio 55 para la trama de tiempo 75 empleando la medida de la fase calculada 80 y la medida de la fase objetivo 85 para obtener una senal de audio procesada 90. Opcionalmente, la senal de audio 55 comprende una pluralidad de senales de sub-bandas 95 para la trama de tiempo 75. Se describen otras realizaciones del procesador de audio 50 con respecto a la Figura 16. De acuerdo con una realizacion, el determinador de medidas de la fase objetivo 65 esta configurado para determinar la primera medida de la fase objetivo 85a y la medida de una segunda fase objetivo 85b para la segunda senal de sub-banda 95b. En consecuencia, el calculador de medidas de fases de las senales de audio 60 esta configurada para determinar la primera medida de la fase 80a para la primera senal de sub-banda 95a y la medida de una segunda fase 80b para la segunda senal de sub-banda 95b. El corrector de fase esta configurado para corregir una fase 45a de la primera senal de sub-banda 95a utilizando la primera medida de la fase 80a de la senal de audio 55 y la primera medida de la fase objetivo 85a y para corregir una segunda fase 45b de la segunda senal de sub-banda 95b utilizando la segunda medida de la fase 80b de la senal de audio 55 y la segunda medida de la fase objetivo 85b. Mas aun, el procesador de audio 50 comprende un sintetizador de senales de audio 100 para sintetizar la senal de audio procesada 90 utilizando la primera senal de sub-banda procesada 95a y la segunda senal de sub-banda procesada 95b. De acuerdo con otras realizaciones, la medida de la fase 80 es una derivada de la fase en el tiempo. Por lo tanto, el calculador de medidas de fases de las senales de audio 60 puede calcular, por cada sub-banda 95 de una pluralidad de sub-bandas, la derivada de fase de un valor de fase 45 de una trama de tiempo actual 75b y un valor de fase de una trama de tiempo futuro 75c. En consecuencia, el corrector de fase 70 puede calcular, por cada sub-banda 95 de la pluralidad de sub-bandas de la trama de tiempo actual 75b, una desviacion entre la derivada de fase objetivo 85 y la derivada de la fase en el tiempo 80, en el que se realiza una correccion efectuada por el corrector de fase 70 utilizando la desviacion.

Las realizaciones muestran que el corrector de fase 70 que esta configurado para corregir senales de sub-bandas 95 de diferentes sub-bandas de la senal de audio 55 dentro de la trama de tiempo 75, de tal manera que las frecuencias de las senales de sub-bandas corregidas 95 tengan valores de frecuencia que esten asignados de manera armonica a una frecuencia fundamental de la senal de audio 55. La frecuencia fundamental es la frecuencia mas baja que tiene lugar en la senal de audio 55 o, en otras palabras, los primeros armonicos de la senal de audio 55.

5

10

15

20

25

30

35

40

45

50

55

60

Mas aun, el corrector de fase 70 esta configurado para alisar la desviacion 105 por cada sub-banda 95 de la pluralidad de sub-bandas a lo largo de una trama de tiempo anterior, la trama de tiempo actual, y una trama de tiempo futuro 75a a 75c y esta configurado para reducir los cambios rapidos de la desviacion 105 dentro de una sub- banda 95. De acuerdo con otras realizaciones, el alisado es una media ponderada, donde el corrector de fase 70 esta configurado para calcular la media ponderada a lo largo de las tramas de tiempo anterior, actual y futuro 75a a 75c, ponderada en una magnitud de la senal de audio 55 de las tramas de tiempo anterior, actual y futuro 75a a 75c.

Las realizaciones muestran las etapas de procesamiento anteriormente descritas basandose en vectores. Por lo tanto, el corrector de fase 70 esta configurado para formar un vector de desviaciones 105, en el que un primer elemento del vector se refiere a una primera desviacion 105a para la primera sub-banda 95a de la pluralidad de sub- bandas y un segundo elemento del vector se refiere a una segunda desviacion 105b para la segunda sub-banda 95b de la pluralidad de sub-bandas de una trama de tiempo anterior 75a a una trama de tiempo actual 75b. Mas aun, el corrector de fase 70 puede aplicar el vector de desviaciones 105 a las fases 45 de la senal de audio 55, en el que el primer elemento del vector se aplica a una fase 45a de la senal de audio 55 en una primera sub-banda 95a de una pluralidad de sub-bandas de la senal de audio 55 y el segundo elemento del vector se aplica a una fase 45b de la senal de audio 55 en una segunda sub-banda 95b de la pluralidad de sub-bandas de la senal de audio 55.

Desde otro punto de vista, se puede afirmar que todo el procesamiento realizado en el procesador de audio 50 se basa en vectores, en el que cada vector representa una trama de tiempo 75, en el que cada sub-banda 95 de la pluralidad de sub-bandas comprende un elemento del vector. Otras realizaciones se concentran en el determinador de medidas de la fase objetivo que esta configurado para obtener una estimacion de la frecuencia fundamental 85b para una trama de tiempo actual 75b, en el que el determinador de medidas de la fase objetivo 65 esta configurado para calcular una estimacion de frecuencia 85 por cada sub-banda de la pluralidad de sub-bandas para la trama de tiempo 75 empleando la estimacion de frecuencia fundamental 85 correspondiente a la trama de tiempo 75. Mas aun, el determinador de medidas de la fase objetivo 65 puede convertir las estimaciones de frecuencia 85 por cada sub-banda 95 de la pluralidad de sub-bandas en una derivada de la fase en el tiempo utilizando un numero total de sub-bandas 95 y una frecuencia de muestreo de la senal de audio 55. Para decirlo mas claramente, se ha de tener en cuenta que la salida 85 del determinador de medidas de la fase objetivo 65 puede ser la estimacion de frecuencia o la derivada de la fase en el tiempo, segun la realizacion. Por lo tanto, en una realizacion, la estimacion de frecuencia ya comprende el formato correcto para el posterior procesamiento en el corrector de fase 70 en el que, en otra realizacion, se ha de convertir la estimacion de frecuencia a un formato adecuado, que puede ser una derivada de la fase en el tiempo.

En consecuencia, el determinador de medidas de la fase objetivo 65 puede observarse tambien como basado en vectores. Por lo tanto, el determinador de medidas de la fase objetivo 65 puede formar un vector de estimaciones de frecuencia 85 por cada sub-banda 95 de la pluralidad de sub-bandas, en el que el primer elemento del vector hace referencia a una estimacion de frecuencia 85a para una primera sub-banda 95a y un segundo elemento del vector hace referencia a una estimacion de frecuencia 85b para una segunda sub-banda 95b. Ademas, el determinador de medidas de la fase objetivo 65 puede calcular la estimacion de frecuencia 85 utilizando multiplos de la frecuencia fundamental, en el que la estimacion de frecuencia 85 de la sub-banda actual 95 es el multiplo de la frecuencia fundamental que mas cerca esta del centro de la sub-banda 95a, o en el que la estimacion de frecuencia 85 de la sub-banda actual es una frecuencia de lfmite de la sub-banda actual 95 si ninguno de los multiplos de la frecuencia fundamental esta dentro de la sub-banda actual 95.

En otras palabras, el algoritmo sugerido para corregir los errores en las frecuencias de los armonicos utilizando el procesador de audio 50 funciona de la siguiente manera. En primer lugar, se calcula la PDT y la senal procesada por SBR Zpdt. Zpdt(k,n) = Zpha(k,n+1) - Zpha(k,n). A continuacion se calcula la diferencia entre esta y una PdT objetivo para la correccion horizontal:

imagen3

En este momento se puede suponer que la PDT objetivo es igual a la PDT de entrada de la senal de entrada

Ztphd'Cff,n) = Xi)d*(Ar,>1y (16b)

Mas adelante se explica como se puede obtener una PDT objetivo con una baja tasa de bits.

Este valor (es decir el valor de error 105) se alisa en el tiempo utilizando una ventana de Hann W(l). La longitud adecuada es, por ejemplo, de 41 muestras en el dominio QMF (que corresponde a un intervalo de 55 ms). El alisado se pondera por la magnitud de las correspondientes piezas de tiempo-frecuencia

Dj(lt,n) = media circular{DPdt(fc,n + V), W{l)ZmaHk,n + /)}, -20 < l < 20, (17)

18

5

10

15

20

25

30

35

40

45

50

55

donde media circular{a,b} indica el calculo de la media circular para los valores angulares a ponderados por los

valores b. El error alisado en la PDT L c> n) se representa en la Figura 17 para la serial de violin en el dominio QMF utilizando SBR por copiado directo. El gradiente de color indica valores de fase de rojo = n a azul = -n.

A continuacion, se genera una matriz moduladora para modificar el espectro de fase para obtener la PDT deseada

1) = (.IS)

El espectro de fase se procesa utilizando esta matriz

* (k. n) ---- ZPh*(_k,n) + (k, n{19}

La Figura 18a muestra el error en la derivada de la fase en el tiempo (PDT)

de la senal de violin en el

dominio QMF en el caso de la SBR corregida. La Figura 18b muestra la derivada de la fase correspondiente en el

7pdi

tiempo ^ch v-“'' "-Jt en el que se derivo el error en la PDT mostrada en la Figura 18a comparando los resultados presentados en la Figura l2a con los resultados presentados en la Figura 18b. Una vez mas, el gradiente de color indica valores de fase de rojo = k a azul = - k. Se calcula la PDT correspondiente al espectro de fase corregido

Zpha(k ri)

(vease la Figura 18b). Puede observarse que la PDT del espectro de fase corregido se asemeja bien a la PDT de la senal original (vease la Figura 12), y el error es pequeno en el caso de las piezas de tiempo-frecuencia que contienen una energfa significativa (vease la Figura 18a). Se puede apreciar que la desarmoma de los datos de SBR no corregidos desaparece en gran parte. Mas aun, el algoritmo no parece causar artefactos significativos.

Utilizando n) como PDT objetivo, es posible transmits los valores de error de PDT ■

por cada pieza

de tiempo-frecuencia. Se describe otra estrategia para calcular la PDT objetivo de tal manera que se reduzca el ancho de banda para la transmision en la Seccion 9.

En otras realizaciones, el procesador de audio 50 puede ser parte de un decodificador 110. Por lo tanto, el decodificador 110 para decodificar una senal de audio 55 puede comprender el procesador de audio 50, un decodificador del nucleo 115, y un generador de parches 120. El decodificador del nucleo 115 esta configurado para decodificar en nucleo una senal de audio 25 en una trama de tiempo 75 con un numero reducido de sub-bandas con respecto a la senal de audio 55. El generador de parches genera un parche para una serie de sub-bandas 95 de la senal de audio decodificada en el nucleo 25 con un numero reducido de sub-bandas, en el que la serie de sub- bandas forma un primer parche 30a, hacia otras sub-bandas de la trama de tiempo 75, adyacentes al numero reducido de sub-bandas, para obtener una senal de audio 55 con un numero uniforme de sub-bandas. Ademas, el procesador de audio 50 esta configurado para corregir las fases 45 dentro de las sub-bandas del primer parche 30a de acuerdo con una funcion objetivo 85. El procesador de audio 50 y la senal de audio 55 se han descrito con respecto a las Figuras 15 y 16, donde se explican los signos de referencia que no aparecen en la Figura 19. El procesador de audio de acuerdo con las realizaciones realiza la correccion de fase. Dependiendo de las realizaciones, el procesador de audio puede comprender ademas una correccion de magnitud de la senal de audio por medio de un aplicador de parametros de ampliacion de ancho de banda 125 aplicando parametros de BWE o SBR a los parches. Mas aun, el procesador de audio puede comprender el sintetizador 100, por ejemplo un banco de filtros de smtesis, para combinar, es decir sintetizar, las sub-bandas de la senal de audio para obtener un archivo de audio normal.

De acuerdo con otras realizaciones, el generador de parches 120 esta configurado para generar parches en una serie de sub-bandas 95 de la senal de audio 25, en el que la serie de sub-bandas forma un segundo parche, hacia otras sub-bandas de la trama de tiempo, adyacentes al primer parche y en el que el procesador de audio 50 esta configurado para corregir la fase 45 dentro de las sub-bandas del segundo parche. Por otro lado, el generador de parches 120 esta configurado para generar parches del primer parche corregido a otras sub-bandas de la trama de tiempo, adyacentes al primer parche.

En otras palabras, en la primera opcion, el generador de parches construye una senal de audio con un numero uniforme de sub-bandas a partir de la parte transmitida de la senal de audio y posteriormente se corrigen las fases de cada parche de la senal de audio. La segunda opcion corrige, en primer lugar, las fases del primer parche con respecto a la parte transmitida de la senal de audio y a continuacion construye la senal de audio con el numero uniforme de sub-bandas con el primer parche ya corregido.

Otras realizaciones muestran el decodificador 110 que comprende un extractor de flujos de datos 130 configurado

19

5

10

15

20

25

30

35

40

45

50

55

60

para extraer una frecuencia fundamental 114 de la trama de tiempo actual 75 de la senal de audio 55 de un flujo de datos 135, en el que el flujo de datos comprende ademas la senal de audio codificada 145 con un numero reducido de sub-bandas. Por otro lado, el decodificador puede comprender un analizador de frecuencia fundamental 150 configurado para analizar la senal de audio decodificada en el nucleo 25 para calcular la frecuencia fundamental 140. En otras palabras, las opciones para derivar la frecuencia fundamental 140 son, por ejemplo, un analisis de la senal de audio en el decodificador o en el codificador, en el que en este ultimo caso la frecuencia fundamental puede ser mas precisa a costa de una tasa de bits mas elevada, puesto que el valor debe transmitirse del codificador al decodificador.

La Figura 20 muestra un codificador 155 para codificar la senal de audio 55. El codificador comprende un codificador nucleo 160 para codificar en nucleo la senal de audio 55 para obtener una senal de audio codificada en nucleo 145 con un numero reducido de sub-bandas con respecto a la senal de audio y el codificador comprende un analizador de frecuencia fundamental 175 para analizar la senal de audio 55 o una version filtrada en paso bajo de la senal de audio 55 para obtener una estimacion de la frecuencia fundamental de la senal de audio. Mas aun, el codificador comprende un extractor de parametros 165 para extraer parametros de sub-bandas de la senal de audio 55 no incluidos en la senal de audio codificada en nucleo 145 y el codificador comprende un formador de senales de salida 170 para formar una senal de salida 135 que comprende la senal de audio codificada en nucleo 145, los parametros y la estimacion de frecuencia fundamental. En esta realizacion, el codificador 155 puede comprender un filtro paso bajo delante del decodificador del nucleo 160 y un filtro paso alto 185 delante del extractor de parametros 165. De acuerdo con otras realizaciones, el formador de senales de salida 170 esta configurado para formar la senal de salida 135 como una secuencia de tramas, en el que cada trama comprende la senal codificada en nucleo 145, los parametros 190, y en el que solo cada enesima trama comprende la estimacion de frecuencia fundamental 140, en el que n > 2. En algunas realizaciones, el codificador nucleo 160 puede ser, por ejemplo un codificador AAC (Codificacion Avanzada de Audio).

En una realizacion alternativa se puede utilizar un codificador con relleno de huecos inteligente para codificar la senal de audio 55. Por lo tanto, el codificador nucleo codifica una senal de audio con ancho de banda total, en la que se omite al menos una sub-banda de la senal de audio. Por lo tanto, el extractor de parametros 165 extrae parametros para reconstruir las sub-bandas omitidas en el proceso de codificacion del codificador nucleo 160.

La Figura 21 muestra una ilustracion esquematica de la senal de salida 135. La senal de salida es una senal de audio que comprende una senal de audio codificada en nucleo 145 con un numero reducido de sub-bandas con respecto a la senal de audio original 55, un parametro 190 que representa las sub-bandas de la senal de audio no incluidas en la senal de audio codificada en nucleo 145, y una estimacion de la frecuencia fundamental 140 de la senal de audio 135 o la senal de audio original 55.

La Figura 22 muestra una realizacion de la senal de audio 135, en la que la senal de audio se forma en una secuencia de tramas 195, en el que cada trama 195 comprende la senal de audio codificada en nucleo 145, los parametros 190, y en el que unicamente cada enesima trama 195 comprende la estimacion de frecuencia fundamental 140, donde n > 2. Esto puede describir la transmision de una estimacion de frecuencia fundamental igualmente espaciada por ejemplo cada trama de orden 20, o en el que la estimacion de frecuencia fundamental se transmite en forma irregular, por ejemplo a demanda o intencionalmente.

La Figura 23 muestra un metodo 2300 para procesar una senal de audio que incluye una etapa 2305 “calcular una medida de fases de una senal de audio para una trama de tiempo con un calculador de derivadas de fases de la senal de audio”, una etapa 2310 “determinar una medida de la fase objetivo para dicha trama de tiempo con un determinador de derivadas de la fase objetivo”, y una etapa 2315 “corregir fases de la senal de audio para la trama de tiempo con un corrector de fase utilizando el calculo de la medida de la fase y la medida de la fase objetivo para obtener una senal de audio procesada”.

La Figura 24 muestra un metodo 2400 para decodificar una senal de audio que incluye una etapa 2405 “decodificar una senal de audio en una trama de tiempo con el numero reducido de sub-bandas con respecto a la senal de audio”, una etapa 2410 “generar parches de una serie de sub-bandas de la senal de audio decodificada con el numero reducido de sub-bandas, en el que la serie de sub-bandas forma un primer parche, hacia otras sub-bandas en la trama de tiempo, adyacentes al numero reducido de sub-bandas, para obtener una senal de audio con un numero uniforme de sub-bandas”, y una etapa 2415 “corregir las fases dentro en las sub-bandas del primer parche de acuerdo con una funcion objetivo con el proceso de audio”.

La Figura 25 muestra un metodo 2500 para codificar una senal de audio que incluye una etapa 2505 “codificar en nucleo la senal de audio con un codificador nucleo para obtener una senal de audio codificada en nucleo con un numero reducido de sub-bandas con respecto a la senal de audio”, una etapa 2510 “analizar la senal de audio o una version filtrada por paso bajo de la senal de audio con un analizador de frecuencia fundamental para obtener una estimacion de la frecuencia fundamental para la senal de audio”, una etapa 2515 “extraer parametros de sub-bandas de la senal de audio no incluidos en la senal de audio codificada en nucleo con un extractor de parametros” y una

5

10

15

20

25

30

35

40

45

50

55

60

etapa 2520 “formar una senal de salida que comprende la senal de audio codificada en nucleo, los parametros y la estimacion de frecuencia fundamental con un formador de senales de salida”.

Los metodos descritos 2300, 2400 y 2500 pueden implementarse en un codigo de programa de un programa informatico para realizar los metodos cuando el programa informatico se ejecuta en un ordenador.

8.2 Correccion de errores temporales - correccion de derivada de la fase vertical

Como se mencionara anteriormente, los seres humanos pueden percibir un error en la posicion temporal de un armonico si los armonicos se sincronizan en la frecuencia y si la frecuencia fundamental es baja. En la Seccion 5 se demostro que los armonicos se sincronizan si la derivada de la fase en la frecuencia es constante en el dominio QMF. Por lo tanto, es ventajoso tener al menos un armonico en cada banda de frecuencia. De lo contrario, las bandas de frecuencia “vadas” tendnan fases aleatorias y perturbanan esta medida. Afortunadamente, los seres humanos son sensibles a la ubicacion temporal de los armonicos solo cuando la frecuencia fundamental es baja (vease la Seccion 7). Por consiguiente, se puede usar la derivada de fase en la frecuencia como medida para determinar los efectos perceptualmente significativos debido a los movimientos temporales de los armonicos.

La Figura 26 muestra un diagrama esquematico de bloques de un procesador de audio 50' para procesar una senal de audio 55, en el que el procesador de audio 50' comprende un determinador de medidas de la fase objetivo 65', un calculador de errores de fase 200 y un corrector de fase 70'. El determinador de medidas de la fase objetivo 65' determina una medida de la fase objetivo 85' para la senal de audio 55 en la trama de tiempo 75. El calculador de errores de fase 200 calcula un error de fase 105' utilizando una fase de la senal de audio 55 en la trama de tiempo 75 y la medida de la fase objetivo 85'. El corrector de fase 70' corrige la fase de la senal de audio 55 en la trama de tiempo utilizando el error de fase 105' formando la senal de audio procesada 90'.

La Figura 27 muestra un diagrama esquematico de bloques del procesador de audio 50' de acuerdo con otra realizacion. Por lo tanto, la senal de audio 55 comprende una pluralidad de sub-bandas 95 para la trama de tiempo 75. En consecuencia, el determinador de medidas de la fase objetivo 65' esta configurado para determinar la primera medida de la fase objetivo 85a' para una primera senal de sub-banda 95a y una segunda medida de fase objetivo 85b' para una segunda senal de sub-banda 95b. El calculador de errores de fase 200 forma un vector de errores de fase 105', en el que un primer elemento del vector hace referencia a una primera desviacion 105a' de la fase de la primera senal de sub-banda 95 y la primera medida de la fase objetivo 85a' y en el que un segundo elemento del vector hace referencia a una segunda desviacion 105b' de la fase de la segunda senal de sub-banda 95b y la segunda medida de la fase objetivo 85b'. Mas aun, el procesador de audio 50' comprende un sintetizador de senales de audio 100 para sintetizar una senal de audio corregida 90' utilizando una primera senal de sub-banda corregida 90a' y una segunda senal de sub-banda corregida 90b'.

Con respecto a otras realizaciones, la pluralidad de sub-bandas 95 se agrupa en una banda base 30 y una serie de parches de frecuencia 40, comprendiendo la banda base 30 una sub-banda 95 de la senal de audio 55 y la serie de parches de frecuencia 40 comprende dicha al menos una sub-banda 95 de la banda base 30 a una frecuencia mas elevada que la frecuencia de la al menos una sub-banda en la banda base. Debe tenerse en cuenta que la generacion de parches de la senal de audio ya se ha descrito con respecto a la Figura 3 y por lo tanto no se describe en detalle en esta parte de la descripcion. Solo basta mencionar que los parches de frecuencia 40 pueden consistir en la senal sin procesar de banda base a mayores frecuencias multiplicadas por un factor de ganancia, en la que se puede aplicar la correccion de fase. Mas aun, de acuerdo con una realizacion preferida la multiplicacion de la ganancia y la correccion de fase pueden conmutarse de tal manera que las fases de la senal sin procesar de banda base se copien a las mayores frecuencias antes de multiplicarlas por el factor de ganancia. La realizacion muestra ademas el calculador de errores de fase 200 que calcula una media de los elementos de un vector de errores de fase 105' con referencia a un primer parche 40a de la serie de parches de frecuencia 40 para obtener un error de fase promedio 105''. Mas aun, se muestra un calculador de derivadas de fases de la senal de audio 210 para calcular una media de las derivadas de fases en la frecuencia 215 para la banda base 30.

La Figura 28a muestra una descripcion mas detallada del corrector de fase 70' en un diagrama de bloques. El corrector de fase 70' en la parte superior de la Figura 28a esta configurado para corregir una fase de las senales de sub-bandas 95 en el primer parche y subsiguientes parches de frecuencia 40 de la serie de parches de frecuencia. En la realizacion de la Figura 28a se muestra que las sub-bandas 95c y 95d pertenecen al parche 40a y las sub- bandas 95e y 95f pertenecen al parche de frecuencia 40b. Las fases se corrigen utilizando un error de fase promedio ponderado, en el que el error de fase promedio 105 se pondera de acuerdo con un mdice del parche de frecuencia 40 para obtener una senal de parche modificada 40'.

Otra realizacion se muestra en la parte inferior de la Figura 28a. En la esquina superior izquierda del corrector de fase 70' se presenta la realizacion ya descrita para obtener la senal de parche modificada 40' a partir de los parches 40 y el error de fase promedio 105''. Mas aun, el corrector de fase 70' calcula, en una etapa de inicializacion, una senal de parche modificada adicional 40'' con un primer parche de frecuencia optimizado sumando la media de las

5

10

15

20

25

30

35

40

45

50

55

60

derivadas de fases en la frecuencia 215, ponderada en un mdice de sub-banda actual, a la fase de la senal de sub- banda con un mdice de sub-banda mas elevado en la banda base 30 de la senal de audio 55. Para este paso de inicializacion, el conmutador 220a esta en su posicion izquierda. Para cualquier paso de procesamiento posterior, el conmutador debe estar en la otra posicion, formando una conexion en direccion vertical.

En otra realizacion, el calculador de derivadas de fases de la senal de audio 210 esta configurado para calcular una media de las derivadas de fases en la frecuencia 215 para una pluralidad de senales de sub-bandas que comprenden frecuencias mas altas que la senal de banda base 30 para detectar transitorios en la senal de sub- banda 95. Se debe tener en cuenta que la correccion de transitorios es similar a la correccion de fase vertical del procesador de audio 50' con la diferencia de que las frecuencias de la banda base 30 no reflejan las frecuencias mas altas de un transitorio. Por lo tanto, estas frecuencias deben tenerse en cuenta para la correccion de fase de un transitorio.

Despues de la etapa de inicializacion, el corrector de fase 70' esta configurado para actualizar de manera recursiva, basandose en los parches de frecuencia 40, la senal de parche modificada 40'' adicional sumando la media de las derivadas de fases en la frecuencia 215, ponderada con un mdice de sub-banda de la sub-banda actual 95, a la fase de la senal la sub-banda con el mdice de sub-banda mas elevado del parche de frecuencia anterior. La realizacion preferida es una combinacion de las realizaciones anteriormente descritas, donde el corrector de fase 70' calcula una media ponderada de la senal de parche modificada 40' y la senal de parche modificada 40'' adicional para obtener una senal de parche modificada combinada 40'''. Por lo tanto, el corrector de fase 70' actualiza de manera recursiva, basandose en los parches de frecuencia 40, una senal de parche modificada combinada 40''' sumando la media de las derivadas de fases en la frecuencia 215, ponderada con un mdice de sub-banda de la sub-banda actual 95 a la fase de la senal la sub-banda con el mdice de sub-banda mas elevado del parche de frecuencia anterior de la senal de parche modificada combinada 40'''. Para obtener los parches modificados combinados 40a''', 40b''', etc., el conmutador 220b se desplaza a la siguiente posicion despues de cada recursion, comenzando por la modificada combinada 48''' para la etapa de inicializacion, conmutando al parche modificado combinado 40b''' despues de la primera recursion y asf sucesivamente.

Mas aun, el corrector de fase 70' puede calcular una media ponderada de una senal de parche 40' y la senal de parche modificada 40'' utilizando una media circular de la senal de parche 40' en el parche de frecuencia actual ponderado con una primera funcion de ponderacion espedfica y la senal de parche modificada 40'' en el parche de frecuencia actual ponderado con una segunda funcion de ponderacion espedfica.

Para proporcionar una interoperabilidad entre el procesador de audio 50 y el procesador de audio 50', el corrector de fase 70' puede formar un vector de desviaciones de fase, en el que las desviaciones de fase se calculan utilizando una senal de parche modificada combinada 40''' y la senal de audio 55.

La Figura 28b muestra las etapas de la correccion de fase desde otro punto de vista. Para una primer trama de tiempo 75a, se deriva la senal de parche 40' aplicando el primer modo de correccion de fase a los parches de la senal de audio 55. La senal de parche 40' se utiliza en el paso de inicializacion del segundo modo de correccion para obtener la senal de parche modificada 40''. Una combinacion de la senal de parche 40' y la senal de parche modificada 40'' da como resultado una senal de parche modificada combinada 40'''.

El segundo modo de correccion se aplica, por lo tanto, a la senal de parche modificada combinada 40''' para obtener la senal de parche modificada 40'' para la segunda trama de tiempo 75b. Ademas, el primer modo de correccion se aplica a los parches de la senal de audio 55 en la segunda trama de tiempo 75b para obtener la senal de parche 40'. Una vez mas, una combinacion de la senal de parche 40' y la senal de parche modificada 40'' da como resultado la senal de parche modificada combinada 40'''. Se aplica el esquema de procesamiento descrito para la segunda trama de tiempo a la tercera trama de tiempo 75c y, en consecuencia, a cualquier otra trama de tiempo de la senal de audio 55.

La Figura 29 muestra un diagrama de bloques detallado del determinador de medidas de la fase objetivo 65'. De acuerdo con una realizacion, el determinador de medidas de la fase objetivo 65' comprende un extractor de flujos de datos 130' para extraer una posicion de pico 230 y una frecuencia fundamental de las posiciones de los picos 235 en una trama de tiempo actual de la senal de audio 55 de un flujo de datos 135. Por otro lado, el determinador de medidas de la fase objetivo 65' comprende un analizador de senales de audio 225 para analizar la senal de audio 55 en la trama de tiempo actual para calcular una posicion de pico 230 y una frecuencia fundamental de las posiciones de los picos 235 en la trama de tiempo actual. Ademas, el determinador de medidas de la fase objetivo comprende un generador de espectro objetivo 240 para estimar posiciones de los picos adicionales en la trama de tiempo actual utilizando la posicion de pico 230 y la frecuencia fundamental de las posiciones de los picos 235.

La Figura 30 ilustra un diagrama de bloques detallado del generador de espectro objetivo 240 descrito en la Figura 29. El generador de espectro objetivo 240 comprende un generador de picos 245 para generar un tren de pulsos 265 en el tiempo. Un formador de senales 250 ajusta una frecuencia del tren de pulsos de acuerdo con la frecuencia

5

10

15

20

25

30

35

40

45

50

55

60

fundamental de las posiciones de los picos 235. Mas aun, un posicionador de pulsos 255 ajusta la fase del tren de pulsos 265 de acuerdo con la posicion de pico 230. En otras palabras, el formador de senales 250 cambia la forma de una frecuencia aleatoria del tren de pulsos 265 de tal manera que la frecuencia del tren de pulsos sea igual a la frecuencia fundamental de las posiciones de los picos de la senal de audio 55. Mas aun, el posicionador de pulsos 255 desplaza la fase del tren de pulsos de tal manera que uno de los picos del tren de pulsos sea igual a la posicion de pico 230. Seguidamente, un analizador de espectro 260 genera un espectro de fase del tren de pulsos ajustado, en el que el espectro de fase de la senal en el dominio del tiempo es la medida de la fase objetivo 85'.

La Figura 31 muestra un diagrama esquematico de bloques de un decodificador 110' para decodificar una senal de audio 55. El decodificador 110 comprende un decodificador en nucleo 115 configurado para decodificar una senal de audio 25 en una trama de tiempo de la banda base, y un generador de parches 120 para distribuir una serie de sub- bandas 95 de la banda base decodificada, en el que la serie de sub-bandas forma un parche, hacia otras sub- bandas de la trama de tiempo, adyacentes a la banda base, para obtener una senal de audio 32 que comprende frecuencias superiores a las frecuencias de la banda base. Mas aun, el decodificador 110' comprende un procesador de audio 50' para corregir fases de las sub-bandas del parche de acuerdo con una medida de la fase objetivo.

De acuerdo con otra realizacion, el generador de parches 120 esta configurado para generar parches a la serie de sub-bandas 95 de la senal de audio 25, donde la serie de sub-bandas forma otro parche, hacia otras sub-bandas de la trama de tiempo, adyacentes al parche, y en el que el procesador de audio 50' esta configurado para corregir las fases dentro de las sub-bandas del parche adicional. Por otro lado, el generador de parches 120 esta configurado para generar parches al parche corregido a otras sub-bandas de las tramas de tiempo adyacentes al parche.

Otra realizacion se refiere a un decodificador para decodificar una senal de audio que comprende un transitorio, en el que el procesador de audio 50' esta configurado para corregir la fase del transitorio. El tratamiento de los transitorios se describe en otras palabras en la Seccion 8.4. Por lo tanto, el decodificador 110 comprende un procesador de audio adicional 50' para recibir otra derivada de fase de una frecuencia y para corregir los transitorios de la senal de audio 32 utilizando la derivada de fase o la frecuencia recibida. Mas aun, se debe apreciar que el decodificador 110' de la Figura 31 es similar al decodificador 110 de la Figura 19, de manera que la descripcion con respecto a los elementos principales es mutuamente intercambiable en los casos no relacionados a las diferencia de los procesadores de audio 50 y 50'.

La Figura 32 muestra un codificador 155' para codificar una senal de audio 55. El codificador 155' comprende un codificador nucleo 160, un analizador de la frecuencia fundamental 175', un extractor de parametros 165 y un formador de senales de salida 170. El codificador nucleo 160 esta configurado para codificar en nucleo la senal de audio 55 para obtener una senal de audio codificada en nucleo 145 con un numero reducido de sub-bandas con respecto a la senal de audio 55. El analizador de la frecuencia fundamental 175' analiza las posiciones de los picos 230 en la senal de audio 55 o una version filtrada por paso bajo de la senal de audio para obtener una estimacion de la frecuencia fundamental de las posiciones de los picos 235 en la senal de audio. Mas aun, el extractor de parametros 165 extrae los parametros 190 de las sub-bandas de la senal de audio 55 no incluidos en la senal de audio codificada en nucleo 145 y el formador de senales de salida 170 forma una senal de salida 135 que comprende la senal de audio codificada en nucleo 145, los parametros 190, la frecuencia fundamental de las posiciones de los picos 235 y una de las posiciones de los picos 230. De acuerdo con algunas realizaciones, el formador de senales de salida 170 esta configurado para formar la senal de salida 135 en la configuracion de secuencia de tramas, donde cada trama comprende la senal de audio codificada en nucleo 145, los parametros 190, y en el que unicamente cada enesima trama comprende la estimacion de frecuencia fundamental de las posiciones de los picos 235 y la posicion de pico 230, en el que n > 2.

La Figura 33 muestra una realizacion de la senal de audio 135 que comprende una senal de audio codificada en nucleo 145 que comprende un numero reducido de sub-bandas con respecto a la senal de audio original 55, el parametro 190 que representa las sub-bandas de la senal de audio no incluidas en la senal de audio codificada en nucleo, una estimacion de la frecuencia fundamental de las posiciones de los picos 235, y una estimacion de las posiciones de los picos 230 de la senal de audio 55. Por otro lado, la senal de audio 135 adopta la forma de una secuencia de tramas, donde cada trama comprende la senal de audio codificada en nucleo 145, los parametros 190, y en el que unicamente cada enesima trama comprende la estimacion de la frecuencia fundamental de las posiciones de los picos 235 y la posicion de pico 230, en el que n > 2. El concepto ya se ha descrito con respecto a la Figura 22.

La Figura 34 muestra un metodo 3400 para procesar una senal de audio con un procesador de audio. El metodo 3400 comprende una etapa 3405 “determinar una medida de la fase objetivo para la senal de audio en una trama de tiempo con una medida de la fase objetivo”, una etapa 3410 “calcular un error de fase con un calculador de errores de fase utilizando la fase de la senal de audio en la trama de tiempo y la medida de la fase objetivo” y una etapa 3415 “corregir la fase de la senal de audio en la trama de tiempo con una fase corregida utilizando el error de fase”.

La Figura 35 muestra un metodo 3500 para decodificar una senal de audio con un decodificador. El metodo 3500

5

10

15

20

25

30

35

40

45

50

55

comprende una etapa 3505 “decodificar una senal de audio en una trama de tiempo de la banda base con un decodificador del nucleo”, una etapa 3510 “generar parches para una serie de sub-bandas de la banda base decodificada con un generador de parches, en el que la serie de sub-bandas forma un parche, hacia otras sub- bandas de la trama de tiempo, adyacentes a la banda base, para obtener una senal de audio que comprende frecuencias superiores a las frecuencias de la banda base” y una etapa 3515 “corregir las fases con las sub-bandas del primer parche con un procesador de audio de acuerdo con una medida de la fase objetivo”.

La Figura 36 muestra un metodo 3600 para codificar una senal de audio con un codificador. El metodo 3600 comprende una etapa 3605 “codificar en nucleo la senal de audio con un codificador nucleo para obtener una senal de audio codificada en nucleo con un numero reducido de sub-bandas con respecto a la senal de audio”, una etapa 3610 “analizar la senal de audio o una version filtrada en paso bajo de la senal de audio con un analizador de la frecuencia fundamental para obtener una estimacion de la frecuencia fundamental de las posiciones de los picos en la senal de audio”, una etapa 3615 “extraer los parametros de las sub-bandas de la senal de audio no incluidas en la senal de audio codificada en nucleo con un extractor de parametros” y una etapa 3620 “formar una senal de salida con un formador de senales de salida que comprende la senal de audio codificada en nucleo, los parametros, la frecuencia fundamental de las posiciones de los picos y la posicion de pico”.

En otras palabras, el algoritmo sugerido para corregir los errores en las posiciones temporales de los armonicos funciona de la siguiente manera. En primer lugar, se calcula una diferencia entre los espectros de fase de la serial

objetivo y la senal procesada por SBR

imagen4

D^(ktn) - Z]:h;,(k,n) - Z^(k.n), (20a)

lo que se representa en la Figura 37. La Figura 37 muestra el error en el espectro de fase Dpha(k,n) de la senal de trombon en el dominio QMF utilizando SBR por copiado directo. En este punto se puede suponer que el espectro de la fase objetivo es igual al de la senal de entrada

(20b)

Mas adelante se presenta como se puede obtener el espectro de la fase objetivo con una baja tasa de bits.

Se realiza la correccion de la derivada de la fase vertical utilizando dos metodos y se obtiene el espectro de la fase final corregido como una mezcla de estos.

En primer lugar, se puede apreciar que el error es relativamente constante dentro del parche de frecuencia, y el error salta a un nuevo valor cuando entra un nuevo parche de frecuencia. Esto tiene sentido, puesto que la fase cambia con un valor constante en la frecuencia a todas las frecuencias en la senal original. El error se forma en el cruce y el error se mantiene constante dentro del parche. Por consiguiente, basta con un solo valor para corregir el error de fase de la totalidad del parche de frecuencia. Mas aun, el error de fase de los parches de frecuencia mas elevada puede corregirse utilizando este mismo valor de error una vez multiplicado por el numero mdice del parche de frecuencia.

Por lo tanto, se calcula la media circular del error de fase para el primer parche de frecuencia

Dgyff(n) = media circular | Opha(fc, n)},8 < k < 13. (21’

Se puede corregir el espectro de fase utilizandolo

- KP*“Cfc.n.O-i-

(22)

Esta correccion sin procesar produce un resultado exacto si la PDF objetivo, por ejemplo la derivada de la fase en la frecuencia Xpdf(k,n), es exactamente constante en todas las frecuencias. Sin embargo, como se puede observar en la Figura 12, con frecuencia hay una ligera fluctuacion del valor de la frecuencia. Por consiguiente, se pueden obtener mejores resultados utilizando un procesamiento mejorado en los cruces para evitar toda discontinuidad en la PDF producida. En otras palabras, esta correccion produce valores correctos para la PDF en terminos generales, aunque podria haber leves discontinuidades en las frecuencias de cruce de los parches de frecuencia. Para

evitarlas, se aplica el metodo de correccion. El espectro de fase corregido final mezcla de dos metodos de correccion.

y-pha

' CV

(k, n, t)

se obtiene como una

5

10

15

20

25

30

35

40

45

El otro metodo de correccion se inicia calculando una media de la PDF en la banda base

,pdf

avg

(n) = media circular |x^gSfe(/<,n)j.

El espectro de fase puede corregirse utilizando esta medida suponiendo que la fase cambia con este valor promedio, es decir,

imagen5

y-pha

donde 1cv es la serial de parche combinada de los dos metodos de correccion.

Esta correccion proporciona buena calidad en los cruces, aunque puede causar una oscilacion en la PDF hacia mayores frecuencias. Para evitarlo, se combinan los dos metodos de correccion calculando una media circular ponderada de estos

Y^v (k, n, i) = media circular Y^vl2(k, n, i, c), WfC(k, c)

Iv-pha y-pha

‘cvi orcv2 y l/l/fc(k,c) es la funcion de ponderacion

imagen6

„pna/, . \

El espectro de fase obtenido rcv n> lJ no adolece de discontinuidades ni oscilaciones. El error en comparacion con el espectro original y la PDF del espectro de fase corregido se representan en la Figura 38. La Figura 38a

jp. p ha / i ■\

muestra el error en el espectro de fase IJcv de la serial de trombon en el dominio QMF utilizando la serial de

fase SBR corregida, en el que la Figura 38b muestra la derivada de la fase correspondiente en la frecuencia

?pdf

'cv

(k, ri)

Se puede apreciar que el error es significativamente menor que sin la correccion y la PDF no presenta discontinuidades de consideracion. Hay errores significativos en ciertas tramas temporales, aunque estos intervalos tienen baja energfa (vease la Figura 4), por lo que tienen un efecto perceptual insignificante. Los intervalos temporales con energfa significativa se corrigen relativamente bien. Puede observarse que los artefactos de la SBR no corregida se mitigan significativamente.

7pna(k rrl

El espectro de fase corregido cv Se obtiene concatenando los parches de frecuencia corregidos

ypha^,

. Para que sea compatible con el modo de correccion horizontal, la correccion de fase vertical se puede presentar asimismo utilizando una matriz moduladora (vease la Ec. 18)

Q^a{k,n)

8.3 Conmutacion entre diferentes metodos de correccion de fase

(26b)

Las Secciones 8.1 y 8.2 demostraron que los errores de fase inducidos por la SBR se pueden corregir aplicando la correccion de PDT al violfn y la correccion de PDF al trombon. Sin embargo, no se considero como saber cual de las correcciones se debe aplicar a una serial desconocida, o si se debe aplicar una de ellas. Esta seccion propone un metodo para seleccionar automaticamente la direccion de correccion. La direccion de correccion (horizontal/vertical) se decide basandose en la variacion de la derivada de fases de la senal de entrada.

Por lo tanto, en la Figura 39, se muestra un calculador para determinar datos de correccion de fase para una senal de audio 55. El determinador de variaciones 275 determina la variacion de una fase 45 de la senal de audio 55 en un primero y en un segundo modo de variacion. El comparador de variaciones 280 compara una primera variacion 290a que se determina utilizando el primer modo de variacion y una segunda variacion 290b que se determina utilizando

5

10

15

20

25

30

35

40

45

50

55

60

el segundo modo de variacion y un calculador de datos de correccion calcula los datos de correccion de fase 295 de acuerdo con el primer modo de variacion o el segundo modo de variacion basandose en un resultado del comparador.

Mas aun, el determinador de variaciones 275 puede estar configurado para determinar una medida de la desviacion tfpica de una derivada de la fase en el tiempo (PDT) para una pluralidad de tramas de tiempo de la senal de audio 55 como la variacion 290a de la fase en el primer modo de variacion y para determinar una medida de la desviacion tfpica de una derivada de la fase en la frecuencia (PDF) para una pluralidad de sub-bandas de la senal de audio 55 como la variacion 290b de la fase en el segundo modo de variacion. Por lo tanto, el comparador de variaciones 280 compara la medida de la derivada de la fase en el tiempo como primera variacion 290a y la medida de la derivada de la fase en la frecuencia como una segunda variacion 290b para las tramas de tiempo de la senal de audio.

Las realizaciones muestran el determinador de variaciones 275 para determinar una desviacion tfpica circular de una derivada de la fase en el tiempo de un intervalo actual y una pluralidad de intervalos anteriores de la senal de audio 55 como la medida de desviacion tfpica y para determinar una desviacion tfpica circular de una derivada de la fase en el tiempo del intervalo actual y una pluralidad de intervalos futuros de la senal de audio 55 para una trama de tiempo actual como medida de la desviacion tipica. Mas aun, el determinador de variaciones 275 calcula, al determinar la primera variacion 290a, un mmimo de ambas desviaciones tfpicas circulares. En otra realizacion, el determinador de variaciones 275 calcula la variacion 290a en el primer modo de variacion como una combinacion de una medida de la desviacion tfpica correspondiente a una pluralidad de sub-bandas 95 en una trama de tiempo 75 para formar una medida de la desviacion tfpica promediada de una frecuencia. El comparador de variaciones 280 esta configurado para realizar la combinacion de las medidas de desviacion tfpica calculando una media ponderada de la energfa de las medidas de desviacion tfpica de la pluralidad de sub-bandas utilizando los valores de magnitud de la senal de sub-banda 95 en la trama de tiempo actual 75 como una medida de la energfa.

En una realizacion preferida, el determinador de variaciones 275 alisa la medida de la desviacion tfpica promediada al determinar la primera variacion 290a, en la trama de tiempo actual y en una pluralidad de tramas de tiempo anteriores y futuros. El alisado se pondera de acuerdo con una energfa calculada utilizando las correspondientes tramas de tiempo y una funcion de generacion de ventanas. Mas aun, el determinador de variaciones 275 esta configurado para alisar la medida de desviacion tfpica, cuando se determina la segunda variacion 290b en la trama de tiempo actual y en una pluralidad de tramas de tiempo anteriores y futuros 75, en el que el alisado se pondera de acuerdo con la energfa calculada utilizando las correspondientes tramas de tiempo y una funcion de generacion de ventanas. Por lo tanto, el comparador de variaciones 280 compara la medida de desviacion tfpica promediada alisada como la primera variacion 290a que se determina utilizando el primer modo de variacion y compara la medida de desviacion tfpica alisada como la segunda variacion 290b que se determina utilizando el segundo modo de variacion.

En la Figura 40 se muestra una realizacion preferida. De acuerdo con esta realizacion, el determinador de variaciones 275 comprende dos parches de procesamiento para calcular la primera y la segunda variacion. Un primer parche de procesamiento comprende un calculador de PDT 300a, para calcular la medida de la desviacion tfpica de la derivada de la fase en el tiempo 305a de la senal de audio 55 o de la fase de la senal de audio. Un calculador de desviacion tfpica circular 310a determina una primera desviacion tfpica circular 315a y una segunda desviacion tfpica circular 315b a partir de la medida de la desviacion tfpica de una derivada de la fase en el tiempo 305a. La primera y segunda desviaciones tfpicas circulares 315a y 315b se comparan por un comparador 320. El comparador 320 calcula la minima 325 de las dos medidas de desviacion tfpica circular 315a y 315b. Un combinador combina la minima 325 en la frecuencia para formar una medida promedio de desviacion tfpica 335a. Un alisador 340a alisa la medida de desviacion tfpica circular 335a para formar una medida promedio de desviacion tfpica alisada 345a.

El segundo parche de procesamiento comprende un calculador de PDF 300b para calcular una derivada de la fase en la frecuencia 305b a partir de la senal de audio 55 o una fase de la senal de audio. Un calculador de desviacion tfpica circular 310b forma una medida de las desviaciones tfpicas 335b de la derivada de la fase en la frecuencia 305. La medida de la desviacion tfpica 305 se alisa por un alisador 340b para formar una medida de desviacion tfpica alisada 345b. Las medidas de la desviacion tfpica promediadas y alisadas 345a y la medida de la desviacion tfpica alisada 345b son la primera y la segunda variacion, respectivamente. El comparador de variaciones 280 compara la primera y segunda variaciones y el calculador de datos de correccion 285 calcula los datos de correccion de fase 295 basandose en la comparacion de la primera y segunda variaciones.

Otras realizaciones muestran el calculador 270 manejando tres modos de correccion de fases. En la Figura 41 se muestra un diagrama de bloques figurativo. La Figura 41 muestra que el determinador de variaciones 275 determina adicionalmente una tercera variacion 290c de la fase de la senal de audio 55 en un tercer modo de variacion, en el que el tercer modo de variacion es un modo de deteccion de transitorios. El comparador de variaciones 280 compara la primera variacion 290a, que se determina utilizando el primer modo de variacion, la segunda variacion 290b, que se determina utilizando el segundo modo de variacion y la tercera variacion 290c, que se determina utilizando la

5

10

15

20

25

30

35

40

45

50

55

tercera variacion. Por lo tanto, el calculador de datos de correccion 285 calcula los datos de correccion de fase 295 de acuerdo con el primer modo de correccion, el segundo modo de correccion, o el tercer modo de correccion, basandose en el resultado de la comparacion. Para calcular la tercera variacion 290c en el tercer modo de variacion, el comparador de variaciones 280 puede estar configurado para calcular una estimacion de energfa instantanea de la trama de tiempo actual y una estimacion de energfa promediada en el tiempo de una pluralidad de tramas de tiempo 75. Por lo tanto, el comparador de variaciones 280 esta configurado para calcular una relacion de la estimacion de energfa instantanea y la estimacion de energfa promediada en el tiempo y esta configurado para comparar la relacion con un umbral definido para detectar transitorios en una trama de tiempo 75.

El comparador de variaciones 280 debe determinar un modo de correccion adecuado basandose en tres variaciones. Basandose en esta decision, el calculador de datos de correccion 285 calcula los datos de correccion de fase 295 de acuerdo con un tercer modo de variacion en caso de detectarse un transitorio. Mas aun, el calculador de datos de correccion 85 calcula los datos de correccion de fase 295 de acuerdo con un primer modo de variacion, en caso de detectarse la ausencia de un transitorio y, si la primera variacion 290a determinada en el primer modo de variacion, es inferior o igual a la segunda variacion 290b, determinada en el segundo modo de variacion. En consecuencia, los datos de correccion de fase 295 se calculan de acuerdo con el segundo modo de variacion en caso de detectarse la ausencia de un transitorio y si la segunda variacion 290b determinada en el segundo modo de variacion, es menor que la primera variacion 290a, determinada en el primer modo de variacion.

El calculador de datos de correccion esta configurado ademas para calcular los datos de correccion de fase 295 para la tercera variacion 290c para tramas de tiempo actuales, uno o mas anteriores o futuras. En consecuencia, el calculador de datos de correccion 285 esta configurado para calcular los datos de correccion de fase 295 para el segundo modo de variacion 290b para una trama actual, uno o mas anteriores o futuras. Mas aun, el calculador de datos de correccion 285 esta configurado para calcular los datos de correccion 295 para una correccion de la fase horizontal y el primer modo de variacion, calcular los datos de correccion 295 para una correccion de fase vertical en el segundo modo de variacion y para calcular los datos de correccion 295 para una correccion de transitorio en el tercer modo de variacion.

La Figura 42 muestra un metodo 4200 para determinar los datos de correccion de fase a partir de una senal de audio. El metodo 4200 comprende una etapa 4205 “determinar una variacion de una fase de la senal de audio con un determinador de variaciones en un primero y en un segundo modo de variacion”, una etapa 4210 “comparar la variacion que se determina utilizando el primero y segundo modos de variacion con un comparador de variaciones” y una etapa 4215 “calcular la correccion de fase con un calculador de datos de correccion de acuerdo con el primer modo de variacion o el segundo modo de variacion basandose en un resultado de la comparacion”.

En otras palabras, la PDT del violin es lisa en el tiempo, mientras que la PDF del trombon es lisa en la frecuencia. Por lo tanto, se puede utilizar la desviacion tfpica (STD) de estas medidas como medida de la variacion para seleccionar el metodo de correccion apropiado. La STD de la derivada de la fase en el tiempo se puede calcular de la siguiente manera

_ circsr:d{jf'pdt{A:,n + ()}< -23 < l < 0,

= drcstd^K^n + t)}.G < I. < ?3.

rCth(/c,n) - min(rdtl(fe,)tUstJ'3(t4

(27}

y la STD de la derivada de la fase en la frecuencia de esta manera

JfBlrffCn) = circstdfjr^C^n)}, 2 $ k £ Vi {28)

donde circstd{} indica el calculo de la STD circular (potencialmente se podnan ponderar los valores de angulos en la energfa para evitar STD elevada debido a los segmentos con ruido de baja energfa, o se podna restringir el calculo de la STD a los segmentos con energfa suficiente). Las STD para el violin y al trombon se muestran en las Figuras 43a, 43b y Figuras 43c, 43d, respectivamente. Las Figuras 43a y c muestran la desviacion tfpica de la derivada de la fase en el tiempo X®tdt(k,n) en el dominio QMF, en el que las Figuras 43b y 43d muestran la correspondiente desviacion tfpica en la frecuencia X^tdf(n) sin correccion de fase. El gradiente de color indica valores de rojo = 1 a azul = 0. Se puede apreciar que la STD de la PDT es mas baja en el caso del violin, mientras que la STD de la PDF es mas baja en el caso del trombon (especialmente en el caso de las piezas de tiempo-frecuencia con alta energfa).

El metodo de correccion utilizado para cada trama de tiempo se selecciona basandose en cual de las STD es menor. Para ello, se tiene que combinar los valores Xtdt(k,n) en la frecuencia. La fusion se realiza calculando una media ponderada por la energfa correspondiente a un rango de frecuencias predefinido

5

10

15

20

25

30

35

40

45

imagen7

Las estimaciones de desviacion se alisan en el tiempo para tener una conmutacion lisa y, de esta manera, evitar artefactos potenciales. El alisado se realiza utilizando una ventana de Hann y se pondera por la energfa de la trama temporal

imagen8

en el que W(l) es la funcion de ventana y ^ g(n) E/c=i^ s{k,n) es la suma de >fna3(k,n) en la frecuencia. Se utiliza una ecuacion correspondiente para alisar X®tdf(n).

X4dt(n) „ X,stdf

y Asm (n). El metodo por defecto es la

El metodo de correccion de fase se determina comparando

*lmf00 <

correccion por PDT (horizontal), y si sm ^ J srn v J , se aplica la correccion de PDF (vertical) al intervalo [n - 5, n + 5]. Si ambas desviaciones son grandes, por ejemplo superiores a un valor umbral predefinido, no se aplica ninguno de los metodos de correccion y se podnan conseguir ahorros de tasas de bits.

8.4 Manejo de transitorios - correccion de la derivada de fase correspondiente a los transitorios

En la Figura 44 se expone la senal de violfn con un aplauso agregado en el medio. La magnitud Xmag(k,n) de una senal de violin + aplauso en el dominio QMF se muestra en la Figura 44a, y el espectro de fase correspondiente Xpha(k,n) en la Figura 44b. Con respecto a la Figura 44a, el gradiente de color indica valores de magnitud de rojo = 0 dB a azul = -80 dB. En consecuencia, en el caso de la Figura 44b, el gradiente de fase indica valores de fase de rojo = n a azul = -n. Las derivadas de fase en el tiempo y en la frecuencia se presentan en la Figura 45. La derivada de la fase en el tiempo Xpdt(k,n) de la senal de violrn + aplauso en el dominio QMF se muestra en la Figura 45a, y la derivada de la fase correspondiente en la frecuencia Xpdf(k,n) en la Figura 45b. El gradiente de color indica valores de fase de rojo = n a azul = -n. Se puede observar que la PDT tiene ruido para el aplauso, aunque la PDF es algo lisa, al menos a frecuencias elevadas. Por consiguiente, la correccion de PDF se debe aplicar al aplauso para mantener su precision. Sin embargo, el metodo de correccion sugerido en la Seccion 8.2 podna no funcionar correctamente con esta senal, puesto que el sonido del violin perturba las derivadas a bajas frecuencias. Como resultado, el espectro de fase de la banda base no refleja las frecuencias elevadas, y por consiguiente la correccion de fase de los parches de frecuencia utilizando un unico valor puede no funcionar. Mas aun, la deteccion de los transitorios basandose en la variacion del valor de PDF (vease la Seccion 8.3) sena dificil debido a los valores de PDF con ruido a bajas frecuencias.

La solucion al problema es sencilla. En primer lugar, se detectan los transitorios utilizando un sencillo metodo basado en la energfa. Se compara la energfa instantanea de las medias/altas frecuencias con una estimacion de energfa alisada. La energfa instantanea de las medias/altas frecuencias se calcula de la siguiente manera

imagen9

El alisado se realiza utilizando un filtro de IR de primer orden

Jf”lgmh(n) = 0,1 • Xmagmh(n) + 0,9 ■ X™gmh(n - 1).

(32)

yinagmh^ ,ymagmh^ „

Si A ^ '< sm ^ ' , se ha detectado un transitorio. El umbral 0 puede ajustarse con precision para

detectar la cantidad de transitorios deseada. Por ejemplo, se puede utilizar 0 = 2. La trama detectada no se selecciona directamente para que sea la trama transitoria. En su lugar, se busca la energfa local maxima de lo que la

5

10

15

20

25

30

35

40

45

50

55

60

rodea. En la implementacion actual, el intervalo seleccionado es [n - 2, n + 7]. Se selecciona la trama temporal con la energfa maxima dentro de este intervalo para que sea el transitorio.

En teona, tambien se puede aplicar el modo de correccion vertical correspondiente a los transitorios. Sin embargo, en el caso de los transitorios, con frecuencia el espectro de fase de la banda base no refleja las altas frecuencias. Esto puede llevar a ecos anteriores y posteriores en la senal procesada. Por consiguiente, se sugiere un procesamiento ligeramente modificado para los transitorios.

Se calcula la PDR promedio del transitorio a altas frecuencias

media circular |,Y’pc"^ ( k, n) f, — 11 < fc 5= 36,

El espectro de fase para el intervalo transitorio se sintetiza utilizando este cambio de fase constante como en la Ec.

24, aunque avg^atee reemplaza por . Se aplica la misma correccion a las tramas temporales dentro del

intervalo [n - 2, n + 2] (n se suma a la PDF de las tramas n - 1 y n + 1 debido a las propiedades del QMF, vease la Seccion 6). Esta correccion ya produce un transitorio en una posicion adecuada, aunque la forma del transitorio no es necesariamente la conveniente, y se pueden presentar considerables lobulos laterales (es decir, transitorios adicionales) debido al considerable solapamiento temporal de las tramas QMF. Por lo tanto, el angulo de fase absoluto tambien ha de corregirse. El angulo absoluto se corrige calculando el error medio entre el espectro sintetizado y el de la fase original. Se realiza la correccion por separado para cada trama de tiempo del transitorio.

El resultado de la correccion de transitorios se presenta en la Figura 46. Se muestra una derivada de la fase en el tiempo Xpdt(k,n) de la senal de violin + aplauso en el dominio QMF utilizando la fase SBR corregida. La Figura 47b muestra la derivada de la fase correspondiente en la frecuencia Xpdf(k,n). Una vez mas, el gradiente de color indica valores de fase de rojo = n a azul = -n. Se puede percibir que el aplauso con fase corregida tiene la misma agudeza que la senal original, si bien la diferencia en comparacion con el copiado directo no es grande. Por lo tanto, la correccion de transitorios no es un requisito imprescindible en todos los casos cuando solo se activa el copiado directo. Por el contrario, si se habilita la correccion de PDT, es importante contar con el manejo de transitorios, ya que de lo contrario la correccion de PDT ensuciana severamente los transitorios.

9 Compresion de los datos de correccion

La Seccion 8 mostro que los errores de fase pueden corregirse, aunque no se considero en absoluto la tasa de bits adecuada para la correccion. Esta seccion sugiere metodos para representar los datos de correccion con baja tasa de bits.

9.1 Compresion de los datos de correccion de PDT - Crear el espectro objetivo para la correccion horizontal

Hay numerosos parametros posibles que podrian transmitirse para habilitar la correccion de PDT. Sin embargo,

D^(k, n)

dado que ' se alisa en el tiempo, es un potencial candidate para la transmision a bajas tasas de bits.

En primer lugar, se analiza una tasa de actualizacion adecuada. El valor se actualizo solo cada N tramas y se interpola linealmente entre estas. El intervalo de actualizacion para obtener una buena calidad es de aproximadamente 40 ms. Para ciertas senales es ventajoso un bit menos y para otras un bit mas. Las pruebas de escucha formales sedan provechosas para evaluar una tasa de actualizacion optima. De todos modos, parecer ser aceptable un intervalo de actualizacion relativamente largo.

Tambien se estudio una precision angular adecuada para ®sm ftn). 6 bits (64 valores de angulo posibles) son suficientes para una buena calidad perceptual. Mas aun, se evaluo la transmision de solo el cambio de valor. Con frecuencia los valores parecen cambiar solo un poco, por lo que se puede aplicar la cuantificacion no uniforme para lograr una mayor precision en el caso de los cambios pequenos. Utilizando esta estrategia, se encontro que 4 bits (16 valores de angulo posibles) proporcionaban una buena calidad.

Lo ultimo a tener en cuenta es una precision espectral adecuada. Como se puede apreciar en la Figura 17, muchas bandas de frecuencias parecen compartir aproximadamente el mismo valor. Por consiguiente, se podna emplear probablemente un valor para representar varias bandas de frecuencia. Ademas, a altas frecuencias hay multiples armonicos dentro de una banda de frecuencia, por lo que probablemente se necesite menos precision. De todos modos, se encontro otra estrategia posiblemente mejor, por lo que no se investigaron a fondo estas opciones. A continuacion se describe la estrategia mas eficaz sugerida.

5

10

15

20

25

30

35

40

45

50

55

60

9.1.1 Uso de estimacion de la frecuencia para comprimir los datos de correccion de PDT

Como se analiza en la Seccion 5, la derivada de la fase en el tiempo significa basicamente la frecuencia de la sinusoide producida. Las PDT del QMF complejo de 64 bandas aplicado se pueden transformar a frecuencias utilizando la siguiente ecuacion

imagen10

Las frecuencias producidas estan dentro del intervalo finter(k) = [fc(k) - fBw, fc(k) + fBw], donde fc(k) es la frecuencia

central de la banda de frecuencia k y fBw es 375 Hz. El resultado se muestra en la Figura 47 en una representacion de tiempo-frecuencia de las frecuencias de las bandas de QMF Xreq(k,n) para la senal de violin. Se puede observar que las frecuencias parecen seguir los multiplos de la frecuencia fundamental del tono y de esta manera los armonicos estan espaciados en la frecuencia por la frecuencia fundamental. Ademas, el vibrato parece causar la modulacion de la frecuencia.

Zfreq(7c n)

Puede aplicarse la misma representacion al copiado directo Zfreq(/r,n) y a la SBR corregida "ch v ' (vease las Figuras 48a y Figura 48b, respectivamente). La Figura 48a muestra una representacion de tiempo-frecuencia de las frecuencias de las bandas de QMF de la senal de SBR por copiado directo Zfreq(k,n) en comparacion con la senal original )<?req(k,n), mostrada en la Figura 47. La Figura 48b muestra la representacion correspondiente de la senal de

y froq r i >

SBR corregida ch v > ■>. En los trazados de la Figura 48a y Figura 48b, la senal original esta dibujada en color azul, en el que las senales de SBR por copiado directo y SBR corregida estan trazadas en rojo. En la figura puede observarse desarmoma de la SBR por copiado directo, especialmente al comienzo y al final de la muestra. Ademas, se puede observar que la profundidad de modulacion de la frecuencia es claramente menor que la de la senal original. Por el contrario, en el caso de la SBR corregida, las frecuencias de los armonicos parecen seguir las frecuencias de la senal original. Ademas, la profundidad de modulacion parece ser correcta. Por consiguiente, esta representacion parece confirmar la validez del metodo de correccion sugerido. Por lo tanto, a continuacion se concentra la atencion en la compresion real de los datos de correccion.

Dado que las frecuencias de fq(k,n) estan espaciadas a la misma distancia, las frecuencias de todas las bandas de frecuencia pueden aproximarse si se estima y transmite el espaciamiento entre las frecuencias. En el caso de las senales armonicas, el espaciamiento debe ser igual a la frecuencia fundamental del tono. Por consiguiente, solo se tiene que transmitir un valor para representar todas las bandas de frecuencia. En el caso de senales mas irregulares, se necesitan mas valores para describir el comportamiento de los armonicos. Por ejemplo, el espaciamiento de los armonicos se incrementa ligeramente en el caso de un tono plano [14]. Para simplificar, se supone a continuacion que los armonicos estan espaciados en la misma cantidad. De todos modos, esto no limita la generalidad del procesamiento de audio descrito.

Por consiguiente, se estima la frecuencia fundamental del tono para estimar las frecuencias de los armonicos. La estimacion de la frecuencia fundamental es un asunto extensamente estudiado (por ejemplo, vease [14]). Por lo tanto, se implementa un sencillo metodo de estimacion para generar los datos empleados para las etapas de procesamiento adicionales. El metodo basicamente calcula los espaciamientos entre los armonicos, y combina el resultado de acuerdo con cierta heunstica (cuanta energfa, cuanto estable es el valor en la frecuencia y tiempo, etc.). En todo caso, el resultado es una estimacion de la frecuencia fundamental por cada trama de tiempo X°(n). En otras palabras, la derivada de la fase en el tiempo esta asociada a la frecuencia del correspondiente segmento de QMF. Ademas, los artefactos relacionados con errores en la PDT se pueden percibir mayormente con senales armonicas. Por consiguiente, se sugiere que la TDP objetivo (vease la Ec. 16a) pueda estimarse utilizando la estimacion de la frecuencia fundamental fo. La estimacion de una frecuencia fundamental es un asunto ampliamente estudiado, y hay numerosos metodos robustos disponibles para obtener estimaciones confiables de la frecuencia fundamental.

En este caso, se supone la frecuencia fundamental V°(n), como es conocida por el decodificador con anterioridad a la ejecucion de la BWE y el empleo de la correccion de fase de la invencion dentro de la BWE. Por lo tanto, es ventajoso que la etapa de codificacion transmita la frecuencia fundamental estimada V°(n). Ademas, para una eficacia mejorada de la codificacion, se puede actualizar el valor solo, por ejemplo, cada trama de tiempo de orden 20 (que corresponde a un penodo de -27 ms), e interpolarlo entre estas.

Por otro lado, se podna estimar la frecuencia fundamental en la etapa de decodificacion, y no es necesario transmitir ninguna informacion. Sin embargo, se pueden obtener mejores estimaciones si la estimacion se realiza con la senal original en la etapa de la codificacion.

El procesamiento por el decodificador se inicia obteniendo una estimacion de la frecuencia fundamental V°(n) por cada trama de tiempo.

5

10

15

20

25

30

35

40

45

50

55

Las frecuencias de los armonicos se pueden obtener multiplicandolas por un vector mdice

fiJ i XhaTm(_K,n) = K-Xf*(n)

El resultado se muestra en la Figura 49. La Figura 49 muestra una representacion tiempo frecuencia de las frecuencias estimadas de los armonicos X"arm(k,n) en comparacion con las frecuencias de las bandas de QMF de la senal original X?req(k,n). Una vez mas, azul indica la senal original y rojo la senal estimada. Las frecuencias de los armonicos estimados coinciden con la senal original bastante bien. Se puede considerar que estas frecuencias son las frecuencias 'permitidas'. Si el algoritmo produce estas frecuencias, se deben evitar los artefactos asociados a la desarmoma.

El parametro transmitido del algoritmo es la frecuencia fundamental X°(n). Para una eficacia de codificacion mejorada, el valor se actualiza solo cada trama de tiempo de orden 20 (es decir, cada 27 ms). Este valor parece producir una buena calidad perceptual basandose en la escucha informal. Sin embargo, las pruebas de escucha formales son utiles para evaluar un valor mas optimo para la velocidad de actualizacion.

La etapa siguiente del algoritmo consiste en hallar un valor adecuado para cada banda de frecuencia. Esto se realiza seleccionando el valor de Xharm(k,n) que es mas cercano a la frecuencia central de cada banda fc(k) para reflejar esa banda. Si el valor mas cercano esta fuera de los posibles valores de la banda de frecuencia (finterM), se usa el valor

lfmite de la banda. La matriz asf obtenida frecuencia.

imagen11

contiene una frecuencia por cada pieza de tiempo-

La etapa final del algoritmo de compresion de datos de correccion es convertir los datos de frecuencia nuevamente a datos de PDT

imagen12

donde mod() indica el operador del modulo. El algoritmo de correccion real funciona de la manera mostrada en la

7pdV/r r?') «'\

Seccion 8.1. Se reemplaza th ^ J en la Ec. 16a por Aeh v < J como PDT objetivo y las Eos. 17-19 se utilizan como en la Seccion 8.1. El resultado del algoritmo de correccion con datos de correccion comprimidos se

(fc.n)

de la senal de violin en el dominio La Figura 50b muestra la derivada de la fase

muestra en la Figura 50. La Figura 50 muestra el error en la PDT QMF de la SBR corregida con datos de correccion comprimidos.

Zpdt(k ri)

correspondiente en el tiempo ch v ' ' Los gradientes de colore indican valores de rojo = k a azul = -k. Los valores de PDT siguen a los valores de PDT de la senal original con similar precision que el metodo de correccion sin la compresion de datos (vease la Figura 18). Por consiguiente, el algoritmo de compresion es valido. La calidad percibida con y sin la compresion de los datos de correccion es similar.

Las realizaciones utilizan una mayor precision para las bajas frecuencias y menor para las altas frecuencias, utilizando el total de 12 bits por cada valor. La tasa de bits asf producida es de aproximadamente 0,5 kbps (sin compresion alguna, como por ejemplo codificacion por entropfa). Esta precision produce una calidad percibida igual a la que se obtiene sin cuantificacion. Sin embargo, probablemente se puede usar una tasa de bits significativamente menor en muchos casos, produciendo una calidad percibida suficientemente buena.

Una opcion para los esquemas de bajas tasas de bits consiste en estimar la frecuencia fundamental en la fase de decodificacion utilizando la senal transmitida. En este caso no se tiene que transmitir valor alguno. Otra opcion es estimar la frecuencia fundamental utilizando la senal transmitida, compararla con la estimacion obtenida utilizando la senal de banda ancha y transmitir solo la diferencia. Se puede suponer que esta diferencia podna representarse utilizando muy bajas tasas de bits.

9.2 Compresion de los datos de correccion de PDF

Como se menciona en la Seccion 8.2, los datos adecuados para la correccion de la PDF es el error de fase

£)pha(?i)

promedio del primer parche de frecuencia avS ^ . Se puede realizar la correccion para todos los parches de

frecuencia conociendo este valor, por lo que solo es necesaria la transmision de un valor por cada trama de tiempo. Sin embargo, la transmision de incluso un unico valor por cada trama de tiempo puede producir una tasa de bits

5

10

15

20

25

30

35

40

45

50

55

60

demasiado elevada.

Examinando la Figura 12 en el caso del trombon se puede observar que la PDF tiene un valor relativamente constante en la frecuencia, y el mismo valor esta presente para unos pocos intervalos temporales. El valor es constante en el tiempo siempre que el mismo transitorio este dominando la ene^a de la ventana de analisis QMF. Cuando un nuevo transitorio comienza a ser el dominante, se presenta un nuevo valor. El angulo de cambio entre estos valores de PDF parece ser igual de un transitorio a otro. Esto tiene sentido, puesto que la PDF esta controlando la ubicacion temporal del transitorio, y la senal tiene una frecuencia fundamental constante, el espaciamiento entre transitorios debe ser constante.

Por lo tanto, se puede transmitir la PDF (o la ubicacion de un transitorio) solo de manera espaciada en el tiempo y el comportamiento de la PDF entre estos instantes de tiempo podna estimarse utilizando el conocimiento de la frecuencia fundamental. La correccion de PDF se puede realizar utilizando esta informacion. Este concepto duplica en realidad la correccion de PDT, donde se supone que las frecuencias de los armonicos estan igualmente espaciadas. En este caso, se utiliza el mismo concepto, pero en su lugar, se supone que las ubicaciones temporales de los transitorios estan igualmente espaciadas. A continuacion se sugiere un metodo que se basa en la deteccion de las posiciones de los picos en la forma de onda, y utilizando esta informacion, se genera un espectro de referencia para la correccion de la fase.

9.2.1 Uso de la deteccion de picos para comprimir los datos de correccion de PDF - Crear el espectro objetivo para la correccion vertical

Las posiciones de los picos tienen que estimarse para realizar la correccion satisfactoria de la PDF. Una solucion sena calcular las posiciones de los picos utilizando el valor de PDF, de manera similar a la Ec. 34, y estimar las posiciones de los picos intermedios utilizando la frecuencia fundamental estimada. Sin embargo, esta estrategia requerina una estimacion relativamente estable de la frecuencia fundamental. Las realizaciones muestran un metodo alternativo sencillo, de rapida implementacion, que muestra que la estrategia de compresion sugerida es posible.

Una representacion en el dominio del tiempo de la senal de trombon se muestra en la Figura 51. La Figura 51a muestra la forma de onda de la senal de trombon en una representacion en el dominio del tiempo. La Figura 51b muestra una correspondiente senal en el dominio del tiempo que contiene solo los picos estimados, en la que las posiciones de los picos se han obtenido utilizando los metadatos transmitidos. La senal de la Figura 51b es el tren de pulsos 265 descrito, por ejemplo, con respecto a la Figura 30. El algoritmo se inicia analizando las posiciones de los picos en la forma de onda. Esto se realiza buscando la maxima local. Por cada 27 ms (es decir, por cada 20 tramas de QMF), se transmite la ubicacion del pico mas cercano al punto medio de la trama. Entre las ubicaciones de los picos transmitidas, se supone que los picos estan igualmente espaciados en el tiempo. Por consiguiente, conociendo la frecuencia fundamental, se puede estimar las ubicaciones de los picos. En esta realizacion, se transmite el numero de los picos detectados (se debe tener en cuenta que esto requiere la deteccion exitosa de todos los picos; la estimacion basada en la frecuencia fundamental producina probablemente resultados mas robustos). La tasa de bits asf obtenida es de aproximadamente 0,5 kbps (sin compresion alguna, como por ejemplo en la codificacion por entropfa), que consiste en la transmision de la ubicacion del pico por cada 27 ms utilizando 9 bits y la transmision del numero de transitorios entre ellos utilizando 4 bits. Se encontro que esta precision produda una calidad percibida igual a la obtenida sin cuantificacion. Sin embargo, probablemente se puede emplear una tasa de bits significativamente mas baja en muchos casos produciendo una calidad percibida suficientemente buena.

Utilizando los metadatos transmitidos, se genera una senal en el dominio del tiempo, que consiste en impulsos en las posiciones de los picos estimados (vease la Figura 51b). Se realiza el analisis de QMF de esta senal y se calcula

imagen13

La forma de onda de las senales con coherencia de la fase vertical por lo general contiene picos y se asemeja a un tren de pulsos. Por consiguiente, se sugiere que se puede estimar el espectro de la fase objetivo para la correccion vertical modelandolo como espectro de fase de un tren de pulsos que tiene picos en las posiciones correspondientes y con una correspondiente frecuencia fundamental.

Se transmite la posicion mas cercana al punto medio de la trama de tiempo, por ejemplo, por cada trama de tiempo de orden 20 (que corresponde a un penodo de -27 ms). La frecuencia fundamental estimada, que se transmite con una tasa igual, se utiliza para interpolar las posiciones de los picos entre las posiciones transmitidas.

Por otro lado, se podna estimar la frecuencia fundamental y las posiciones de los picos en la etapa de decodificacion, y no sena necesario transmitir informacion alguna. Sin embargo, se pueden esperar estimaciones mejores si la estimacion se realiza con la senal original en la etapa de codificacion.

5

10

15

20

25

30

35

40

45

50

55

El procesamiento en el decodificador se inicia obteniendo una estimacion de la frecuencia fundamental X0(n) por cada trama de tiempo y, ademas se estiman las posiciones de los picos en la forma de onda. Las posiciones de los picos se utilizan para generar una serial en el dominio del tiempo que consiste en impulsos en estas posiciones. Se

utiliza el analisis de QMF para crear el espectro de fase correspondiente de fase estimado en la Ec. 20a como espectro de la fase objetivo

Se puede usar este espectro

imagen14

El metodo sugerido utiliza la etapa de codificacion para transmitir solo las posiciones de los picos y las frecuencias fundamentales estimadas con una tasa de actualizacion, por ejemplo, de 27 ms. Ademas, se debe tener en cuenta que los errores en la derivada de la fase vertical son perceptibles solo cuando la frecuencia fundamental es relativamente baja. Por consiguiente, la frecuencia fundamental se puede transmitir con una tasa de bits relativamente baja.

El resultado del algoritmo de correccion con datos de correccion comprimidos se muestra en la Figura 52. La Figura

Dpha(k ri)

52a muestra el error en el espectro de fase cv ^ J de la serial de trombon en el dominio QMF con SBR corregida y datos de correccion comprimidos. En consecuencia, la Figura 52b muestra la derivada de la fase

7Pdf(k r1

correspondiente en la frecuencia cv <LJ . El gradiente de color indica valores de rojo = k a azul = -k. Los valores de PDF siguen los valores de PDF de la serial original con similar precision que en el metodo de correccion sin la compresion de datos (vease la Figura 13). Por consiguiente, el algoritmo de compresion es valido. La calidad percibida con y sin la compresion de los datos de correccion es similar.

9.3 Compresion de los datos de manejo de transitorios

Como se puede suponer que los transitorios son relativamente escasos, se puede suponer que estos datos podnan transmitirse directamente. Algunas realizaciones muestran la transmision de seis valores por transitorio: un valor para la PDF promedio y cinco valores para los errores en al angulo de fase absoluto (un valor por cada trama de tiempo dentro del intervalo [n - 2, n + 2]). Una alternativa consiste en transmitir la posicion del transitorio (es decir un

valor) y estimar el espectro de la fase objetivo

imagen15

como en el caso de la correccion vertical.

Si es necesario comprimir la tasa de bits para los transitorios, se podna emplear un enfoque similar para la correccion de la PDF (vease la Seccion 9.2). Simplemente se podna transmitir la posicion del transitorio, es decir, un solo valor. Se podna obtener el espectro de la fase objetivo y la PDF objetivo utilizando este valor de ubicacion como en la Seccion 9.2.

Por otro lado, se podna estimar la posicion de los transitorios en la etapa de decodificacion y no tendna que transmitirse informacion alguna. Sin embargo, se pueden obtener mejores estimaciones si la estimacion se realiza con la senal original en la etapa de la codificacion.

Todas las realizaciones anteriormente descritas pueden considerarse independientemente de otras realizaciones o en una combinacion de realizaciones. Por lo tanto, las Figuras 53 a 57 presentan un codificador y un decodificador que combinan algunas de las realizaciones anteriormente descritas.

La Figura 53 muestra un decodificador 110” para decodificar una senal de audio. El decodificador 110” comprende un primer generador de espectro objetivo 65a, un primer corrector de la fase 70a y un calculador de senales de sub- bandas de audio 350. El primer generador de espectro objetivo 65a, al que tambien se denomina como determinador de medidas de la fase objetivo, genera un espectro objetivo 85a” para una primera trama de tiempo de una senal de sub-banda de la senal de audio 32 utilizando primeros datos de correccion 295a. El primer corrector de fase 70a corrige una fase 45 de la senal de sub-banda en la primera trama de tiempo de la senal de audio 32 determinado con un algoritmo de correccion de la fase, donde se realiza la correccion reduciendo una diferencia entre una medida de la senal de sub-banda en la primera trama de tiempo de la senal de audio 32 y el espectro objetivo 85”. El calculador de senales de sub-bandas de audio 350 calcula la senal de sub-banda de audio 355 correspondiente a la primera trama de tiempo utilizando una fase corregida 91a para la trama de tiempo. Por otro lado, el calculador de senales de sub-bandas de audio 350 calcula la senal de sub-banda de audio 355 para una segunda trama de tiempo diferente de la primera trama de tiempo utilizando la medida de la senal de sub-banda 85a” en la segunda trama de tiempo o utilizando un calculo de fase corregido de acuerdo con otro algoritmo de correccion de fase diferente del algoritmo de correccion de la fase. La Figura 53 muestra ademas un analizador 360 que analiza opcionalmente la senal de audio 32 con respecto a una magnitud 47 y una fase 45. El algoritmo de correccion de fase adicional se

5

10

15

20

25

30

35

40

45

50

55

60

puede realizar en un segundo corrector de fase 70b o en un tercer corrector de fase 70c. Estos correctores de fase adicionales estan mostrados en relacion con la Figura 54. El calculador de senales de sub-bandas de audio 250 calcula la senal de sub-banda de audio correspondiente a la primera trama de tiempo utilizando la fase corregida 91 para la primera trama de tiempo y el valor de magnitud 47 de la senal de sub-banda de audio de la primera trama de tiempo, en el que el valor de magnitud 47 es una magnitud de la senal de audio 32, en la primera trama de tiempo o una magnitud procesada de la senal de audio 35 en la primera trama de tiempo.

La Figura 54 muestra otra realizacion del decodificador 110''. Por lo tanto, el decodificador 110'' comprende un segundo generador de espectro objetivo 65b, en el que el segundo generador de espectro objetivo 65b genera un espectro objetivo 85b'' para la segunda trama de tiempo de la sub-banda de la senal de audio 32 utilizando segundos datos de correccion 295b. El detector 110'' comprende asimismo un segundo corrector de fase 70b para corregir una fase 45 de la sub-banda en la trama de tiempo de la senal de audio 32 determinada con un segundo algoritmo de correccion de fase, en el que se realiza la correccion reduciendo una diferencia entre una medida de la trama de tiempo de la sub-banda de la senal de audio y el espectro objetivo 85b''.

En consecuencia, el decodificador 110'' comprende un tercer generador de espectro objetivo 65c, en el que el tercer generador de espectro objetivo 65c genera un espectro objetivo correspondiente a una tercera trama de tiempo de la sub-banda de la senal de audio 32 utilizando terceros datos de correccion 295c. Mas aun, el decodificador 110'' comprende un tercer corrector de fase 70c para corregir una fase 45 de la senal de sub-banda y la trama de tiempo de la senal de audio 32 determinada con un tercer algoritmo de correccion de fase, en el que se realiza la correccion reduciendo una diferencia entre una medida de la trama de tiempo de la sub-banda de la senal de audio y el espectro objetivo 85c. El calculador de senales de sub-bandas de audio 350 puede calcular la senal de sub-banda de audio para una tercera trama de tiempo diferente de la primera y segunda tramas de tiempo utilizando la correccion de fase del tercer corrector de fase.

De acuerdo con una realizacion, el primer corrector de fase 70a esta configurado para almacenar una senal de sub- banda de fase corregida 91a de una trama de tiempo anterior de la senal de audio o para recibir una senal de sub- banda de fase corregida de la trama de tiempo anterior 375 de la senal de audio procedente de un segundo corrector de fase 70b del tercer corrector de fase 70c. Mas aun, el primer corrector de fase 70a corrige la fase 45 de la senal de audio 32 en una trama de tiempo actual de la senal de sub-banda de audio basandose en la senal de sub-banda con fase corregida almacenada o recibida de la trama de tiempo precedente 91a, 375.

Otras realizaciones muestran el primer corrector de fase 70a realizando una correccion de la fase horizontal, el segundo corrector de fase 70b realizando una correccion de la fase vertical y el tercer corrector de fase 70c realizando una correccion de la fase correspondiente a los transitorios.

Desde otro punto de vista, la Figura 54 muestra un diagrama de bloques de la etapa de decodificacion en el algoritmo de correccion de la fase. La entrada al procesamiento es la senal de BWE en el dominio de tiempo- frecuencia y los metadatos. Una vez mas, en aplicaciones practicas se prefiere la correccion de derivadas de fase de la invencion al uso conjunto del banco de filtros o la transformacion de un esquema de BWE existente. En el presente ejemplo este es un dominio QMF utilizado en la SBR. Un primer demultiplexor (no se muestra) extrae los datos de correccion de derivadas de fase del flujo de bits del codec perceptual equipado con BWE que se esta mejorando por la correccion inventiva.

Un segundo demultiplexor 130 (DEMUX) divide en primer lugar los metadatos recibidos 135 en datos de activacion 365 y datos de correccion 295a-c para los diferentes modos de correccion. Basandose en los datos de activacion, se activa el calculo del espectro objetivo para el modo de correccion apropiado (otros pueden estar inactivos). Utilizando el espectro objetivo, se realiza la correccion de fase de la senal de BWE recibida utilizando el modo de correccion elegido. Se debe tener en cuenta que como la correccion horizontal 70a se realiza de manera recursiva (en otras palabras: dependiendo de las tramas precedentes de la senal), recibe las matrices de correccion precedentes tambien de otros modos de correccion 70b, c. Por ultimo, se envfa la senal corregida, o la que no se ha procesado, a la salida basandose en los datos de activacion.

Una vez corregidos los datos de fase, se continua la smtesis de BWE subyacente aguas abajo, en el caso del presente ejemplo la smtesis de SBR. Podnan existir variaciones donde se inserta exactamente la correccion de fase en la senal de smtesis de BWE. Preferentemente, la correccion de la derivada de fase se realiza como ajuste inicial en los parches espectrales sin procesar que tienen las fases Zpha(k,n) y todas las etapas de procesamiento de BWE o ajuste adicionales (en la SBR esto puede ser la adicion de ruido, filtrado inverso, sinusoides faltantes, etc.) se

ejecutan mas adelante en las fases corregidas

La Figura 55 muestra otra realizacion del decodificador 110''. De acuerdo con esta realizacion, el decodificador 110'' comprende un decodificador de nucleo 115, un generador de parches 120, un sintetizador 100 y el bloque A, que es el decodificador 110'' de acuerdo con las realizaciones anteriores mostradas en la Figura 54. El decodificador de

imagen16

5

10

15

20

25

30

35

40

45

50

55

60

nucleo 115 esta configurado para decodificar la senal de audio 25 en una trama de tiempo con un numero reducido de sub-bandas con respecto a la senal de audio 55. El generador de parches 120 genera parches a una serie de sub-bandas de la senal de audio decodificada en el nucleo 25 con un numero reducido de sub-bandas, en el que la serie de sub-bandas forma un primer parche, hacia otras sub-bandas en la trama de tiempo, adyacentes al numero reducido de sub-bandas, para obtener una senal de audio 32 con un numero uniforme de sub-bandas. El procesador de magnitudes 125' procesa los valores de magnitud de la senal de sub-banda de audio 355 en la trama de tiempo. De acuerdo con los decodificadores anteriores 110 y 110', el procesador de magnitudes puede ser el aplicador de parametros de ampliacion de ancho de banda 125.

Se pueden idear muchas otras realizaciones donde se conmutan los bloques del procesador de senales. Por ejemplo, el procesador de magnitudes 125' y el bloque A se pueden intercambiar. Por lo tanto, el bloque A funciona sobre la senal de audio reconstruida 35, donde los valores de magnitud de los parches ya se han corregido. Por otro lado, el calculador de senales de sub-bandas de audio 350 puede estar situado despues del procesador de magnitudes 125' para formar la senal de audio corregida 355 a partir de la parte con fase corregida y magnitud corregida de la senal de audio.

Mas aun, el decodificador 110'' comprende un sintetizador 100 para sintetizar la senal de audio con fase y magnitud corregidas para obtener la senal de audio procesada combinada en la frecuencia 90. Opcionalmente, dado que no se aplica ni la magnitud ni la correccion de fase a la senal de audio decodificada en el nucleo 25, dicha senal de audio puede transmitirse directamente al sintetizador 100. Todo bloque de procesamiento opcional aplicado a uno de los decodificadores anteriormente descritos 110 o 110' se puede aplicar asimismo al decodificador 110''.

La Figura 56 muestra un codificador 155'' para codificar una senal de audio 55. El codificador 155'' comprende un determinador de fase 380 conectado a un calculador 270, un codificador nucleo 160, un extractor de parametros 165 y un formador de senales de salida 170. El determinador de fase 380 determina una fase 45 de la senal de audio 55 en el que el calculador 270 determina datos de correccion de fase 295 para la senal de audio 55 basandose en la fase determinada 45 de la senal de audio 55. El codificador nucleo 160 codifica en nucleo la senal de audio 55 para obtener una senal de audio codificada en nucleo 145 con un numero reducido de sub-bandas con respecto a la senal de audio 55. El extractor de parametros 165 extrae parametros 190 de la senal de audio 55 para obtener una representacion parametrica de baja resolucion para una segunda serie de sub-bandas no incluidas en la senal de audio codificada en nucleo. El formador de senales de salida 170 forma la senal de salida 135 que comprende los parametros 190, la senal de audio codificada en nucleo 145 y los datos de correccion de fase 295'. Opcionalmente, el codificador 155'' comprende un filtro paso bajo 180 antes de la codificacion en nucleo de la senal de audio 55 y un filtro paso alto 185 antes de extraer los parametros 190 de la senal de audio 55. Por otro lado, en lugar del filtrado paso bajo o alto de la senal de audio 55, se puede usar un algoritmo de relleno de huecos, en el que el codificador nucleo 160 codifica en nucleo un numero reducido de sub-bandas, en el que al menos una sub-banda dentro de la serie de sub-bandas no se codifica en nucleo. Mas aun, el extractor de parametros extrae parametros 190 de dicha al menos una sub-banda no codificada con el codificador nucleo 160.

De acuerdo con las realizaciones, el calculador 270 comprende una serie de calculadores de datos de correccion 285a-c para corregir la correccion de fase de acuerdo con un primer modo de variacion, un segundo modo de variacion o un tercer modo de variacion. Mas aun, el calculador 270 determina datos de activacion 365 para activar un calculador de datos de correccion de la serie de calculadores de datos de correccion 285a-c. El formador de senales de salida 170 forma la senal de salida que comprende los datos de activacion, los parametros, la senal de audio codificada en nucleo y los datos de correccion de fase.

La Figura 57 muestra una implementacion alternativa del calculador 270 que puede utilizarse en el codificador 155'' mostrado en la Figura 56. El calculador de modos de correccion 385 comprende el determinador de variaciones 275 y el comparador de variaciones 280. Los datos de activacion 365 son el resultado de la comparacion de diferentes variaciones. Mas aun, los datos de activacion 365 activan uno de los calculadores de datos de correccion 185a-c de acuerdo con la variacion determinada. Los datos de correccion calculados 295a, 295b, o 295c pueden ser la entrada del formador de senales de salida 170 del codificador 155'' y por lo tanto, parte de la senal de salida 135.

Algunas realizaciones muestran el calculador 270 que comprende un formador de metadatos 390, que forma un flujo de metadatos 295' que comprende los datos de correccion calculados 295a, 295b, o 295c y los datos de activacion 365. Los datos de activacion 365 pueden transmitirse al decodificador si los datos de correccion en sf no comprenden suficiente informacion sobre el modo de correccion actual. Suficiente informacion puede ser, por ejemplo, un numero de bits usado para representar los datos de correccion, que es diferente para los datos de correccion 295a, los datos de correccion 295b y los datos de correccion 295c. Mas aun, el formador de senales de salida 170 puede utilizar adicionalmente los datos de activacion 365, de manera que se puede omitir el formador de metadatos 390.

Desde otro punto de vista, el diagrama de bloques de la Figura 57 muestra la etapa de codificacion en el algoritmo de correccion de la fase. La entrada al procesamiento es la senal de audio original 55 y el dominio del tiempo-

5

10

15

20

25

30

35

40

45

50

55

60

frecuencia. En aplicaciones practicas, se prefiere la correccion de derivadas de fase de la invencion al uso conjunto del banco de filtros o un esquema de BWE existente. En el presente ejemplo, este es un domino QMF empleado en la SBR.

El bloque de calculo de modos de correccion calcula en primer lugar el modo de correccion que se aplica por cada trama de tiempo. Basandose en los datos de activacion 365, se activa el calculo de datos de correccion 295a-c en el modo de correccion correcto (los demas pueden estar inactivos). Por ultimo, el multiplexor (MUX) combina los datos de activacion y los datos de correccion de los diferentes modos de correccion.

Otro multiplexor (no se muestra) fusiona los datos de correccion de derivadas de fase en un flujo de bits de la BWE y el codificador perceptual que se esta mejorando con la correccion inventiva.

La Figura 58 muestra un metodo 5800 para decodificar una senal de audio. El metodo 5800 comprende una etapa 5805 “generar un espectro objetivo para una primera trama de tiempo de una senal de sub-banda de la senal de audio con un primer generador de espectro objetivo utilizando primeros datos de correccion”, una etapa 5810 “corregir una fase de la senal de sub-banda en la primera trama de tiempo de la senal de audio con un primer corrector de la fase determinado con un algoritmo de correccion de la fase, en el que se realiza la correccion reduciendo una diferencia entre una medida de la senal de sub-banda en la primera trama de tiempo de la senal de audio y el espectro objetivo, y una etapa 5815 “calcular la senal de sub-banda de audio para la primera trama de tiempo con un calculador de senales de sub-bandas de audio utilizando una fase corregida de la trama de tiempo y calcular senales de audio de sub-bandas para una segunda trama de tiempo diferente de la primera trama de tiempo utilizando la medida de la senal de sub-banda en la segunda trama de tiempo o utilizando un calculo de fase corregido de acuerdo con otro algoritmo de correccion de fase diferente del algoritmo de correccion de la fase”.

La Figura 59 muestra un metodo 5900 para codificar una senal de audio. El metodo 5900 comprende una etapa 5905 “determinar una fase de la senal de audio con un determinador de fase”, una etapa 5910 “determinar datos de correccion de fase para una senal de audio con un calculador basandose en la fase determinada de la senal de audio”, una etapa 5915 “codificar en nucleo la senal de audio con un codificador nucleo para obtener una senal de audio codificada en nucleo con un numero reducido de sub-bandas con respecto a la senal de audio”, una etapa 5920 “extraer parametros de la senal de audio con un extractor de parametros para obtener una representacion parametrica de baja resolucion para una segunda serie de sub-bandas no incluidas en la senal de audio codificada en nucleo”, y una etapa 5925 “formar una senal de salida con un formador de senales de salida que comprende los parametros, la senal de audio codificada en nucleo y los datos de correccion de fase”.

Los metodos 5800 y 5900, como asf tambien los metodos anteriormente descritos 2300, 2400, 2500, 3400, 3500, 3600 y 4200, pueden implementarse en un programa informatico para realizarse en un ordenador.

Se debe tener en cuenta que senal de audio 55 se utiliza como un termino general para indicar una senal de audio, especialmente para la senal de audio original, es decir, sin procesar, la parte transmitida de la senal de audio Xtrans(k,n) 25, la senal de banda base Xbase(k,n) 30, la senal de audio procesada que comprende frecuencias mas elevadas 32 en comparacion con la senal de audio original, la senal de audio reconstruida 35, el parche de frecuencia con magnitud corregida Y(k,n,i) 40, la fase 45 de la senal de audio, o la magnitud 47 de la senal de audio. Por lo tanto, las diferentes senales de audio pueden intercambiarse mutuamente segun el contexto de la realizacion.

Otras realizaciones se refieren a diferentes bancos de filtro o dominios de transformacion utilizados para el procesamiento de tiempo-frecuencia de la invencion, por ejemplo el dominio de la transformada de Fourier de tiempo reducido (STFT), de la Transformada de Coseno Discreta Modificada Compleja (CMDCT), o de Transformada de Fourier Discreta (DFT). Por lo tanto, se pueden tener en cuenta las propiedades espedficas de la fase relacionadas con la transformada. En detalle, si se copian, por ejemplo, los coeficientes de un numero par a un numero impar o viceversa, es decir si se copia la segunda sub-banda de la senal de audio original a la novena sub-banda en lugar de la octava sub-banda como se describe en las realizaciones, se puede usar la compleja conjugada del parche para el procesamiento. Lo mismo se aplica a un espejado de los parches en lugar de usar por ejemplo, el algoritmo de copiado, para superar el orden invertido de los angulos de fase dentro de un parche.

Otras realizaciones podnan resignar la informacion secundaria del codificador y estimar algunos o todos los parametros de correccion necesarios del lado del decodificador. Otras realizaciones podnan tener otros esquemas de generacion de parches subyacentes para BWE que utilicen, por ejemplo, diferentes porciones de la banda base, un numero o tamano diferente de parches o tecnicas de transposicion diferentes, por ejemplo espejado espectral o modulacion de banda de lateral unica (SSB). Tambien podnan existir variaciones en las que se estipula exactamente la correccion de fase en el flujo de senales de smtesis de BWE. Mas aun, el alisado se realiza utilizando una ventana deslizante de Hann, que puede reemplazarse para una mayor eficacia computacional, por ejemplo, por IIR de primer orden.

El uso de los codecs perceptuales de audio de la tecnica actual con frecuencia perjudica la coherencia de fases de

5

10

15

20

25

30

35

40

45

50

55

60

los componentes espectrales de una senal de audio, especialmente a tasas de bits bajas, donde se aplican tecnicas de codificacion parametrica como la ampliacion de ancho de banda. Esto lleva a una alteracion de la derivada de fase de la senal de audio. Sin embargo, en ciertos tipos de senal la conservacion de la derivada de fase es importante. Como resultado, se perjudica la calidad perceptual de esos sonidos. La presente invencion reajusta la derivada de fase ya sea en la frecuencia (“vertical”) o en el tiempo (“horizontal”) de esas senales si una restauracion de la derivada de fase es perceptualmente ventajosa. Mas aun, se toma una decision de si se prefiere perceptualmente ajustar la derivada de la fase vertical o la horizontal. La transmision de solo informacion secundaria muy compacta es necesaria para controlar el procesamiento de correccion de la derivada de fase. Por lo tanto, la invencion mejora la calidad del sonido de los codificadores perceptuales de audio a costa de una moderada informacion secundaria.

En otras palabras, la replicacion de la banda espectral (SBR) puede causar errores en el espectro de fase. Se estudio la percepcion humana de estos errores, revelando dos efectos perceptualmente significativos: diferencias en las frecuencias y las posiciones temporales de los armonicos. Los errores de frecuencia parecen ser perceptibles solo cuando la frecuencia fundamental es suficientemente alta para que solo haya un armonico dentro de una banda de ERB. En consecuencia, los errores de posicion temporal solo parecen ser perceptibles si la frecuencia fundamental es baja y si las fases de los armonicos estan alineadas en la frecuencia.

Los errores de frecuencia pueden detectarse calculando la derivada de la fase en el tiempo (PDT). Si los valores de PDT son estables en el tiempo, sus diferencias entre las senales procesadas por SBR y las originales deben corregirse. Esto efectivamente corrige las frecuencias de los armonicos, y por consiguiente, se evita la percepcion de desarmoma.

Los errores de posicion temporal pueden detectarse calculando la derivada de la fase en el tiempo (PDT). Si los valores de PDT son estables en la frecuencia, las diferencias entre las senales procesadas por SBR y las originales deben corregirse. Esto efectivamente corrige las posiciones temporales de los armonicos, y por consiguiente, se evita la percepcion de ruidos de modulacion a las frecuencias de cruce.

Aunque se ha descrito la presente invencion en el contexto de diagramas de bloques en que los bloques representan componentes reales o logicos, la presente invencion tambien puede implementarse por un metodo implementado por ordenador. En este ultimo caso, los bloques representan etapas correspondientes del metodo, donde estas etapas representan las funcionalidades realizadas por bloques logicos o ffsicos de hardware correspondientes.

Si bien se han descrito algunos aspectos en el contexto de un aparato, es obvio que estos aspectos tambien representan una descripcion del metodo correspondiente, en el cual un bloque o dispositivo corresponde a una etapa del metodo o a una caractenstica de una etapa del metodo. De manera analoga, los aspectos descritos en el contexto de una etapa del metodo tambien representan una descripcion de un bloque o elemento correspondiente o de una caractenstica de un aparato correspondiente. Algunas o todas las etapas del metodo pueden ejecutarse por (o utilizando) un aparato de hardware, como por ejemplo un microprocesador, un ordenador programable o un circuito electronico. En algunas realizaciones, una o mas de las etapas mas importantes del metodo pueden ejecutarse por un aparato de este tipo.

La senal de inventiva transmitida o codificada puede almacenarse en un medio de almacenamiento digital o puede transmitirse por un medio de transmision tal como un medio de transmision inalambrico o un medio de transmision por cable tal como la Internet.

Dependiendo de ciertos requisitos de implementacion, las realizaciones de la invencion pueden implementarse en hardware o en software. La implementacion se puede realizar empleando un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un Blue-Ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene almacenada en la misma senales control legibles electronicamente, que cooperan (o tienen capacidad para cooperar) con un sistema informatico programable de tal manera que se realice el metodo respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.

Algunas realizaciones de acuerdo con la invencion comprenden un portador de datos que comprende senales de control legibles electronicamente, con capacidad para cooperar con un sistema informatico programable de tal manera que se realice uno de los metodos descritos en el presente documento.

En general, las realizaciones de la presente invencion pueden implementarse como un producto de programa informatico con un codigo de programa, siendo el codigo de programa operativo para realizar uno de los metodos al ejecutarse el programa informatico en un ordenador. El codigo de programa puede almacenarse, por ejemplo, en un portador legible por una maquina.

Otras realizaciones comprenden el programa informatico para realizar uno de los metodos descritos en el presente documento, almacenado en un portador legible por una maquina.

5

10

15

20

25

30

35

40

45

50

55

60

Dicho de otro modo, una realizacion del metodo de la invencion consiste, por lo tanto, en un programa informatico que consta de un codigo de programa para realizar uno de los metodos descritos en el presente documento al ejecutarse el programa informatico en un ordenador.

Otra realizacion del metodo de la invencion consiste, por lo tanto, en un portador de datos (o un medio de almacenamiento no transitorio tal como un medio de almacenamiento digital o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informatico para realizar uno de los metodos descritos en el presente documento. El portador de datos, el medio de almacenamiento digital o el medio grabado son por lo general tangibles y/o no transitorios.

Otra realizacion del metodo de la invencion es, por lo tanto, un flujo de datos o una secuencia de senales que representa el programa informatico para realizar uno de los metodos descritos en el presente documento. El flujo de datos o la secuencia de senales pueden estar configurados, por ejemplo, para transferirse a traves de una conexion de comunicacion de datos, por ejemplo, a traves de la Internet.

Otra realizacion comprende un medio de procesamiento, por ejemplo un ordenador, o un dispositivo logico programable, configurado o adaptado para realizar uno de los metodos descritos en el presente documento.

Otra realizacion comprende un ordenador que tiene instalado en el mismo el programa informatico para realizar uno de los metodos descritos en el presente documento.

Otra realizacion de acuerdo con la invencion comprende un aparato o un sistema configurado para transferir (por ejemplo por electronica u opticamente) un programa informatico para transferir uno de los metodos descritos en el presente documento a un receptor. El receptor puede ser, por ejemplo, un ordenador, un dispositivo movil, un dispositivo de memoria o similar. El aparato o sistema puede comprender, por ejemplo, un servidor de archivos para transferir el programa informatico a un receptor.

En algunas realizaciones, se puede utilizar un dispositivo logico programable (por ejemplo, un campo de matrices de puertas programables) para realizar algunas o todas las funcionalidades de los metodos descritos en el presente documento. En algunas realizaciones, un campo de matrices de puertas programables puede cooperar con un microprocesador para realizar uno de los metodos descritos en el presente documento. Por lo general, los metodos se realizan preferentemente por cualquier aparato de hardware.

Las realizaciones anteriormente descritas son meramente ilustrativas de los principios de la presente invencion. Se entiende que seran evidentes modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento para los expertos en la materia. Por lo tanto, solo se pretende limitarse al alcance de las siguientes reivindicaciones de patente y no a los detalles espedficos presentados a manera de descripcion y explicacion de las realizaciones del presente documento.

Referencias

[1] Painter, T.: Spanias, A. Perceptual coding of digital audio, Proceedings of the IEEE, 88(4), 2000; pags. 451513.

[2] Larsen, E.; Aarts, R. Audio Bandwidth Extension: Application of psychoacoustics, signal processing and loudspeaker design, John Wiley and Sons Ltd, 2004, Capftulos 5, 6.

[3] Dietz, M.; Liljeryd, L.; Kjorling, K.; Kunz, 0. Spectral Band Replication, a Novel Approach in Audio Coding, 112th AES Convention, abril de 2002, Preimpresion 5553.

[4] Nagel, F.; Disch, S.; Rettelbach, N. A Phase Vocoder Driven Bandwidth Extension Method with Novel Transient Handling for Audio Codecs, 126th AES Convention, 2009.

[5] D. Griesinger 'The Relationship between Audience Engagement and the ability to Perceive Pitch, Timbre, Azimuth and Envelopment of Multiple Sources' Tonmeister Tagung 2010.

[6] D. Dorran y R. Lawlor, "Time-scale modification of music using a synchronized subband/time domain approach," IEEE International Conference on Acoustics, Speech and Signal Processing, pags. IV 225 - IV 228, Montreal, mayo de 2004.

[7] J. Laroche, "Frequency-domain techniques for high quality voice modification", Proceedings of the International Conference on Digital Audio Effects, pags. 328-322, 2003.

[8] Laroche, J.; Dolson, M.; , "Phase-vocoder: about this phasiness business", Applications of Signal Processing to Audio and Acoustics, 1997. 1997 IEEE ASSP Workshop on, vol., n°, pags. 4 pags., 19-22, Oct 1997

[9] M. Dietz, L. Liljeryd, K. Kjorling y O. Kunz, “Spectral band replication, a novel approach in audio coding," in 5 aEs 112th Convention, (Munich, Alemania), mayo de 2002.

[10] P. Ekstrand, “Bandwidth extension of audio signals by spectral band replication", in IEEE Benelux Workshop on Model based Processing and Coding of Audio, (Leuven, Belgica), noviembre de 2002.

10 [11] B. C. J. Moore y B. R. Glasberg, “Suggested formulae for calculating auditory-filter bandwidths and excitation

patterns", J. Acoust. Soc. Am., vol. 74, pags. 750-753, septiembre de 1983.

[12] T. M. Shackleton y R. P. Carlyon, “The role of resolved and unresolved harmonics in pitch perception and frequency modulation discrimination", J. Acoust. Soc. Am., vol. 95, pags. 3529-3540, junio de 1994.

15

[13] M.-V. Laitinen, S. Disch y V. Pulkki, “Sensitivity of human hearing to changes in phase spectrum", J. Audio Eng. Soc., vol. 61, pags. 860{877, noviembre de 2013.

[14] A. Klapuri, “Multiple fundamental frequency estimation based on harmonicity and spectral smoothness", IEEE 20 T ransactions on Speech and Audio Processing, vol. 11, noviembre de 2003.

Claims

5

10

15

20

25

30

35

40

45

50

55

60

REIVINDICACIONES

1. Un procesador de audio (50') para procesar una senal de audio (55), comprendiendo el procesador de audio (50'):

un determinador de medida de fase objetivo (65') para determinar una medida de fase objetivo (85') para la senal de audio (55) en una trama de tiempo (75);

un calculador de error de fase (200) para calcular un error de fase (105') usando una fase de la senal de audio (55) en la trama de tiempo (75) y la medida de fase objetivo (85'); y

un corrector de fase (70') configurado para corregir la fase de la senal de audio (55) en la trama de tiempo usando el error de fase (105').
2. El procesador de audio (50') de acuerdo con la reivindicacion 1,

en el que la senal de audio (55) comprende una pluralidad de sub-bandas (95) para la trama de tiempo (75); en el que el determinador de medida de fase objetivo (65') esta configurado para determinar una primera medida de fase objetivo (85a') para una primera senal de sub-banda (95a) y una segunda medida de fase objetivo (85b') para una segunda senal de sub-banda (95b);

en el que el calculador de error de fase (200) esta configurado para formar un vector de errores de fase (105'), en el que un primer elemento del vector hace referencia a una primera desviacion (105a') de la fase de la primera senal de sub-banda (95a) y la primera medida de fase objetivo (85a') y en el que un segundo elemento del vector hace referencia a una segunda desviacion (105b') de la fase de la segunda senal de sub-banda (95b) y la segunda medida de fase objetivo (85b');

que comprende un sintetizador de senal de audio (100) para sintetizar una senal de audio corregida (90') usando una primera senal de sub-banda corregida (90a') y una segunda senal de sub-banda corregida (90b').
3. El procesador de audio (50') de acuerdo con la reivindicacion 1 o 2,

en el que una pluralidad de sub-bandas (95) se agrupan en una banda base (30) y un conjunto de parches de frecuencia (40), comprendiendo la banda base (30) una sub-banda (95) de la senal de audio (55) y el conjunto de parches de frecuencia (40), que comprende la al menos una sub-banda (95) de la banda base (30) a una frecuencia mas alta que la frecuencia de la al menos una sub-banda en la banda base;

en el que el calculador de error de fase (200) esta configurado para calcular una media de elementos de un vector de errores de fase (105') que hace referencia a un primer parche (40a) del conjunto de parches de frecuencia (40) para obtener un error de fase promedio (105'');

en el que el corrector de fase (70') esta configurado para corregir una fase de las senales de sub-banda (95) en el primer y posteriores parches de frecuencia (40) del conjunto de parches de frecuencia usando un error de fase de media ponderada, en el que el error de fase promedio (10'') se pondera de acuerdo con un mdice del parche de frecuencia (40) para obtener una senal de parche modificada (40').
4. El procesador de audio (50') de acuerdo con una de las reivindicaciones 1 a 3 que comprende:

un calculador de derivada de fase de senal de audio (210) configurado para calcular una media de derivadas de la fase en la frecuencia (PDF) (215) para una banda base (30);

el corrector de fase (70') configurado para calcular una senal de parche modificada adicional (40'') con un primer parche de frecuencia optimizado anadiendo la media de las derivadas de la fase en la frecuencia (215),

ponderada por un mdice de sub-banda actual, a la fase de la senal de sub-banda con un mdice de sub-banda

mas alto en una banda base (30) de la senal de audio (55).
5. El procesador de audio (50') de acuerdo con una de las reivindicaciones 1 a 3 que comprende:

un calculador de derivada de fase de senal de audio (210) configurado para calcular una media de derivadas de la fase en la frecuencia (PDF) (215) para una pluralidad de senales de sub-banda que comprenden frecuencias mas altas que la senal de banda base (30) para detectar transitorios en la senal de sub-banda (95); el corrector de fase (70') configurado para calcular una senal de parche modificada adicional (40'') con un primer parche de frecuencia optimizado anadiendo la media de las derivadas de la fase en la frecuencia (215),

ponderada por un mdice de sub-bandas actual, a la fase de la senal de sub-banda con un mdice de sub-banda

mas alto en una banda base (30) de la senal de audio (55).
6. El procesador de audio (50') de acuerdo con la reivindicacion 4 o 5,

en el que el corrector de fase (70') esta configurado para actualizar de manera recursiva, basandose en los parches de frecuencia (40), la senal de parche modificada adicional (40'') anadiendo la media de las derivadas de la fase en la frecuencia (215), ponderada por el mdice de sub-banda de la sub-banda actual (95), a la fase de la senal de sub- banda con el mdice de sub-banda mas alto en el parche de frecuencia anterior.
7. El procesador de audio (50') de acuerdo con la reivindicacion 6,

en el que el corrector de fase (70') esta configurado para calcular una media ponderada de la senal de parche

5

10

15

20

25

30

35

40

45

50

55

60

modificada (40') y la senal de parche modificada adicional (40'') para obtener una senal de parche modificada combinada (40''');

en el que el corrector de fase (70') esta configurado para actualizar de manera recursiva, basandose en los parches de frecuencia (40), la senal de parche modificada combinada (40''') anadiendo la media de las derivadas de la fase en la frecuencia (215), ponderada por el mdice de sub-banda de la sub-banda actual (95), a la fase de la senal de sub-banda con el mdice de sub-banda mas alto en el parche de frecuencia anterior de la senal de parche modificada combinada (40''').
8. El procesador de audio de acuerdo con una de las reivindicaciones 1 a 7, en el que el corrector de fase (70') esta configurado para calcular una media ponderada de una senal de parche (40') y una senal de parche modificada (40'') usando una media circular de la senal de parche (40)') en el parche de frecuencia actual ponderado con una primera funcion de ponderacion espedfica y la senal de parche modificada (40'') en el parche de frecuencia actual ponderado con una segunda funcion de ponderacion espedfica.
9. El procesador de audio (50') de acuerdo con una de las reivindicaciones 1 a 8, en el que el corrector de fase (70') esta configurado para formar un vector de desviaciones de fase, en el que las desviaciones de fase se calculan usando una senal de parche modificada combinada (40''') y la senal de audio (55).
10. El procesador de audio (50') de acuerdo con una de las reivindicaciones 1 - 9, en el que el determinador de medida de fase objetivo (65') comprende:

un extractor de flujo de datos (130') configurado para extraer una posicion pico (230) y una frecuencia fundamental de posiciones pico (235) en una trama de tiempo actual de la senal de audio (55) desde un flujo de datos (135); o

un analizador de senal de audio (225) configurado para analizar la senal de audio (55) en la trama de tiempo actual para calcular una posicion pico (230) y una frecuencia fundamental de posiciones pico (235) en la trama de tiempo actual;

un generador de espectro objetivo (240) para estimar posiciones pico adicionales en la trama de tiempo actual usando la posicion pico (230) y la frecuencia fundamental de posiciones pico (235).
11. El procesador de audio (50') de acuerdo con la reivindicacion 10, en el que el generador de espectro objetivo (240) comprende:

un generador de pico (245) para generar un tren de pulsos (265) en el tiempo;

un formador de senales (250) para ajustar una frecuencia del tren de pulsos (265) de acuerdo con la frecuencia fundamental de posiciones pico (235);

un posicionador de pulso (255) para ajustar la fase del tren de pulsos (265) de acuerdo con la posicion de pico (230);

un analizador de espectro (260) para generar un espectro de fase del tren de pulsos ajustado, en el que la senal de espectro de fase del dominio del tiempo es la medida de fase objetivo (85').
12. Decodificador (110') para decodificar una senal de audio (25), comprendiendo el decodificador (110'):

un decodificador nucleo (115) configurado para decodificar una senal de audio (25) en una trama de tiempo de la banda base;

un generador de parches (120) configurado para generar parches en un conjunto de sub-bandas (95) de la banda base decodificada, en el que el conjunto de sub-bandas forma un parche, hacia sub-bandas adicionales en la trama de tiempo, adyacentes a la banda base, para obtener una senal de audio (32) que comprende frecuencias mas altas que las frecuencias en la banda base;

un procesador de audio (50') de acuerdo con una de las reivindicaciones 1 - 11, en el que el procesador de audio (50') esta configurado para corregir fases de las sub-bandas del parche de acuerdo con una medida de fase objetivo.
13. El decodificador (110') de acuerdo con la reivindicacion 12,

en el que el generador de parches (120) esta configurado para generar parches en el conjunto de sub-bandas (95) de la senal de audio (25), en el que el conjunto de sub-bandas forma un parche adicional, hacia sub-bandas adicionales de la trama de tiempo, adyacentes al parche; y

en el que el procesador de audio (50') esta configurado para corregir las fases en las sub-bandas del parche adicional; o

en el que el generador de parches (120) esta configurado para generar parches del parche corregido hacia sub- bandas adicionales de la trama de tiempo, adyacentes al parche.
14. El decodificador (110') de acuerdo con la reivindicacion 12 o 13,

en el que el decodificador (110') comprende un procesador de audio adicional (50) de acuerdo con una de las

5

10

15

20

25

30

35

40

45

50

55

60

reivindicaciones 1-11, en el que el procesador de audio adicional (50) esta configurado para recibir una derivada de la fase adicional en la frecuencia y para corregir transitorios en la senal de audio (32) usando la derivada de la fase en la frecuencia recibida.
15. Codificador (155') para codificar una senal de audio (55), comprendiendo el codificador:

un codificador nucleo (160) configurado para codificar en nucleo la senal de audio (55) para obtener una senal de audio codificada en nucleo (145) que tiene un numero reducido de sub-bandas con respecto a la senal de audio (55);

un analizador de frecuencia fundamental (175) para analizar posiciones pico (230) en la senal de audio (55) o una version filtrada en paso bajo de la senal de audio para obtener una estimacion de frecuencia fundamental de posiciones pico (235) en la senal de audio;

un extractor de parametros (165) configurado para extraer parametros (190) de sub-bandas de la senal de audio (55) no incluidas en la senal de audio codificada en nucleo (145);

un formador de senal de salida (170) configurado para formar una senal de salida (135) que comprende la senal de audio codificada en nucleo (145), los parametros (190), la frecuencia fundamental de posiciones pico (235), y una de las posiciones de pico (230).
16. Codificador (155) de acuerdo con la reivindicacion 15,

en el que el formador de senal de salida (170) esta configurado para formar la senal de salida (135) en una secuencia de tramas, en el que cada trama comprende la senal de audio codificada en nucleo (145), los parametros (190), y en el que unicamente cada enesima trama comprende la estimacion de frecuencia fundamental de posiciones pico (235) y la posicion de pico (230), en el que N es mayor o igual que 2.
17. Metodo (3400) para procesar una senal de audio (55) con un procesador de audio (50'), comprendiendo el metodo (3400) las siguientes etapas:

determinar una medida de fase objetivo (85') para la senal de audio en una trama de tiempo con un determinador de medida de fase objetivo (65');

calcular un error de fase (105') con un calculador de error de fase (200) usando la fase de la senal de audio en la trama de tiempo y la medida de fase objetivo (85'); y

corregir la fase de la senal de audio en la trama de tiempo con un corrector de fase (70') usando el error de fase (105').
18. Metodo (3500) para decodificar una senal de audio (25) con un decodificador (110'), comprendiendo el metodo (3500) las siguientes etapas:

decodificar una senal de audio (25) en una trama de tiempo de la banda base con un decodificador en nucleo (115);

generar parches en un conjunto de sub-bandas de la banda base decodificada con un generador de parches (120), en el que el conjunto de sub-bandas (95) forma un parche, hacia sub-bandas adicionales en la trama de tiempo, adyacentes a la banda base, para obtener una senal de audio (32) que comprende frecuencias mas altas que las frecuencias en la banda base;

corregir fases en las sub-bandas del primer parche con un procesador de audio (50') de acuerdo con una medida de fase objetivo.
19. Metodo (3600) para codificar una senal de audio con un codificador (155), comprendiendo el metodo (3600) las siguientes etapas:

codificar en nucleo la senal de audio con un codificador en nucleo (160) para obtener una senal de audio codificada en nucleo (145) que tiene un numero reducido de sub-bandas con respecto a la senal de audio (55); analizar la senal de audio (55) o una version filtrada en paso bajo de la senal de audio con un analizador de frecuencia (175) para obtener una estimacion de frecuencia fundamental de posiciones pico (130) en la senal de audio (55);

extraer parametros (190) de sub-bandas de la senal de audio (55) no incluidas en la senal de audio codificada en nucleo con un extractor de parametros (165);

formar una senal de salida (135) con un formador de senal de salida (170) que comprende la senal de audio codificada en nucleo (145), los parametros (190), la frecuencia fundamental de posiciones pico (235), y una de las posiciones de pico (230).
20. Programa informatico que tiene un codigo de programa adaptado para realizar el metodo de acuerdo con una de las reivindicaciones 17 - 19 cuando el programa informatico se ejecuta en un ordenador.
21. Senal de audio (135) que comprende:

una senal de audio codificada en nucleo (145) que tiene un numero reducido de sub-bandas con respecto a una senal de audio (55);

representando un parametro (190) sub-bandas de la senal de audio (55) no incluidas en la senal de audio 5 codificada en nucleo (145);

una estimacion de frecuencia fundamental de posiciones pico (235), y una estimacion de posicion pico de la senal de audio (230).