ES2478871T3

ES2478871T3 - Dispositivo, procedimiento y programa de ordenador para manipular una señal de audio

Info

Publication number: ES2478871T3
Application number: ES10710836.7T
Authority: ES
Inventors: Sascha Disch; Frederik Nagel; Max Neuendorf; Christian Helmrich; Dominik Zorn
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2009-03-26
Filing date: 2010-03-22
Publication date: 2014-07-23
Anticipated expiration: 2030-03-22
Also published as: AR075963A1; PL2234103T3; ATE526662T1; WO2010108895A1; EP2234103B1; HK1166415A1; EP2234103A1; CA2755834A1; CN102365681B; US8837750B2; TW201040943A; AU2010227598A1; BRPI1006217A2; ZA201106971B; KR20110139294A; PL2411976T3; CN102365681A; JP5328977B2; TWI421859B; RU2011138839A

Abstract

Aparato para manipular una señal de audio (100), que comprende: un divisor en ventanas (102) destinado a generar una pluralidad (111; 811) de bloques sucesivos de muestras de audio, comprendiendo la pluralidad (111; 811) de bloques sucesivos al menos un bloque lleno (103; 803; 141-1; 902) de muestras de audio presentando el bloque lleno (103; 803; 141-1; 902) valores llenos y valores de señal de audio; presentando un primer convertidor (104) destinado a convertir el bloque lleno (103; 803; 141-1; 902) en una representación espectral (105) unos valores espectrales; un modificador de fase (106) destinado a modificar las fases de los valores espectrales, para obtener una representación espectral modificada (107); y un segundo convertidor (108) destinado a convertir la representación espectral modificada (107) en una señal de audio en el ámbito temporal modificado (109), comprendiendo el aparato por otro lado un detector de transitorios (134) destinado a determinar un acontecimiento transitorio (700, 701, 702, 703, 705, 707) en la señal de audio (100), en el cual el primer convertidor (104) está configurado para convertir el bloque lleno (103; 803; 141-1; 902) cuando el detector de transitorios (134) detecta el acontecimiento transitorio (700, 701, 702, 703, 705, 707) en un bloque (133-1; 135-1) de la señal de audio (100) correspondiente al bloque lleno (103; 803; 141-1; 902), y en el cual el primer convertidor (104) está configurado para convertir un bloque no lleno (133-2; 135-2; 141-2; 930) que presenta únicamente valores de señal de audio, correspondiendo el bloque no lleno (133-2; 135-2; 141-2; 930) al bloque de la señal de audio (100), cuando el transitorio (700, 701, 702, 703, 705, 707) no se detecta en el bloque.

Description

15

25

35

45

55

65

E10710836

08-07-2014

DESCRIPCIÓN

Dispositivo, procedimiento y programa de ordenador para manipular una señal de audio

[0001] El presente invento se refiere a un esquema para manipular una señal de audio modificando fases de valores espectrales de la señal de audio tal como adentro de un esquema de extensión de ancho de banda (BWE).

[0002] En Faller, C. et al: ". Efficient Representation of Spatial Audio Using Perceptual Parametrization," Aplicaciones de Procesamiento de Señales de Audio y Acústica, 2001 IEEE Workshop sobre 21 a 24 oct 2001, Piscataway, NJ, EE.UU., pp 199-202, XP010566909, se describe un esquema para la colocación simultánea de un número de fuentes en el espacio auditivo. El sistema se basa en una suposición acerca de la pertinencia de las señales de localización en diferentes bandas críticas. Dada la señal de suma de una serie de fuentes, es decir, una señal monofónica, y un conjunto de parámetros ( información lateral) el sistema es capaz de generar una señal binaural colocando espacialmente las fuentes contenidas en la señal monofónica. Las aplicaciones potenciales para el esquema son conferencias de escritorio multi-hablante y codificación de audio.

[0003] El documento WO 2007/016107 A2 da a conocer un método de codificación de audio en el que un codificador recibe una pluralidad de canales de entrada y genera uno o más canales de salida de audio y uno o más parámetros que describen relaciones espaciales deseadas entre una pluralidad de canales de audio que pueden derivarse a partir de los uno o más canales de salida de audio. El método comprende la detección de cambios en características de la señal con respecto al tiempo en una o más de la pluralidad de canales de entrada de audio, la identificación como límites de evento auditivo los cambios en características de la señal con respecto al tiempo en la uno o más de la pluralidad de canales de entrada de audio, constituyendo un segmento de audio entre límites consecutivos un evento auditivo en el canal o canales, y la generación de todos o algunos de los uno o más parámetros al menos en parte en respuesta a eventos auditivos y / o al grado de cambio en características de la señal asociados con los límites de evento auditivo. También se da a conocer un método mezclador ascendente de audio o de upmixing sensible al evento auditivo.

[0004] US 6.549.884 B1 describe un sistema para desplazar una señal de audio en el que se realiza remuestreo en el dominio de la frecuencia. El sistema incluye un método para el desplazamiento de una señal mediante la conversión de la señal a una representación en el dominio de frecuencia y luego la identificación de una región específica en la representación en el dominio de frecuencia. La región se encuentra en una primera ubicación de frecuencia. A continuación, la región se desplaza a una segunda ubicación de frecuencia para formar una representación en el dominio de frecuencia ajustada. Por último, la representación en el dominio de frecuencia ajustada se transforma en una señal de dominio de tiempo que representa la señal de entrada desplazada.

[0005] En Disch, S. y otros:. "An Amplitude-and Frequency-Modulation Vocoder for Audio Signal Processing", Proc. 11 ª Conferencia Internacional sobre los Efectos de audio digital (DAFX-08) 1 de septiembre de 2008, pp 1-7, XP002574848, se describe un método de análisis / síntesis que proporciona los medios adecuados para reducir la brecha entre procesamiento de audio paramétrico y de forma de onda, permitiendo una transición sin problemas entre ambos enfoques.

[0006] El almacenamiento y la transmisión de señales de audio con frecuencia están sometidos a estrictas restricciones de cantidad de bits transmitidos. En el pasado, los codificadores eran forzados a reducir drásticamente el ancho de banda de audio transmitido cuando sólo se disponía de una muy baja cantidad de bits transmitidos. Los modernos codificadores–decodificadores de audio de hoy en día son capaces de codificar señales de banda ancha usando procedimientos de extensión de ancho de banda, como se describe en M. Dietz, L. Liljeryd, K. Kjörling y O. Kunz, Replicación de Banda Espectral, un enfoque novedoso en codificación de audio" (“Spectral Band Replication, a novel approach in audio coding”) en la 112º Convención AES, Munich, mayo de 2002; S. Meltzer, R. Böhm y F. Henn, " Codificadores–decodificadores de audio mejorados con SBR para radiodifusión digital tal como "Digital Radio Mondiale" (DRM)" (“SBR enhanced audio codecs for digital broadcasting such as “Digital Radio Mondiale” (DRM),”) en la 112º Convención AES, Munich, mayo de 2002; T. Ziegler, A. Ehret, P. Ekstrand and M. Lutzky, "Mejoramiento de mp3 con SBR: Rasgos y Capacidades del nuevo Algoritmo mp3PRO" (“Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm,”) en la 112º Convención AES, Munich, mayo de 2002; Norma Internacional ISO/IEC 14496–3: 2001/FPDAM 1 “Extensión de Ancho de Banda” ISO/IEC, 2002. (International Standard ISO/IEC 14496–3:2001/FPDAM 1, “Bandwidth Extension” ISO/IEC, 2002.) "Procedimiento y Aparato de extensión de ancho de banda de voz" (Speech bandwidth extension method and apparatus) Vasu Iyengar et al.; Larsen, R. M. Aarts, y M. Danessis. "Extensión de ancho de banda de alta frecuencia eficiente de música y voz" ("Efficient high–frequency bandwidth extension of music and speech") en la convención 112º AES, Munich, Alemania, mayo de 2002; R. M. Aarts, E. Larsen, y O. Ouweltjes. "Un enfoque unificado a la extensión de ancho de banda de baja y alta frecuencia" (A unified approach to low– and high frequency bandwidth extension). En la 115º Convención AES, New York, USA, octubre de 2003; K. Käyhkö. "Un Mejoramiento de Banda Ancha Robusto para Señal de Voz de Banda angosta" (A Robust Wideband Enhancement for Narrowband Speech Signal). Informe de investigación, Universidad de Technología de Helsinki, Laboratorio de Acústica y Procesamiento de Señal de Audio (Research Report, Helsinki University of Technology, Laboratory of Acoustics and Audio Signal Processing), 2001; E. Larsen y R. M. Aarts. "Extensión de Ancho de Banda de Audio – Aplicación a Psicoacústica, Procesamiento 2

15

25

35

45

55

65

E10710836

08-07-2014

de Señal y Diseño de Altavoz" (Audio Bandwidth Extension – Application to psychoacoustics, Signal Processing and Loudspeaker Design). John Wiley & Sons, Ltd, 2004; Larsen, R. M. Aarts, y M. Danessis "Extensión de ancho de banda de alta frecuencia eficiente de música y voz" ("Efficient high–frequency bandwidth extension of music and speech") en la convención 112º AES, Munich, Alemania, mayo de 2002; J. Makhoul. "Análisis Espectral de Voz mediante Predicción Lineal" (Spectral Analysis of Speech by Linear Prediction). IEEE "Transacciones de Audio y Electroacústica" (Transactions on Audio and Electroacoustics), AU–21(3), junio de 1973; Solicitud de Patente de Estados Unidos Número 08/951.029, Ohmori, et al. "Sistema y procedimiento de extensión de ancho de banda de audio" ("Audio band width extending system and method") y Patente de Estados Unidos Nº 6895375, Malah, D & Cox, R. V.: "Sistema para extensión de ancho de banda de vos de banda angosta" (System for bandwidth extension of Narrow–band speech). Estos algoritmos se basan en una representación paramétrica del contenido de alta frecuencia (HF), que es generado a partir de la parte de baja frecuencia (LF) codificada por forma de onda de la señal decodificada mediante una transposición dentro de la región espectral de HF ("parcheado") y aplicación de una post procesamiento impulsado por parámetros.

[0007] Desde hace poco, se utiliza un nuevo algoritmo que emplea vocoderes de fase, como se describe, por ejemplo, en M. Puckette. Vocoder de fase sincronizada. Congreso IEEE ASSP sobre Aplicaciones de Procesamiento de Señales en Audio y Acústica. (Phase–locked Vocoder. IEEE ASSP Conference on Applications of Signal Processing to Audio and Acoustics), Mohonk 1995.", A. Röbel, "Detección y preservación de componentes transitorios en el vocoder de fase." ("Transient detection and preservation in the phase vocoder,") citeseer.ist.psu.edu/679246.html; Laroche L., Dolson M.: "Modificación mejorada de escala de tiempo de vocoder de fase de audio (“Improved phase vocoder timescale modification of audio"), IEEE Trans, sobre procesamiento de voz y audio (IEEE Trans. Speech and Audio Processing), vol. 7, no. 3, pp. 323—332 and Patente de Estados Unidos Nº 6549884 Laroche, J. & Dolson, M.: Corrimiento de tono de vocoder de fase para la generación de parche. (Phase– vocoder pitch–shifting for the patch generation), ha sido presentada en Frederik Nagel, Sascha Disch, "Un procedimiento de extensión de ancho de banda para codificadores–decodificadores de audio (“A harmonic bandwidth extension method for audio codecs”), ICASSP Congreso Internacional sobre Procesamiento de Acústica, Voz y Señal. (ICASSP International Conference on Acoustics, Speech and Signal Processing), IEEE CNF, Taipei, Taiwan, abril de 2009. Sin embargo, este procedimiento denominado " extensión de ancho de banda armónica" (HBE) tiende a degradaciones de calidad de componentes transitorios contenidos en la señal de audio como se describe en Frederik Nagel, Sascha Disch, Nikolaus Rettelbach, "Un procedimiento de extensión de ancho de banda impulsado por vocoder de fase con un manejo novedoso de componente transitorio para codificadores– decodificadores de audio" (“A phase vocoder driven bandwidth extension method with novel transient handling for audio codecs,”) en el 116º Congreso de AES, Munich, Alemania, mayo de 2009, ya que no se garantiza que se preserve una coherencia vertical sobre las sub–bandas en el algoritmo de vocoder de fase estándar y, más aún, se debe realizar el re–cálculo de las fases de la transformación discreta de Fourier (DFT) sobre bloques de tiempo aislados de una transformada asumiendo implícitamente una periodicidad circular.

[0008] Es conocido que se pueden observar específicamente dos tipos de artefactos debido al procesamiento de vocoder de fase basado en bloques. Estos son, en particular, una dispersión de la forma de onda y una aliasing en el tiempo debido a efectos de convolución cíclica en el tiempo de la señal debido a la aplicación de las fases nuevamente calculados.

[0009] En otras palabras, debido a la aplicación de una modificación de fase sobre los valores espectrales de la señal de audio en el algoritmo de BWE, un componente transitorio contendido en un bloque de la señal de audio puede ser envuelto alrededor del bloque, es decir es convuelto cíclicamente de vuelta dentro del bloque. Eso da como resultado un aliasing en el tiempo y, en consecuencia, conduce a una degradación de la señal de audio.

[0010] Por lo tanto, se deben emplear procedimientos para un tratamiento especial de las partes de señal que contienen componentes transitorios. Sin embargo, la complejidad computacional es un asunto serio, debido a que especialmente el algoritmo de BWE es realizado sobre el lado del decodificador de una cadena de codificador– decodificador. Por ende, medidas contra la recién mencionada degradación de señal de audio preferiblemente no deberían venir a costo de una complejidad computacional ampliamente incrementada.

[0011] El objetivo del presente invento es proveer un esquema para manipular una señal de audio modificando las fases de valores espectrales de la señal de audio, por ejemplo, en el contexto de un esquema de BWE que habilita la obtención de un mejor balance entre la reducción de la degradación recién mencionada y la complejidad computacional.

[0012] Este objetivo se logra mediante un dispositivo de acuerdo con la reivindicación 1 o un procedimiento de acuerdo con la reivindicación 17 o un programa de computadora de acuerdo con la reivindicación 18.

[0013] La idea básica en la cual se basa el presente invento es que el mejor balance arriba mencionado puede ser logrado cuando se genera por lo menos un bloque rellenado de muestras de audio que tienen valores de relleno y valores de señal de audio antes de modificar las fases de los valores espectrales del bloque rellenado. Con esta medida se puede evitar una deriva hacia los bordes debido a la modificación de fase y se debe evitar que ocurra o

15

25

35

45

55

65

E10710836

08-07-2014

por lo menos que se haga menos probable un correspondiente aliasing en el tiempo, y por lo tanto se mantenga la calidad de audio con bajos esfuerzos.

[0014] El concepto inventivo para manipular una señal de audio es basado en la generación de una pluralidad de bloques consecutivos de muestras de audio, en lo cual la pluralidad de bloques consecutivos comprende por lo menos un bloque rellenado de muestras de audio, en lo cual el bloque rellenado tiene valores de relleno y valores de señal de audio. Luego se convierte el bloque rellenado en una representación espectral que tiene valores espectrales. Entonces se modifican los valores espectrales para obtener una representación espectral modificada. Finalmente, se convierte la representación espectral modificada en una señal de audio modificada en el dominio del tiempo. Luego se puede eliminar el rango de valores que se ha utilizado para el relleno.

[0015] De acuerdo con una realización del presente invento, el bloque rellenado es generado insertando valores de relleno, que consisten preferiblemente en valores cero, antes o después de un bloque de tiempo.

[0016] De acuerdo con una realización del presente invento, los bloques rellenados son restringidos a los que contiene un evento transitorio, restringiendo de ese modo la sobrecarga de complejidad computacional adicional a estos eventos. Más precisamente, un bloque es procesado, por ejemplo, en una manera avanzada por un algoritmo de BWE, cuando se detecta un evento transitorio en este bloque de la señal de audio, en la forma de un bloque rellenado, mientras otro bloque de la señal de audio es procesado como un bloque no rellenado, que tiene valores de señal de audio, en una manera estándar de un algoritmo de BWE, cuando no se detecta ningún evento transitorio en el bloque. Mediante una conmutación adaptativa entre procesamiento estándar y procesamiento avanzado, se puede reducir significativamente el esfuerzo computacional promedio, lo cual permite, por ejemplo, una velocidad y memoria de procesador reducidas.

[0017] De acuerdo con algunas realizaciones del presente invento, los valores de relleno están dispuestos delante y/o detrás de un bloque de tiempo en el cual se detectó un evento transitorio, de modo que el bloque rellenado es adaptado por un primer convertidor y un segundo convertidor para una conversión entre el domino del tiempo y el dominio de la frecuencia, por ejemplo, a través de un procesador de DFT y uno de IDFT, respectivamente. Una solución preferible sería disponer el relleno simétricamente alrededor del bloque de tiempo.

[0018] De acuerdo con una realización, el por lo menos un bloque rellenado es generado agregando valores de relleno tales como valores cero a un bloque de muestras de audio de la señal de audio. De manera alternativa, se utiliza una función de ventana de análisis que tiene por lo menos una zona de guardia agregada a la posición inicial de la función de ventana o a la posición final de la función de ventana para formar un bloque rellenado aplicando esta función de ventana de análisis a un bloque de muestras de audio de la señal de audio. La función de ventana puede comprender, por ejemplo, una ventana de Hann con zonas de guardia.

[0019] En lo que sigue se explican, unas realizaciones del presente invento haciendo referencia a los dibujos adjuntos, en los cuales:

la Figura 1 muestra un diagrama de bloques de una realización para manipular la señal de audio;

la Figura 2 muestra un diagrama de bloques de una realización para llevar a cabo una extensión de ancho de banda usando la señal de audio;

la Figura 3 muestra un diagrama de bloques de una realización para llevar a cabo un algoritmo de extensión de ancho de banda usando distintos factores de BWE;

la Figura 4 muestra un diagrama de bloques de otra realización para convertir un bloque rellenado o un bloque sin rellenado usando un detector de componente transitorio;

la Figura 5 muestra un diagrama de bloque de una implementación de una realización de la Figura 4;

la Figura 6 muestra un diagrama de bloque de otra implementación de una realización de la Figura 4;

la Figura 7a muestra un gráfico de un bloque de señal ejemplar antes y después de una modificación de fase para ilustrar un efecto de una modificación de fase sobre una forma de onda de señal con un componente transitorio centrado en un bloque de tiempo;

la Figura 7b muestra un gráfico de un bloque de señal ejemplar antes y después de una modificación de fase para ilustrar un efecto de una modificación de fase sobre una forma de onda de señal con un componente transitorio en la vecindad de una primera muestra de un bloque de tiempo;

la Figura 8 muestra un diagrama de bloque de una vista global de otra realización del presente invento;

15

25

35

45

55

65

E10710836

08-07-2014

la Figura 9a muestra un gráfico de una función de ventana de análisis ejemplar en forma de una ventana de Hann con zonas de guardia, en lo cual las zonas de guardia son caracterizadas por ceros constantes; la ventana debe ser utilizada en una realización alternativa del presente invento;

la Figura 9b muestra un gráfico de una función de ventana de análisis ejemplar en forma de una ventana de Hann con zonas de guardia, en lo cual las zonas de guardia son caracterizadas por oscilaciones de pequeña amplitud; la ventana debe ser utilizada en otra realización alternativa del presente invento;

la Figura 10 muestra una ilustración esquemática para una manipulación de una banda espectral de una señal de audio en un esquema de extensión de ancho de banda;

la Figura 11 muestra una ilustración esquemática para una operación de superposición y suma ene contexto de un esquema de extensión de ancho de banda;

la Figura 12 muestra un diagrama de bloque y una ilustración esquemática para una implementación de una realización alternativa basada en la Figura 4; y

la Figura 13 muestra un diagrama de bloques de una típica implementación de extensión de ancho de banda armónica (HBE).

[0020] La Figura 1 ilustra un aparato para manipular una señal de audio, de acuerdo con una realización del presente invento. El aparato comprende un medio de ventaneo 102 que tiene una entrada 100 para una señal de audio. El medio de ventaneo 102 es implementado para generar una pluralidad de bloques consecutivos de muestras de audio, la cual comprende por lo menos un bloque rellenado. El bloque rellenado, en particular, tiene valores de relleno y valores de señal de audio. El bloque rellenado presente en una salida 103 del medio de ventaneo 102 es suministrado a un primer convertidor 104 que es implementado para convertir el bloque rellenado 103 en una representación espectral que tiene valores espectrales. Luego se suministran los valores espectrales en la salida 105 del primer convertidor 105 a un modificador de fase 106. El modificador de fase 106 es implementado para modificar fases de los valores espectrales 105 para obtener una representación espectral modificada en 107. Finalmente se suministrar la salida 107 a un segundo convertidor 108 que es implementado para convertir la representación espectral modificada 107 en una señal de audio modificada en el dominio del tiempo 109. La salida 109 del segundo convertidor 108 puede ser conectada además a un medio de diezmado que es requerido para un esquema de extensión de ancho de banda, como se discute en referencia a las Figuras 2, 3 y 8.

[0021] La Figura 2 muestra una ilustración esquemática de una realización para llevar a cabo un algoritmo de extensión de ancho de banda usando un factor de de extensión de ancho de banda (σ). Aquí, la señal de audio 100 se alimenta dentro del medio de ventaneo 102 que comprende un procesador de ventana de análisis 110 y un medio de rellenado subsiguiente 112. En una realización, el procesador de ventana de análisis 110 es implementado para generar una pluralidad de bloques consecutivos que tienen el mismo tamaño. La salida 111 del procesador de ventana de análisis 110 está conectada además con el medio de rellenado 112. En particular, el medio de rellenado 112 es implementado para rellenar un bloque de una pluralidad de bloques consecutivos en la salida 111 del procesador de ventana de análisis 110 para obtener el bloque rellenado en la salida 103 del medio de rellenado 112. Aquí, se obtiene el bloque rellenado insertando valores de relleno en posiciones de tiempo especificadas delante de una primera muestra de bloques consecutivos de muestras de audio o después de la última muestra de los bloques consecutivos de muestras de audio. El bloque rellenado 103 es convertido además por el primer convertidor 104 para obtener una representación espectral en la salida 105. Además, se utiliza un filtro pasa banda 114 que es implementado para extraer la señal pasa banda 113 desde la representación espectral 105 o la señal de audio 100. Se selecciona una característica pasa banda del filtro pasa banda 114 de modo que se restrinja la señal pasa banda 113 a un rango de frecuencia blanco apropiado. Aquí, el filtro pasa banda 114 recibe un factor de extensión de ancho de banda (σ) que es presente también en la salida 115 de un modificador de fase corriente abajo 106. En una realización del presente invento, se utiliza un factor de extensión de ancho de banda (σ) de 2.0 para llevar a cabo el algoritmo de extensión de ancho de banda. En el caso que la señal de audio 100 tiene, por ejemplo, un rango de frecuencia de 0 a 4 kHz, el filtro pasa banda 114 extraerá el rango de frecuencia de 2 a 4 kHz de modo que la señal pasa banda 113 será transformada por el subsiguiente algoritmo de BWE a un rango de frecuencia blanco de 4 a 8 kHz, siempre y cuando, por ejemplo, se aplica el factor de extensión de ancho de banda (σ) de 2.0 para seleccionar un filtro pasa banda apropiado 114 (ver la Figura 10). La representación espectral de la señal pasa banda en la salida 113 del filtro pasa banda 114 comprende una información de amplitud y una información de fase que es procesada además en un medio de ajuste 116 y el modificador de fase 106, respectivamente. El medio de ajuste 116 es implementado para ajustar los valores espectrales 113 de la información de amplitud por un factor, en lo cual el factor depende de una característica de superposición y suma en la cual se cuenta una relación de una primera distancia de tiempo (a) para un proceso de superposición y suma aplicada por el medio de ventaneo 102 y una distancia diferente de tiempo (b) aplicada por un medio de superposición y suma 124.

[0022] Por ejemplo, si hay una característica de superposición y suma con un proceso de superposición y suma de seis pasos de bloques consecutivos de muestras de audio que tienen la primera distancia de tiempo (a) y un cociente de la segunda distancia de tiempo (b) a la primera distancia de tiempo (a) de b/a=2, entonces el factor de 5

15

25

35

45

55

65

E10710836

08-07-2014

b/a x 1/6 será aplicado por el medio de ajuste 116 para ajustar los valores espectrales en la salida 113 (ver la Figura 11) asumiendo una ventana de análisis rectangular.

[0023] Sin embargo, este ajuste de amplitud específico puede ser aplicado sólo si se lleva a cabo un diezmado corriente abajo de manera subsiguiente al proceso de superposición y suma. Dado el case que se lleva a cabo el diezmado antes del proceso de superposición y suma, el diezmado puede tener un efecto sobre las amplitudes de los valores espectrales que en general se debe tener en cuenta en el medio de ajuste 116.

[0024] El modificador de fase 106 es configurado para ajustar o multiplicar, respectivamente, las fases de los valores espectrales 113 de la banda de la señal de audio con el factor de extensión de ancho de banda (σ), de modo que por lo menos una muestra de un bloque consecutivo de las muestras de audio es convuelto cíclicamente dentro del bloque.

[0025] El efecto de la convolución cíclica basada en una periodicidad circular, que es un efecto lateral no deseado de la conversión mediante el primer convertidor 104 y el segundo convertidor 108, es ilustrado en la Figura 7 por el ejemplo del componente transitorio 700 centrado en la ventana de análisis 704 (Figura 7a) y un componente transitorio en la vecindad de un borde de la ventana de análisis 704 (Figura 7b).

[0026] La Figura 7a muestra el componente transitorio 700 centrado en la ventana de análisis 704, es decir dentro del bloque consecutivo de muestras de audio que tienen una longitud de muestras 706 que incluye, por ejemplo, 1001 muestras con una primera muestra 708 y una última muestra 710 del bloque consecutivo. La señal original 700 es indicada por una fina línea de trazos. Después de la conversión por el primer convertidor 104 y la subsiguiente aplicación de una modificación de fase, por ejemplo, mediante el uso de un vocoder de fase al espectro de la señal original, el componente transitorio 700 será desplazado y cíclicamente convuelto hacia atrás dentro de la ventana de análisis 704 después de la conversión por el segundo convertidor 108, es decir de modo que se ubique el componente transitorio cíclicamente convuelto 701 todavía dentro de la ventana de análisis 704. El componente transitorio cíclicamente convuelto 701 es indicado por la línea gruesa marcada como "sin guardia".

[0027] La Figura 7b muestra la señal original que contiene un componente transitorio 702 cerca de la primera muestra 708 de la ventana de análisis 704. La señal original que tiene un componente transitorio 702 otra vez es indicada por una fina línea de trazos. En este caso, después de la conversión por el primer convertidor 104 y la subsiguiente aplicación de una modificación de fase, el componente transitorio 702 será desplazado y cíclicamente convuelto hacia atrás dentro de la ventana de análisis 704 después de la conversión por el segundo convertidor 108, de modo que se obtenga un componente transitorio cíclicamente convuelto 703 el cual es indicado por la línea gruesa marcada como "sin guardia". Aquí, el componente transitorio cíclicamente convuelto 703 es generado porque se desplaza por lo menos una porción del componente transitorio 702 delante de la primera muestra 708 de la ventana de análisis 704 debido a la modificación de fase que resulta en una envoltura circular del componente transitorio cíclicamente convuelto 703. En particular, tal como se puede ver en la Figura 7b, la porción del componente transitorio 702 que es desplazado fuera de la ventana de análisis 704 aparece de nuevo (porción 705) a la izquierda de la última muestra 710 de la ventana de análisis 704 debido al efecto de la periodicidad circular.

[0028] La representación espectral modificada, la cual comprende la información de amplitud modificada de la salida 117 del medio de ajuste 116 y la información de fase modificada de la salida 107 del modificador de fase 106, es suministrada al segundo convertidor 108 que es configurado para convertir la representación espectral modificada en la señal de audio modificada en el dominio del tiempo en la salida 109 del segundo convertidor 108. Luego se suministra la señal de audio modificada en el dominio del tiempo en la salida 109 del segundo convertidor 108 a un extractor de relleno 118. El extractor de relleno 118 es implementado para quitar aquellas muestras de la señal de audio modificada en el dominio del tiempo que corresponden a las muestras de los valores de relleno insertados para genera el bloque rellenado en la salida 103 del medio de ventaneo 102 antes que la modificación de fase es aplicada por el procesamiento corriente abajo del modificador de fase 106. Más precisamente, se quitan las muestras en aquellas posiciones de tiempo de la señal de audio modificada en el dominio del tiempo que corresponden a las posiciones de tiempo especificadas para las cuales se insertaron los valores de relleno antes de la modificación de fase.

[0029] En una realización del presente invento, los valores de relleno se insertaron simétricamente delante de la primera muestra 708 del bloque consecutivo y después de la última muestra 710 del bloque consecutivo de muestras de audio, tal como se muestra, por ejemplo, en la Figura 7, de modo que se forman dos zonas de guardia simétricas 712, 714, las cuales encierran el bloque consecutivo centrado que tiene la longitud de muestras 706). En este caso simétrico, las zonas de guardia o los "intervalos de guardia" 412, 714, respectivamente, pueden ser quitados preferiblemente desde el bloque rellenado por el extractor de relleno 118 después de la modificación de fase de los valores espectrales y su subsiguiente conversión en la señal de audio modificada en el dominio del tiempo, a fin de obtener el bloque consecutivo sólo sin los valores de relleno en la salida 119 del extractor de relleno

118.

[0030] En una implementación alternativa, se puede no remover los intervalos de guardia mediante el extractor de relleno 118 desde la salida 109 del segundo convertidor 108 de modo que la señal de audio modificada en el 6

15

25

35

45

55

65

E10710836

08-07-2014

dominio del tiempo del bloque rellenado tendrá la longitud de muestras 716 que incluye la longitud de muestras 706 del bloque consecutivo centrado y las longitudes de muestra 712, 714 de los intervalos de guardia. Esta señal puede ser procesada además en etapas subsiguientes de procesamiento hacia abajo hasta un medio de superposición y suma 124 tal como se muestra en el diagrama de bloques de la Figura 2. Ene le caso que el extractor de relleno 118 no es presente, este procesamiento, incluyendo la operación sobre los intervalos de guardia, puede ser interpretado como un sobremuestreo de la señal. A pesar de que el extractor de relleno 118 no se requiere en algunas realizaciones del presente invento, es ventajoso utilizarlo tal como se muestra en la Figura 2, porque la señal que es presente en la salida 119, ya tendrá la misma longitud de muestras como el bloque consecutivo original o el bloque no rellenado, respectivamente, que es presente en la salida 111 del procesador de ventana de análisis 110, antes del relleno mediante el medio de rellenado 112. De ese modo, se adaptarán fácilmente las etapas subsiguientes de procesamiento a la señal en la salida 119.

[0031] Preferiblemente, se suministra la señal de audio modificada en el dominio del tiempo en la salida 119 del extractor de relleno 118 a un medio de diezmado 120. El medio de diezmado 120 es implementado preferiblemente por un convertidor simple de frecuencia de muestreo que funciona usando el factor de extensión de ancho de banda (σ) para obtener una señal diezmada en el dominio del tiempo en la salida 121 del medio de diezmado 120. Aquí, la característica del proceso de diezmado depende de la característica de modificación de fase provisto por el modificador de fase 106 en la salida 115. En una realización del presente invento, el factor de extensión de ancho de banda σ=2 es suministrado por el modificador de fase 106 vía la salida 115 al medio de diezmado 120, de modo que se quitará cada segunda muestra desde la señal de audio modificada en el dominio del tiempo en la salida 119, lo cual da como resultado la señal diezmada en el dominio del tiempo que es presente en la salida 121.

[0032] La señal diezmada en el dominio del tiempo presente en la salida 121 del medio de diezmado 120 es alimentada subsiguientemente en un medio de ventaneo de síntesis 122, el cual es implementado para aplicar una función de ventana de síntesis a la señal diezmada en el dominio del tiempo, en lo cual la función de ventana de síntesis coincide con una función de análisis aplicada por el procesador de ventana de análisis 110 del medio de ventaneo 102. Aquí. la función de ventana de síntesis puede coincidir con la función de análisis en una manera tal que la aplicación de la función de síntesis compensa el efecto de la función de análisis. De manera alternativa, el medio de ventaneo de síntesis 122 puede ser implementado también para funcionar sobre la señal de audio modificada en el dominio del tiempo en la salida 109 del segundo convertidor 108.

[0033] Luego se suministra la señal diezmada y ventaneada en el dominio del tiempo de la salida 123 del medio de ventaneo de síntesis 122 a un medio de superposición y suma 124. Aquí, el medio de superposición y suma 124 recibe una información acerca de la primera distancia de tiempo para la operación se superposición y suma (a) aplicada por el medio de ventaneo 102 y del factor de extensión de ancho de banda (σ) aplicado por el modificador de fase 106 en la salida 115. El medio de superposición y suma 124 aplica una distancia de tiempo diferente (b) que es más larga que la primera distancia de tiempo (a) a la señal diezmada y ventaneada en el dominio del tiempo.

[0034] En el caso, que se lleva a cabo un proceso de diezmado después del proceso de superposición y suma, la condición σ=b/a puede ser cumplida de acuerdo con un esquema de extensión de ancho de banda. Sin embargo, en la realización tal como se muestra en la Figura 2, se lleva a cabo el proceso de diezmado antes del proceso de superposición y suma de modo que el proceso de diezmado puede tener un efecto sobre la condición arriba indicada, lo cual debe ser tenido en cuenta en general por el medio de superposición y suma 124.

[0035] Preferiblemente, el aparato mostrado en la Figura 2 es configurado para llevar a cabo un algoritmo de BWE que comprende un factor de extensión de ancho de banda (σ), en el cual el factor de extensión de ancho de banda (σ) controla una expansión de frecuencia desde una banda de la señal de audio hacia una banda de frecuencia blanco. De esta manera, se puede obtener la señal en el rango de frecuencia blanco, la cual depende del factor de extensión de ancho de banda (σ), en la salida 125 del medio de superposición y suma 124.

[0036] En el contexto de un algoritmo de BWE, un medio de superposición y suma 124 es implementado para inducir una expansión en el tiempo de la señal de audio mediante un mayor espaciamiento entre sí de los bloques consecutivos de una señal de entrada en el dominio del tiempo que él de los bloques consecutivos superpuestos originales de la señal de audio para obtener la señal expandida.

[0037] En el case que se lleva a cabo el proceso de diezmado después de proceso de superposición y suma, una expansión en el tiempo por el factor de 2,0, por ejemplo, conducirá a una señal expandida que el doble de duración que la señal de audio original 100. El proceso de diezmado subsiguiente con un correspondiente factor de diezmado de 2,0, por ejemplo, conducirá a una señal diezmada y extendida de ancho de banda, la cual tienen de vuelta la duración original de la señal de audio 100. Sin embargo, en caso que se ubica el medio de diezmado 120 delante del medio de superposición y suma 124, tal como se muestra en la Figura 2, el medio de diezmado 120 puede ser configurado para operar sobre un factor de extensión de ancho de banda (σ) de 2,0, de modo que, por ejemplo, se quita cada segunda muestra desde su señal de entrada en el dominio del tiempo, lo cual da como resultado una señal diezmada en el dominio del tiempo con la mitad de duración de la señal de audio original 100. Simultáneamente, una señal filtrado por pasa banda en el rango de frecuencia de, por ejemplo, 2 a 4 kHz será extendida en su ancho de banda por un factor 2,0, lo cual conduce a una señal 121 en el correspondiente rango de 7

15

25

35

45

55

65

E10710836

08-07-2014

frecuencia blanco de, por ejemplo, 4 a 8 kHz después del proceso de diezmado. Subsiguientemente la señal diezmada y extendida de ancho de banda puede ser expandida en el tiempo a la duración original de la señal de audio 100 mediante el medio de superposición y suma corriente abajo 124. El procesamiento arriba mencionado hace referencia esencialmente al principio de funcionamiento de un vocoder de fase.

[0038] Subsiguientemente, se suministra la señal en el rango de frecuencia blanco obtenida desde la salida 125 del medio de superposición y suma 124 a un elemento de ajuste de envolvente 130. Sobre la base de los parámetros transmitidos, recibidos en la entrada 101 del elemento de ajuste de envolvente 130 derivados de la señal de audio 100, el elemento de ajuste de envolvente 130 es implementado para ajustar la envolvente de la señal en la salida 125 del medio de superposición y suma 124 en una manera determinada, de modo que se obtenga una señal corregida en la salida 129 del elemento de ajuste de envolvente 130, la cual comprende una envolvente ajustada y/o una tonalidad corregida.

[0039] La Figura 3 muestra un diagrama de bloques de una realización el presente invento, en la cual el aparato es configurado para llevar a cabo un algoritmo de extensión de ancho de banda usando distintos factores de BWE (σ) tales como, por ejemplo, σ=2, 3, 4, …. Inicialmente, los parámetros del algoritmo de extensión de ancho de banda se avanzan vía la entrada 128 hacia todos los dispositivos que funcionan en conjunto sobre los factores de BWE (σ). Estos son, en particular, el primer convertidor 104, el modificador de fase 106, el segundo convertidor 108, el medio de diezmado 120 y el medio de superposición y suma 124, tal como se muestra en la Figura 3. Tal como se describe más arriba, los dispositivos de procesamiento consecutivos para llevar a cabo el algoritmo de extensión de ancho de banda son implementados para funcionar en una manera tal se obtengan para distintos factores de BWE (σ) en la entrada 128 correspondientes señales de audio modificadas en el dominio del tiempo en las salidas 121–1, 121–2, 121–3, … del medio de diezmado 120, las cuales se caracterizan por distintos rangos o bandas de frecuencia blanco, respectivamente. Entonces, las señales de audio modificadas en el dominio del tiempo son procesadas por el medio de superposición y suma 124 sobre la base de los distintos factores de BWE (σ), lo cual conduce a distintos resultados del proceso de superposición y suma en las salidas 125–1, 125–2, 125–3, … del medio de superposición y suma 124. Estos resultados del proceso de superposición y suma finalmente son combinados por un medio de combinación 126 en su salida 127 para obtener una señal combinada que comprende las distintas bandas de frecuencia blanco.

[0040] Para una vista ilustrativa, el principio básico del algoritmo de extensión de ancho de banda es ilustrado en la Figura 10. En particular, la Figura 10 muestra esquemáticamente como el factor de BWE (σ) controla. por ejemplo, el corrimiento de frecuencia entre una porción 113–1, 113–2, 113–3 de la banda de la señal de audio 100 y una banda de frecuencia blanco 125–1, 125–2 o 125–3, respectivamente.

[0041] Primero, en el caso de σ=2, se extrae una señal filtrado por pasa banda 113–1 con un rango de frecuencia de, por ejemplo, 2 a 4 kHz desde una banda inicial de la señal de audio 100. Luego, se transforma la banda de la señal filtrado por pasa banda 113–1 a la primera salida 125–1 del medio de superposición y suma 124. La primera salida 125–1 tiene un rango de frecuencia de 4 a 8 kHz que corresponde a una extensión de ancho de banda de la banda inicial de la señal de audio 100 por un factor 2,0 (σ=2). A esta banda superior para σ=2, también se puede hacer referencia como la "primera banda parcheada". Siguiente, en el caso de σ=3, se extrae una señal filtrado por pasa banda 113–2 con un rango de frecuencia de 8/3 a 4 kHz, la cual se transforma entonces a la segunda salida 125–2, después del medio de superposición y suma 124, caracterizada por un rango de frecuencia de 8 a 12 kHz. A la banda superior de la salida 125–2 que corresponde a una extensión de ancho de banda por el factor 3,0 (σ=3), también se puede hacer referencia como la "segunda banda parcheada". Siguiente, en el caso de σ=4, se extrae una señal filtrado por pasa banda 113–3 con un rango de frecuencia de 3 a 4 kHz, la cual se transforma entonces a la terca salida 125–3 con un rango de frecuencia de 12 a 16 kHz después del medio de superposición y suma 124. A la banda superior de la salida 125–3 que corresponde a una extensión de ancho de banda por el factor 4,0 (σ=4), también se puede hacer referencia como la "tercera banda parcheada". Con eso, se obtienen las bandas parcheadas primera, segunda y tercera cubriendo bandas consecutivas de frecuencia hasta una frecuencia máxima de 16 kHz que se requiere preferiblemente para manipula una señal de audio 100 en el contexto de un algoritmo de extensión de ancho de banda de alta calidad. En principio, se puede llevar a cabo el algoritmo de extensión de ancho de banda también para valores más latos del factor de BWE σ>4, lo cual produce bandas de frecuencias aún más altas. Sin embargo, tomar en cuenta tales bandas de alta frecuencia, en general no da resultados para una mejora adicional de la calidad perceptiva de la señal de audio manipulada.

[0042] Tal como se muestra en la Figura 3, los resultados del proceso de superposición y suma 125–1, 125–2, 125– 3, … basados sobre los distintos factores de BWE (σ) son combinados además por un medio de combinación 126, de modo que se obtenga una señal en la salida 127 que comprende las distintas bandas de frecuencia (ver la Figura 10). Aquí la señal combinada en la salida 127 consiste en la banda parcheada de lata frecuencia transformada, que está en el rango desde la frecuencia máxima (fmax) de la señal de audio 100 hasta σ veces la frecuencia máxima (σxfmax ), como, por ejemplo, desde 4 a 16 kHz (Figura 10).

[0043] El elemento de ajuste de envolvente corriente abajo 130 es configurado, como arriba mencionado, para modificar la envolvente de la señal combinada sobre la base de parámetros transmitidos desde la señal de audio presente en la entrada 101, lo cual conduce a una señal corregida en la salida 129 del elemento de ajuste de 8

15

25

35

45

55

65

E10710836

08-07-2014

envolvente 130. La señal corregida suministrada por el elemento de ajuste de envolvente 130 en la salida 129 es combinada además con la señal de audio original 100 por otro medio de combinación 132 a fin de obtener finalmente una señal manipulada extendida en su ancho de banda en la salida 131 del otro medio de combinación

132. Tal como se muestra en la Figura 10, el rango de frecuencia de la señal extendida de ancho de banda en la salida 131 comprende la banda de la señal de audio 100 y las distintas bandas de frecuencia obtenidas de la transformación de acuerdo con el algoritmo de extensión de ancho de banda, teniendo un rango total, por ejemplo, desde 0 a 16 kHz (Figura 10).

[0044] En una realización del presente invento de acuerdo con la Figura 2, el medio de ventaneo 102 es configurado para insertar valores de relleno en posiciones de tiempo especificados delante de una primera muestra de un bloque consecutivo de muestras de audio o detrás de una última muestra del bloque consecutivo de muestras de audio, en lo cual una suma de una cantidad de valores de relleno y de una cantidad de valores en el bloque consecutivo es por lo menos 1,4 veces la cantidad de valores en el bloque consecutivo de muestras de audio.

[0045] En particular con respecto a la Figura 7, se inserta una primera porción del bloque rellenado que tiene la longitud de muestras 712 delante de la primera muestra 708 del bloque consecutivo centrado 704 que tiene la longitud de muestras 706, mientras se inserta una segunda porción del bloque rellenado que tiene la longitud de muestras 714 detrás del bloque consecutivo centrado 704. Se debe tomar nota que en la Figura 7, el bloque consecutivo 704 o la ventana de análisis, respectivamente, son marcados por "región de interés" (ROI), en la cual las líneas verticales continuas que cruzan las muestras 0 y 1000 indican los bordes de la ventana de análisis 704, en la cual vale la condición d periodicidad circular.

[0046] Preferiblemente, la primera porción del bloque rellenado a la izquierda del bloque consecutivo 704 tiene el mismo tamaño que la segunda porción del bloque rellenado a la derecha del bloque consecutivo 704, en lo cual el tamaño total del bloque rellenado tiene una longitud de muestras 716 (por ejemplo, desde la muestra –500 hasta la muestra 1500), que es el doble de la longitud de muestras 706 del bloque consecutivo centrado 704. Se muestra en la Figura 7b, por ejemplo, que un componente transitorio 702 originalmente ubicado cerca del borde izquierdo de la ventana de análisis 704 será desplazado en el tiempo debido a una modificación de fase aplicada por el modificador de fase 106, de modo que se obtenga el componente transitorio desplazado 707 centrado alrededor de la primera muestra 708 del bloque consecutivo centrado 704. En este caso, se ubicará el componente transitorio desplazado 707 por completo dentro del bloque rellenado, el cual tiene la longitud de muestras 716, evitando de ese modo una convolución circular o envoltura circular causada por la modificación de fase aplicada.

[0047] Si, por ejemplo, la primera porción del bloque rellenado a la izquierda de la primera muestra 708 del bloque consecutivo centrado 704 no es suficientemente larga para acomodar completamente un posible corrimiento en el tiempo del componente transitorio, este último será convuelto cíclicamente, eso significa que por lo menos una parte del componente transitorio re–aparecerá en la segunda porción del bloque rellenado a la derecha de la última muestra 710 del bloque consecutivo 704. Sin embargo, esta parte del componente transitorio preferiblemente puede ser quitada por el extractor de relleno 118 después de aplicar el modificador de fase 106 en pasos posteriores del procesamiento. Sin embargo, la longitud de muestras 716 del bloque rellenado debe ser por lo menos 1,4 veces el tamaño de la longitud de muestras 706 del bloque consecutivo 704. Se toma en consideración que la modificación de fase aplicada por el modificador de fase 106 como, por ejemplo, realizado por un vocoder de fase, siempre conduce a una corrimiento en el tiempo hacia tiempos negativos, es decir a un corrimiento hacia la izquierda sobre el eje de tiempo y muestras.

[0048] En algunas realizaciones del presente invento, los convertidores primero y segundo 104, 108 son implementados para funcionar sobre una longitud de conversión que corresponde a la longitud de muestras del bloque rellenado. Por ejemplo, si el bloque consecutivo tiene una longitud de muestras N, mientras el bloque rellenado tiene una longitud de muestras de por lo menos 1,4 x N, tal como, por ejemplo, 2N, la longitud de conversión aplicada por los convertidores primero y segundo 104, 108 también será por lo menos de 1,4 x N, por ejemplo, 2N.

[0049] En principio, sin embargo, la longitud de conversión del primer convertidor y del segundo convertidor 104, 108 debería ser elegida en dependencia del factor de BWE (σ) por el hecho de que cuanto más grande es el factor de BWE (σ), tanto más larga debería ser la longitud de conversión. Sin embargo, preferiblemente es suficiente utilizar una longitud de conversión que es tan larga como la longitud de muestras del bloque rellenado, aún si la longitud de conversión no es suficiente larga para evitar cualquier tipo de efectos de convolución cíclica para valores más grandes del factor de BWE, tales como, por ejemplo, σ>4. Esto es porque en un semejante caso (σ>4) el aliasing en el tiempo de los eventos transitorios debido, por ejemplo, a una convolución cíclica es insignificante en las bandas transformadas rellenadas de alta frecuencia y no tendrá ninguna influencia significativa sobre la calidad perceptiva.

[0050] En la Figura 4 se muestra una realización que comprende un detector de componente transitorio 134 que es implementado para detectar un evento transitorio en un bloque de la señal de audio 100, tal como, por ejemplo, en el bloque consecutivo 704 de muestras de audio que tiene la longitud de muestras 706 tal como se muestra en la Figura 7.

15

25

35

45

55

65

E10710836

08-07-2014

[0051] Específicamente, el detector de componente transitorio 134 es configurado para determinar si un bloque consecutivo de bloque de audio contiene un evento transitorio que es caracterizado por un cambio repentino de la energía de la señal de audio 100 en el tiempo, tal como, por ejemplo, un aumento o una disminución de energía por más de, por ejemplo, 50% desde una porción en el tiempo hacia la próxima porción en el tiempo.

[0052] La detección de componente transitorio puede ser basada, por ejemplo, sobre un procesamiento selectivo de frecuencias tal como una operación de cuadrado de partes de alta frecuencia de una representación espectral que representa una medida de la potencia contenida en la banda de alta frecuencia de la señal de audio 100 y una comparación subsiguiente del cambio en el tiempo de la potencia con un umbral predeterminado.

[0053] Además, por un lado, el primer convertidor 104 es configurado para convertir el bloque rellenado en la salida 103 del elemento de rellenado 112, cuando el evento transitorio, tal como, por ejemplo, el evento transitorio 702 de la Figura 7b es detectado por el detector de componente transitorio 134 en un cierto bloque 133–1 de la señal de audio 100 que corresponde al bloque rellenado. Por otro lado, el primer convertidor 104 es configurado para convertir un bloque no rellenado que tiene sólo valores de señal de audio en la salida 133–2 del detector de componente transitorio 134, en lo cual el bloque no rellenado corresponde al bloque de la señal de audio 100 cuando no se detecta el evento transitorio en el bloque.

[0054] Aquí, el bloque rellenado comprende valores de relleno tales como, por ejemplo, valores cero a la izquierda y a las derecha del bloque consecutivo centrado 704 de la Figura 7b y valores de señal de audio que residen dentro del bloque consecutivo centrado 704 de la Figura 7b. Sin embargo, el bloque no rellenado comprende sólo valores de señal de audio, tales como, por ejemplo, aquellos valores de muestras de audio que residen dentro del bloque consecutivo 704 de la Figura 7b.

[0055] En la realización arriba mencionada, en la cual la conversión mediante el primer convertidor 104 y, por lo tanto, también los pasos subsiguientes de procesamiento sobre la base de la salida 105 del primer convertidor 104 dependen de la detección del evento transitorio, el bloque rellenado en la salida 103 del elemento de rellenado 112 es generado sólo para ciertos bloques de tiempo seleccionados (es decir para bloques de tiempo que contienen un evento transitorio) para los cuales se anticipa el relleno antes de las manipulaciones adicionales de la señal de audio 100, lo cual es ventajoso en términos de la calidad perceptiva.

[0056] En otras realizaciones del presente invento, se hace la elección de las rutas de señal apropiada para el procesamiento subsiguiente, indicadas en la Figura 4 como "sin evento transitorio" o "evento transitorio", respectivamente, con el uso del conmutador 136 tal como se muestra en la Figura 5, el cual es controlado por la salida 135 del detector de componente transitorio 134 que contiene la información sobre la detección del evento transitorio incluyendo la información se detectó o no un evento transitorio en el bloque de la señal de audio 100. Esta información del detector de componente transitorio 134 es enviada por el conmutador 136 a la salida 135–1 del conmutador 136 denominado como "evento transitorio" o a la salida 135–2 del conmutador 136 denominado como "sin evento transitorio". Aquí, las salidas 135–1, 135–2 del conmutador 136 en la Figura 5 corresponden idénticamente a las salidas 133–1, 133–2 del detector de componente transitorio 134 en la Figura 4. Como se menciona arriba, el bloque rellenado en la salida 103 del elemento de rellenado 112 es generado desde el bloque 135–1 de la señal de audio 100 en la cual el evento transitorio es detectado por el detector de componente transitorio 134. Además, el conmutador 136 es configurado para alimentar el bloque rellenado generado por el elemento de rellenado 112 en la salida 103 a un primer sub–convertidor 138–1 cuando el evento transitorio es detectado por el detector de componente transitorio 134 y para alimentar el bloque no rellenado en la salida 135–2 a un segundo sub–convertidor 138–2 cuando no se detectó ningún evento transitorio mediante el detector de componente transitorio 134. Aquí, el primer sub–convertidor 138–1 es adaptado para llevar a cabo una conversión del bloque rellenado usando una primera longitud de conversión, tal como, por ejemplo, 2N, mientras el segundo sub–convertidor 138–2 es adaptado para llevar a cabo una conversión del bloque no rellenado usando una segunda longitud de conversión, tal como, por ejemplo, N. Debido a que el bloque rellenado tiene una longitud de muestras más larga que el bloque no rellenado, la segunda longitud de conversión es más corta que la primera longitud de conversión. Finalmente, se obtiene una primera representación espectral en la salida 137–1 del primer sub– convertidor 138–1 o una segunda representación espectral en la salida 137–2 del primer sub–convertidor 138–2, respectivamente, la cual puede ser procesada adicionalmente en el contexto del algoritmo de extensión de ancho de banda, como se ilustró más arriba.

[0057] En una realización alternativa del presente invento, el medio de ventaneo 102 comprende un procesador de ventana de análisis 140 que es configurado para aplicar una función de ventana de análisis a un bloque consecutivo de muestras de audio, tal como, por ejemplo, el bloque consecutivo 704 de la Figura 7. La función de ventana de análisis aplicada por el procesador de ventana de análisis 140 comprende en particular por lo menos una zona de guardia en una posición inicial de la función de ventana, tal como, por ejemplo, la porción de tiempo que comienza en la primera muestra 718 (es decir, la muestra –500) de la función de ventana 709 en el lado izquierdo del bloque consecutivo 704 de la Figura 7b, o en una posición final de la función de ventana, tal como, por ejemplo, la porción de tiempo que termina en la última muestra 718 (es decir, la muestra 1500) de la función de ventana 709 en el lado derecho del bloque consecutivo 704 de la Figura 7b.

15

25

35

45

55

65

E10710836

08-07-2014

[0058] La Figura 6 muestra una realización alternativa del presente invento que comprende además un conmutador de ventana de guardia 142 que es configurado para controlar el procesador de ventana de análisis 140 dependiendo de la información acerca de la detección de componente transitorio como es suministrada por la salida 135 del detector de componente transitorio 134. Además, el procesador de ventana de análisis 140 es controlado por el hecho de que se genera un primer bloque consecutivo en la salida 139–1 del conmutador de ventana de guardia 142, que tiene un primer tamaño de ventana, cuando el evento transitorio es detectado por el detector de componente transitorio 134 y se genera un bloque consecutivo adicional en la salida 139–2 del conmutador de ventana de guardia 142, que tiene un segundo tamaño de ventana, cuando no se detectó ningún evento transitorio mediante el detector de componente transitorio 134. Aquí, el procesador de ventana de análisis 140 es configurado para aplicar la función de ventana de análisis, tal como, por ejemplo, una ventana de Hann con una zona de guardia como se ilustra en la Figura 9a, al bloque consecutivo en la salida 139–1 o al bloque consecutivo adicional en la salida 139–2, de modo que se obtenga un bloque rellenado en la salida 141–1 o un bloque no rellenado en la salida 141–2, respectivamente.

[0059] En la Figura 9a, el bloque rellenado en la salida 141–1 comprende, por ejemplo, una primera zona de guardia 910 y una segunda zona de guardia 920, en lo cual se fijan los valores de las muestras de audio de las zonas de guardia 910, 920 en cero. Aquí, las zonas de guardia 910, 920 circundan una zona 930 que corresponde a la característica de la función de ventana, en este caso, por ejemplo, dada por la forma característica de la ventana de Hann. De manera alternativa, con respecto a la Figura 9b, los valores de las muestras de audio de las zonas de guardia 910, 920 también pueden oscilar con pequeña amplitud alrededor de cero. Las líneas verticales en la Figura 9 indican una primera muestra 905 y una última muestra 915 de la zona 930. Adicionalmente, las zonas de guardia 910, 940 comienzan con la primear muestra 901 de la función de ventana, mientras la zona de guardia 920, 950 termina con la última muestra 903 de la función de ventana. La longitud de muestras 900 de la ventana completa, que tiene una porción de ventana de Hann centrada, la cual incluye las zonas de guardia 910, 920 de la Figura 9a, por ejemplo, tiene el doble de longitud que la longitud de muestras de la zona 930.

[0060] En el caso que el evento transitorio es detectado por el detector de componente transitorio 134, el bloque consecutivo en la salida 139–1 es procesado por el hecho de que es ponderado con la forma característica de la función de ventana de análisis, tal como, por ejemplo, la ventana de Hann normalizada 901 con las zonas de guardia 910, 920 como se muestra en la Figura 9a, mientras en el caso que no se detecta ningún evento transitorio mediante el detector de componente transitorio 134, el bloque consecutivo en la salida 139–2 es procesado por el hecho de que es ponderado con la forma característica de la zona 930 de la ventana de Hann normalizada 901 de la Figura 9a.

[0061] En el caso que el bloque rellenado o el bloque no rellenado en las salidas 141–1, 141–2 son generados por el uso de la función de análisis de ventana que comprende la zona de guardia como recién mencionado, los valores de relleno o valores de señal de audio tienen su origen en la ponderación de las muestras de audio con la zona de guardia o la zona sin guardia (característica) de la función de ventana, respectivamente. Aquí, tanto los valores de relleno como los valores de señal de audio representan valores ponderados, en lo cual específicamente los valores de relleno son aproximadamente de cero.. Específicamente el bloque rellenado o el bloque no rellenado en las salidas 141–1, 141–2 pueden corresponder a aquellos en las salidas 103, 135–2 en la realización que se muestra en la Figura 5.

[0062] Por efecto de la ponderación debido a la aplicación de la función de ventana de análisis, el detector de componente transitorio 134 y el procesador de ventana de análisis 140 deben ser dispuestos preferiblemente en una manera tal, que la detección del evento transitorio mediante el detector de componente transitorio 134 se realice antes que la función de ventana de análisis sea aplicada por el procesador de ventana de análisis 140. De otra manera, se tendrá una influencia significativa en la detección del evento transitorio debido al proceso de ponderación, lo cual es especialmente el caso para un evento transitorio ubicado dentro de las zonas de guardia o cerca de los bordes de la zona sin guardia (característica), porque en esta región los factores de ponderación, que corresponden a los valores de la función de ventana de análisis, son siempre muy cerca a cero.

[0063] Subsiguientemente, se convierten el bloque rellenado en la salida 114–1 y el bloque no rellenado en la salida 114–2 en sus representaciones espectrales en las salidas 143–1, 143–2 usando el primer sub–convertidor 138–1 con la primera longitud de conversión y el segundo sub–convertidor 138–2 con la segunda longitud de conversión, en lo cual las longitud primera y segunda de conversión corresponden a las longitudes de los bloques convertidos, respectivamente. Las representaciones espectrales en las salidas 143–1, 143–2 pueden ser procesadas adicionalmente como en las realizaciones que se discuten más arriba.

[0064] La Figura 8 muestra una vista global de un a realización de la implementación de extensión de ancho de banda. En particular, la Figura 8 incluye el bloque 800 denotado por señal de audio o parámetros adicionales, el cual provee la señal de audio 100 denotado por el bloque de salida "datos de audio de baja frecuencia (LF)". Además, el bloque 800 provee parámetros decodificados que pueden corresponder a la entrada 101 del elemento de ajuste de envolvente 130 en las Figuras 2 y 3. Los parámetros en la salida 101 del bloque 800 pueden ser utilizados subsiguientemente para el elemento de ajuste de envolvente 130 y/o un corrector de tonalidad 150. El elemento de ajuste de envolvente 130 y el corrector de tonalidad 150 son configurados para aplicar, por ejemplo, una distorsión

15

25

35

45

55

65

E10710836

08-07-2014

predeterminada a la señal combinada 127 para obtener la señal distorsionada 151, la cual puede corresponder a la señal corregida de las Figuras 2 y 3.

[0065] El bloque 800 puede comprender información lateral sobre la detección de componente transitorio suministrado en el lado del codificador de la implementación de extensión de ancho de banda. En este caso, la información lateral es transmitida además por una transmisión de bits 810 como indicada por la línea de trazos al detector de componente transitorio 134 en el lado del decodificador.

[0066] Preferiblemente, sin embargo, se lleva a cabo la detección de componente transitorio sobre la pluralidad de bloques consecutivos de muestras de audio en la salida 111 del procesador de ventana de análisis 110 al cual aquí se hace referencia como "dispositivo de formación de cuadro" 102–1. En otras palabras, la información lateral del componente transitorio es detectada en el detector de componente transitorio 134 que representa al decodificador o es transmitida en la transmisión de bits 810 desde el codificador (línea de trazos). La primera solución no aumenta la cantidad de bits a transmitir que debe ser transmitida, mientras la segunda solución facilita la detección, ya que la señal original todavía es disponible.

[0067] Específicamente, la Figura 8 muestra un diagrama de bloques de un aparato que está configurado para llevar a cabo una implementación de extensión de ancho de banda armónica (HBE), tal como se muestra en la Figura 13, la cual es combinada con el conmutador 136 controlado por el detector de componente transitorio 134 para ejecutar un procesamiento adaptivo a la señal que depende de la información acerca de la ocurrencia de un evento transitorio en la salida 135.

[0068] En la Figura 8, se suministra la pluralidad de bloques consecutivos en la salida 111 del dispositivo de formación de cuadro 102–1 a un dispositivo de ventaneo de análisis 102–2 que es configurado para aplicar una función de ventana de análisis que tiene una forma de ventana predeterminada, tal como, por ejemplo, una ventana de coseno elevado que es caracterizada por flancos menos profundos en comparación con una forma de ventana rectangular que se aplica típicamente en una operación de formación de cuadro. Dependiendo de la decisión de conmutación denominado como "evento transitorio" o "sin evento transitorio" obtenida con el conmutador 136, se procesan adicionalmente el bloque 135–1 que incluye el evento transitorio o el bloque 135–2 que no incluye un evento transitorio, respectivamente, de la pluralidad de bloques consecutivos ventaneados (es decir formado de cuadro y ponderado) en la salida 811 del dispositivo de ventaneo de análisis 102–2 como detectado por el detector de componente transitorio 134, tal como se discutió en detalle más arriba. Especialmente, un dispositivo de rellenado con cero 102–3 que puede corresponder al medio de rellenado 112 de la ventana 102 en las Figuras 2, 3 y 5 es utilizado preferiblemente para insertar valores de cero fuera del bloque de tiempo 135–1, de modo que se obtenga un bloque rellenado con ceros 803, el cual puede corresponder al bloque rellenado 103, con la longitud de muestras 2N que tienen el doble de longitud que la longitud de muestras N del bloque de tiempo 135–2. Aquí, el detector de componente transitorio 134 es denominado como "detector de posición de componente transitorio", porque puede ser utilizado para determinar la "posición" (es decir, la ubicación en el tiempo) del bloque consecutivo 135–1 con respecto a la pluralidad de bloques consecutivos en la salida 811, es decir el respectivo bloque de tiempo que contienen el evento transitorio puede ser identificado desde la secuencia de bloques consecutivos en la salida

811.

[0069] En una realización, el bloque rellenado siempre es generado desde un bloque consecutivo específico, para el cual se detecta el evento transitorio independiente de su ubicación dentro del bloque. En este caso, el detector de componente transitorio 134 es simplemente configurado para determinar (identificar) el bloque que contiene el evento transitorio. En una realización alternativa, el detector de componente transitorio 134 puede ser configurado además para determinar la ubicación particular del evento transitorio con respecto al bloque. En la realización anterior, se puede utilizar una implementación más simple del detector de componente transitorio 134, mientras en la última realización la complejidad computacional del procesamiento puede ser reducida, porque el bloque rellenado será generado y procesado adicionalmente sólo si el evento transitorio es ubicado en una ubicación particular, preferiblemente cerca de un borde de bloque. En otras palabras, en la última realización el relleno con ceros o las zonas de guardia sólo serán necesarios si un evento transitorio es ubicado cerca de los bordes de bloque (es decir, si ocurren componentes transitorios fuera del centro).

[0070] El aparato de la Figura 8 provee esencialmente un procedimiento para contrarrestar el efecto de convolución cíclica mediante la introducción de los tal denominados "intervalos de guardia" rellenando con ceros ambos extremos de cada bloque de tiempo antes de entrar al procesamiento de vocoder de fase. Aquí, el procesamiento de vocoder de fase empieza con el funcionamiento del primer o del segundo sub–convertidor 138–1, 138–2 que comprende, por ejemplo, un procesador de FFT que tienen una longitud de conversión de 2N o N, respectivamente.

[0071] Específicamente, el primer convertidor 104 puede ser implementado para llevar a cabo una transformación de Fourier de tiempo corto (STFT) del bloque rellenado 103, mientras el segundo convertidor 108 puede ser implementado para llevar a cabo una transformación inversa de STFT basada en la magnitud y fase de la representación espectral modificada en la salida 105.

15

25

35

45

55

65

E10710836

08-07-2014

[0072] Con respecto a la Figura 8, después de haber calculado las nuevas fases y, por ejemplo, llevada a cabo la síntesis de STFT inversa o de transformación inversa discreta de Fourier (IDFT), se eliminan sencillamente los intervalos de guardia desde la parte central del bloque de tiempo, el cual es procesado adicionalmente en el paso de superposición y suma (OLA) del vocoder. De manera alternativa, los intervalos de guardia no se deben eliminar, pero serán procesados adicionalmente en el paso de OLA. Efectivamente, esta operación puede ser considerada también como un sobremuestreo.

[0073] Como un resultado de la implementación de acuerdo con la Figura 8, se obtienen una señal manipulada y extendida de ancho de banda en la salida 131 del otro medio de combinación 132. Subsiguientemente, se puede utilizar otro dispositivo de formación de cuadro 160 para modificar la formación de cuadro (es decir el tamaño de ventana de la pluralidad de bloques de tiempo consecutivos) de la señal de audio manipulada en la salida 131, denominado como "señal de audio con alta frecuencia (HF)", en una manera predeterminada, por ejemplo, de modo que el bloque consecutivo de las muestras de audio en la salida 161 del otro dispositivo de formación de cuadro 160 tendrá el mismo tamaño de ventana como la señal de audio inicial 800.

[0074] La posible ventaja de utilizar intervalos de guardia en este contexto, mientras se procesan los componentes transitorios mediante un vocoder de fase como es delineado, por ejemplo, en la realización de la Figura 8, es visualizada de manera ejemplar en la Figura 7. El gráfico a) muestra el componente transitorio centrado en la ventana de análisis ("línea de trazos finos" indican la señal original). En este caso, el intervalo de guardia no tienen ningún efecto significativo sobre el procesamiento ya que la ventana puede acomodar también el componente transitorio modificado ("línea continua fina" usando intervalos de guardia; "línea continua gruesa" sin intervalos de guardia). Sin embargo, tal como se muestra en el gráfico b), si el componente transitorio es fuera del centro ("línea de trazos finos" indican la señal original), será desplazado en el tiempo por la manipulación de fase durante el procesamiento de vocoder. Si este corrimiento no puede ser acomodado directamente por el lapso de tiempo cubierto por la ventana, ocurre una envoltura circular ("línea continua gruesa" sin intervalos de guardia) que posiblemente conduce a un mal emplazamiento (de partes) del componente transitorio, con lo cual a una degradación de la calidad de audio perceptiva. Sin embargo, el uso de intervalos de guardia evita los efectos de convolución circular mediante la acomodación de las partes desplazadas en la zona de guardia ("línea continua fina" usando intervalos de guardia.

[0075] Como una alternativa a la implementación de relleno con ceros arriba mencionada, se puede utilizar las ventanas con zonas de guardia (ver la Figura 9) tal como antes mencionado. En el caso de las ventanas con zonas de guardia, los valores son aproximadamente de cero en uno o ambos lados. Pueden ser exactamente cero u oscilar con pequeña amplitud alrededor de cero con la posible ventaja de no desplazar ceros desde la zona de guardia hacia adentro de la ventana a través de la adaptación de fase, sino valores pequeños. La figura 9 muestra ambos tipos de ventanas. En particular en la Figura 9, la diferencia entre las funciones de ventana 901, 902 es que en la Figura 9a, la función de ventana 901 comprende las zonas de guardia 910, 920 cuyos valores de muestra son exactamente cero, mientras en la Figura 9b la función de ventana 902 comprende las zonas de guardia 940, 950 cuyos valores de muestra oscilan con pequeña amplitud cero. Por lo tanto, en el último caso se desplazan valores pequeños en lugar de valores cero a través de la adaptación de fase desde la zona de guardia 940 o 950 dentro de la zona 930 de la ventana.

[0076] Tal como se mencionó más arriba, la aplicación de los intervalos de guardia puede aumentar la complejidad computacional debido a sus equivalencias al sobremuestreo ya que las transformaciones de análisis y síntesis deben ser calculadas sobre bloques de longitudes sustancialmente extendidas (usualmente por un factor de 2). Sobre un lado, eso asegura una calidad perceptiva mejorada de por lo menos los bloque de señal con componente transitorio, pero eso ocurre sólo en bloques seleccionados de cualquier señal de audio de música. Por otro lado, se incrementa constantemente la potencia de procesamiento por todo el procesamiento de la señal entera.

[0077] Algunas realizaciones del invento se basan sobre el hecho de que el sobremuestreo es ventajoso para ciertos bloques de señal seleccionados. Específicamente, estas realizaciones proveen un nuevo procedimiento de procesamiento adaptivo de señal que comprende un mecanismo e detección y aplica el sobremuestreo sólo a aquellos bloques de señal en los cuales mejora efectivamente la calidad perceptiva. Más aún, debido al procesamiento de señal que conmuta adaptivamente entre el procesamiento estándar y el procesamiento avanzado, se puede mejorar significativamente la eficiencia del procesamiento de señal en el contexto del presente invento, reduciendo de ese modo el esfuerzo computacional.

[0078] Para ilustrar la diferencia entre el procesamiento estándar y el procesamiento avanzado, se describe en lo que sigue una comparación de una típica implementación de extensión de ancho de banda armónica (HBE) (Figura 13) con la implementación de las Figura 8.

[0079] La Figura 13 ilustra una vista global de la HBE. Aquí. los múltiples pasos de vocoder de fase funcionan con la misma frecuencia de muestreo como el sistema entero. Sin embargo, la Figura 8 muestra una manera de procesamiento que aplica el rellenado con ceros o el sobremuestreo sólo a aquellas partes de la señal donde es realmente favorable y da como resultado una calidad perceptiva mejorada. Esto se logra mediante una decisión de conmutación que preferiblemente depende de una detección de ubicación de componente transitorio que elige la

15

25

35

45

55

65

E10710836

08-07-2014

ruta de señal apropiada para el procesamiento subsiguiente. En comparación a la HBE, que se muestra en la Figura 13, se han agregado la detección de ubicación de componente transitorio 134 (desde la señal o la transmisión de bits), el conmutador 136 y la ruta de señal del lado derecho, que empieza con la operación de rellenado con ceros aplicado por el medio de rellenado con ceros 102–3 y que termina con la extracción de relleno (opcional) llevada a cabo por el extractor de relleno 118, a las realizaciones que se ilustran en la Figura 8.

[0080] En una realización del presente invento el medio de ventaneo 102 es configurado para generar una pluralidad 111 de bloques consecutivos de muestras de audio que forman una secuencia de tiempo que comprende por lo menos un primer par 145–1 de un bloque no rellenado 133–2, 141–2 y un bloque consecutivo rellenado 103, 141–1 y un segundo par 145–2 de un bloque rellenado 103, 141–1 y un bloque consecutivo no rellenado 133–2, 141–2 (ver la Figura 12). Los pares primero y segundo de bloques consecutivos 145–1, 145–2 son procesados adicionalmente en el contexto de la implementación de extensión de ancho de banda, hasta que se obtienen sus correspondientes muestras de audio diezmadas en las salidas 147–1, 147–2 del medio de diezmado 120, respectivamente. Las muestras de audio diezmadas 147–1, 147–2 se alimentan subsiguientemente dentro del medio de superposición y suma 124, el cual es configurado para sumar bloques de superposición de las muestras de audio diezmadas 147–1, 147–2 del primer par 145–1 o del segundo par 145–2.

[0081] De manera alternativa, el medio de diezmado 120 también puede ser ubicada detrás del medio de superposición y suma 124, como se describió correspondientemente más arriba.

[0082] Entonces, para el primer par 145–1 una distancia de tiempo b', la cual puede coincidir con la distancia de tiempo b de la Figura 2, entre una primera muestra 151, 155 del bloque no rellenado 133–2, 141–2 y una primera muestra 153, 157 de los valores de señal de audio del bloque rellenado 103, 141–1, respectivamente, es suministrada por el medio de superposición y suma 124, de modo que se obtenga una señal en el rango de frecuencia blanco del algoritmo de extensión de ancho de banda en la salida 149–1 del medio de superposición y suma 124.

[0083] Para el primer par 145–2, la distancia de tiempo b', entre una primera muestra 153, 157 de los valores de señal de audio del bloque rellenado 103, 141–1 y una primera muestra 151, 155 del bloque no rellenado 133–2, 141–2, respectivamente, es suministrada por el medio de superposición y suma 124, de modo que se obtenga una señal en el rango de frecuencia blanco del algoritmo de extensión de ancho de banda en la salida 149–2 del medio de superposición y suma 124.

[0084] Otra vez, en el caso que se ubique el medio de diezmado 120 delante del medio de superposición y suma 124 en la cadena de procesamiento tal como se muestra en la Figura 2, se debería tomar en cuenta un posible efecto del proceso de diezmado sobre la coincidencia con la distancia de tiempo b'.

[0085] Se debe tomar nota que, aunque el presente invento ha sido descrito en el contexto de diagramas de bloque, en lo cual los bloques representan componentes de hardware presentes o lógicos, el presente invento puede ser implementado también por un procedimiento implementado en computadora. En este último caso, los bloques representan las correspondientes etapas de procedimiento, en lo cual estas etapas representan las funcionalidades llevadas a cabo por los correspondientes bloques de hardware lógicos o físicos.

[0086] Las realizaciones que se describieron más arriba son puramente ilustrativas para los principios del presente invento. Se entiende que las modificaciones y variaciones posibles de las disposiciones y de los detalles descritos en la presente serán evidentes para los expertos en la materia. Por lo tanto, es la intención que el invento esté limitado sólo por el alcance de las siguientes reivindicaciones de patente y no por los detalles específicos presentados por la descripción y la explicación de las realizaciones en la presente.

[0087] Dependiendo de ciertos requerimientos de implementación de los procedimientos inventivos, los procedimientos inventivos se pueden implementar en el hardware o en el software. Se puede llevar a cabo la implementación utilizando un medio de almacenamiento digital, en particular, un disco, un DVD o un CD, en el cual están guardadas unas señales de control electrónicamente legibles, las cuales cooperan con sistemas de computación programables de modo que se llevan a cabo los procedimientos inventivos. Por lo tanto, el presente invento puede ser implementado, en general, por un producto de programa de computación con el código de programa guardado sobre un portador legible por máquinas, este código de programa se usa para llevar a cabo los procedimientos inventivos, cuando se ejecuta el producto de programa de computación en una computadora. En otras palabras, los procedimientos inventivos son, por lo tanto, un programa de computación que tiene un código de programa para llevar a cabo por lo menos uno de los procedimientos inventivos cuando se ejecuta el programa de computación en una computadora. La señal de audio procesada inventiva puede ser guardada sobre cualquier medio de almacenamiento legible por máquinas, tal como un medio de almacenamiento digital.

[0088] Las ventajas del procesamiento novedoso son que las realizaciones arriba mencionadas, es decir los aparatos, procedimientos y programas de computadora descritos en la presente solicitud evitan un procesamiento computacional demasiado complejo costoso donde no es necesario. Este procedimiento utiliza una detección de ubicación de componente transitorio que identifica loa bloques de tiempo que contienen, por ejemplo, eventos

E10710836

08-07-2014

transitorios fuera del centro y que conmuta a un procesamiento avanzado, por ejemplo un procesamiento de sobremuestreo que utiliza unos intervalos de guardia, sin embargo, sólo en aquellos caso en los cuales eso da un resultado de mejora en los términos de calidad perceptiva.

5 [0089] El procesamiento presentado es útil en cualquier aplicación de procesamiento de audio basado en bloques, por ejemplo con vocoderes de fase o aplicaciones paramétricas de sonido surround (Herre, J.; Faller, C.; Ertel, C.; Hilpert, J.; Hölzer, A.; Spenger, C, "MP3 Surround, Codificación Eficiente y Compatible de Audio de Múltiples Canales" (“MP3 Surround: Efficient and Compatible Coding of Multi–Channel Audio,”) 116° Congreso de la Sociedad de Ingenieros de Audio, Mayo de 2004 (116th Conv. Aud. Eng. Soc., May 2004)), donde los efectos de convolución

10 circular en el tiempo conducen a un aliasing y, al mismo tiempo, la potencia de procesamiento es un recurso limitado.

[0090] La mayoría de las aplicaciones destacadas son decodificadores de audio que son implementados con frecuencia en dispositivos portátiles y, de ese modo, funcionan sobre una fuente de energía de batería.

15

Claims

5

15

25

35

45

55

65

E10710836

08-07-2014

REIVINDICACIONES

1. Aparato para manipular una señal de audio (100), que comprende: un divisor en ventanas (102) destinado a generar una pluralidad (111; 811) de bloques sucesivos de muestras de audio, comprendiendo la pluralidad (111; 811) de bloques sucesivos al menos un bloque lleno (103; 803; 141-1; 902) de muestras de audio, presentando el bloque lleno (103; 803; 141-1; 902) valores llenos y valores de señal de audio; presentando un primer convertidor

(104) destinado a convertir el bloque lleno (103; 803; 141-1; 902) en una representación espectral (105) unos valores espectrales; un modificador de fase (106) destinado a modificar las fases de los valores espectrales, para obtener una representación espectral modificada (107); y un segundo convertidor (108) destinado a convertir la representación espectral modificada (107) en una señal de audio en el ámbito temporal modificado (109), comprendiendo el aparato por otro lado un detector de transitorios (134) destinado a determinar un acontecimiento transitorio (700, 701, 702, 703, 705, 707) en la señal de audio (100), en el cual el primer convertidor (104) está configurado para convertir el bloque lleno (103; 803; 141-1; 902) cuando el detector de transitorios (134) detecta el acontecimiento transitorio (700, 701, 702, 703, 705, 707) en un bloque (133-1; 135-1) de la señal de audio (100) correspondiente al bloque lleno (103; 803; 141-1; 902), y en el cual el primer convertidor (104) está configurado para convertir un bloque no lleno (133-2; 135-2; 141-2; 930) que presenta únicamente valores de señal de audio, correspondiendo el bloque no lleno (133-2; 135-2; 141-2; 930) al bloque de la señal de audio (100), cuando el transitorio (700, 701, 702, 703, 705, 707) no se detecta en el bloque.
2.

Aparato según la reivindicación 1, que comprende por otro lado: un diezmador (120) destinado a diezmar la señal de audio en el ámbito temporal modificado (109) o bloques sumados por recubrimiento de muestras de audio en el ámbito temporal modificados, para obtener una señal en el ámbito temporal diezmada(121), donde una característica de diezmado depende de una característica de modificación de fase aplicada por el modificador de fase (106).
3.

Aparato según la reivindicación 2, que está adaptado para realizar una extensión de anchura de banda con ayuda de la señal de audio (100), que comprende por otro lado: un filtro pasa-banda (114) destinado a extraer una señal pasa-banda (113) de la representación espectral (105) o de la señal de audio (100), donde una característica de banda pasante del filtro pasa-banda (114) se escoge en función de la característica de modificación de fase aplicada por el modificador de fase (106), de manera que la señal pasa-banda (113) se transforme por tratamiento ulterior en un rango de frecuencias diana (125-1, 125-2, 125-3) no incluida en la señal de audio (100).
4.

Aparato según la reivindicación 2, que comprende por otro lado: un sumador por recubrimiento (124) destinado a añadir por recubrimiento bloques (121-1, 121-2, 121-3) de muestras de audio diezmadas o de muestras de audio en el ámbito temporal modificadas, para obtener una señal (125) en un rango de frecuencias diana (125-1, 125-2, 1253) de un algoritmo de extensión de anchura de banda.
5.

Aparato según la reivindicación 4, que comprende por otro lado: un escalonador (116) destinado a escalonar valores espectrales por un factor, donde el factor depende de una característica de adición por recubrimiento que tiene en cuenta una relación entre la primera distancia temporal (a) para una adición por recubrimiento aplicada por el divisor en ventanas (102) y una distancia temporal diferente (b) aplicada por el sumador por recubrimiento (124) y las características de ventana.
6.

Aparato según la reivindicación 1, en el cual el divisor en ventanas (102) comprende: un procesador de ventanas de análisis (110; 102-1, 102-2; 140) destinado a generar una pluralidad (111; 811) de bloques sucesivos que tienen la misma dimensión; y un rellenador (112; 102-3) destinado a rellenar un bloque (133-1; 135-1) de la pluralidad (111; 811) de bloques sucesivos de muestras de audio, para obtener el bloque lleno (103; 803; 141-1; 902) insertando valores llenos en unas posiciones temporales especificadas antes de una primera muestra (708) de un bloque sucesivo (133-1; 135-1; 704) de muestras de audio o después de una última muestra (710) del bloque sucesivo (133-1; 135-1; 704) de muestras de audio.
7.

Aparato según la reivindicación 1, en el cual el divisor en ventanas (102) está configurado para insertar des valores llenos en unas posiciones temporales especificadas antes de una primera muestra (708) de un bloque sucesivo (133-1; 135-1; 704) de muestras de audio o después de una última muestra (710) del bloque sucesivo (133-1; 135-1; 704) de muestras de audio, comprendiendo el aparato por otro lado: un eliminador de relleno (118) destinado a eliminar muestras en unas posiciones temporales de la señal de audio en el ámbito temporal modificado (109), correspondiendo las posiciones temporales a las posiciones temporales aplicadas por el divisor en ventanas (102).
8.

Aparato según la reivindicación 1 ó la 2, que comprende por otro lado: un divisor en ventanas de síntesis (122) destinado a dividir en ventanas la señal en el ámbito temporal diezmada(121) o la señal de audio en el ámbito temporal modificado (109) y que tiene una función de ventana de síntesis coincidente con una función de análisis aplicada por el divisor en ventanas (102).
9.

Aparato según la reivindicación 1, en el cual el divisor en ventanas (102) está configurado para insertar des valores llenos en unas posiciones temporales especificadas antes de una primera muestra (708) de un bloque

16

5

15

25

35

45

55

65

E10710836

08-07-2014

sucesivo (133-1; 135-1; 704) de muestras de audio o después de una última muestra (710) del bloque sucesivo (133-1; 135-1; 704) de muestras de audio, donde una suma de un número de valores llenos y de un número de valores en el bloque sucesivo (133-1; 135-1; 704) de muestras de audio es de al menos 1,4 veces el número de valores en el bloque sucesivo (133-1; 135-1; 704) de muestras de audio.
10.

Aparato según la reivindicación 7, en el cual el divisor en ventanas (102) está configurado para insertar simétricamente los valores llenos antes de la primera muestra (708) del bloque sucesivo (133-1; 135-1; 704) de muestras de audio y después de la última muestra (710) del bloque sucesivo centrado (133-1; 135-1; 704) de muestras de audio, de manera que el bloque lleno (103; 803; 141-1; 902) esté adaptado para una conversión por el primer convertidor (104) y el segundo convertidor (108).
11.

Aparato según la reivindicación 1, en el cual el divisor en ventanas (102) está configurado para aplicar una función de ventana (709; 902) que presenta al menos una zona de guardia (712, 714; 910, 920; 940, 950) a la posición de partida (718; 901) de la función de ventana (709; 902) o a la posición de fin (720; 903) de la función de ventana (709; 902).
12.

Aparato según la reivindicación 2, estando el aparato configurado para realizar un algoritmo de extensión de anchura de banda, comprendiendo el algoritmo de extensión de anchura de banda un factor de extensión de anchura de banda (), controlando el factor de extensión de anchura de banda () una separación de frecuencia entre una banda (113-1, 113,-2, 113-3,...) de la señal de audio (100) y una banda de frecuencias diana (125-1, 1252, 125-3,...), en el cual el primer convertidor (104), el modificador de fase (106), el segundo convertidor (108) y el diezmador (120) están configurados para funcionar con ayuda de diferentes factores de extensión de banda (), de manera que se obtengan diferentes señales audio temporales modificadas (121-1, 121-2, 121-3,...) que presenta diferentes bandes de frecuencias diana (125-1, 125-2, 125-3,...), que comprende por otro lado un sumador por recubrimiento (124) para realizar una adición por recubrimiento basándose en los diferentes factores de extensión de anchura de banda (), y un combinador (126) destinado a combinar los resultados de adición por recubrimiento (125-1, 125-2, 125-3,...), para obtener una señal combinada (127) que comprende las diferentes bandas de frecuencias diana (125-1, 125-2, 125-3).
13.

Aparato según la reivindicación 1, en el cual el divisor en ventanas (102) comprende: un rellenador (112; 102-3) destinado a insertar valores llenos en unas posiciones temporales especificadas antes de una primera muestra (708) de un bloque sucesivo (133-1; 135-1; 704) de muestras de audio o después de una última muestra (710) del bloque sucesivo (133-1; 135-1; 704) de muestras de audio, comprendiendo el aparato por otro lado: un conmutador (136) que está controlado por el detector de transitorios (134), donde el conmutador (136) está configurado para controlar el rellenador (112; 102-3) de manera que se genere un bloque lleno (103; 803) cuando se detecta un acontecimiento transitorio (700, 701, 702, 703, 705, 707) por el detector de transitorios (134), presentando el bloque lleno (103; 803) valores rellenos y valores de señal de audio, y para controlar el rellenador (112; 102-3) de manera que se genere un bloque no lleno (133-2; 135-2) cuando el acontecimiento transitorio (700, 701, 702, 703, 705, 707) no se detecta por el detector de transitorios (134), presentando el bloque no lleno (133-2; 135-2) únicamente valores de señal de audio, en el cual el primer convertidor (104) comprende un primer sub-convertidor (138-1) y un segundo subconvertidor (138-2), en el cual el conmutador (136) está por otro lado configurado para alimentar el bloque lleno (103; 803) hacia el primer sub-convertidor (138-1), para realizar una conversión que presenta una primera longitud de conversión cuando se detecta el acontecimiento transitorio (700, 701, 702, 703, 705, 707) por el detector de transitorios (134) y para alimentar el bloque no lleno (133-2; 135-2) hacia el segundo sub-convertidor (138-2), para realizar una conversión que presenta una segunda longitud más corta que la primera longitud cuando el acontecimiento transitorio (700, 701, 702, 703, 705, 707) no se detecta por el detector de transitorios (134).
14.

Aparato según la reivindicación 1, en el cual el divisor en ventanas (102) comprende un procesador de ventanas de análisis (110; 102-1, 102-2; 140) destinado a aplicar una función de ventana de análisis a un bloque sucesivo (139-1, 139-2) de muestras de audio, siendo el procesador de ventanas de análisis regulable de manera que la función de ventana de análisis comprenda una zona de guardia (712, 714; 910, 920; 940, 950) en una posición de partida (718; 901) de la función de ventana (709; 902) o una posición de fin (720; 903) de la función de ventana (709; 902), comprendiendo el aparato por otro lado: un conmutador de ventana de guardia (142) que está controlado por el detector de transitorios (134), donde el conmutador de ventana de guardia (142) está configurado para controlar el procesador de ventana de análisis (110; 102-1, 102-2; 140) de manera que un bloque lleno (141-1; 902) se genere a partir de un bloque sucesivo de muestras de audio con ayuda de la función de ventanas de análisis que comprende la zona de guardia, presentando el bloque lleno (141-1; 902) valores llenos y valores de señal de audio cuando un acontecimiento transitorio (700, 701, 702, 703, 705, 707) se detecta por el detector de transitorios (134), y para controlar el procesador de ventanas de análisis (102-1, 102-2, 140) de manera que se genere un bloque no lleno (141-2; 930), presentando el bloque no lleno (141-2; 930) únicamente valores de señal de audio, cuando el acontecimiento transitorio (700, 701, 702, 703, 705, 707) no se detecta por el detector de transitorios (134), en el cual el primer convertidor (104) comprende un primer sub-convertidor (138-1) y un segundo sub-convertidor (138-2), en el cual el conmutador de ventana de guardia (142) está configurado por otro lado para alimentar el bloque lleno (141-1; 902) hacia el primer sub-convertidor (138-1), para realizar una conversión que presenta una primera longitud de conversión cuando un acontecimiento transitorio (700, 701, 702, 703, 705, 707) se detecta por el detector de transitorios (134) y para alimentar el bloque no lleno (141-2; 930) hacia el segundo sub-convertidor (138-2), para

17

5

10

15

20

25

30

35

40

45

E10710836

08-07-2014

realizar una conversión que presenta una segunda longitud más corta que la primera longitud cuando el acontecimiento transitorio (700, 701, 702, 703, 705, 707) no se detecta por el detector de transitorios (134).
15.

Aparato según la reivindicación 4 o la 12, que comprende por otro lado: un ajustador de envoltura (130) destinado a ajustar la envoltura de la señal (125) en un rango de frecuencias diana (125-1, 125-2, 125-3) o la señal combinada (129) a partir de los parámetros transmitidos (101), para obtener una señal corregida (129); y otro combinador (132) destinado a combinar la señal de audio (100; 102-1) y la señal corregida (129), para obtener una señal manipulada (131) que se extiende en anchura de banda.
16.

Aparato según la reivindicación 1, en el cual el divisor en ventanas (102) está configurado para generar una pluralidad (111; 811) de bloques sucesivos de muestras de audio, comprendiendo la pluralidad (111; 811) de bloques sucesivos al menos un primer par (145-1) de bloques no rellenados (133-2; 135-2; 141-2; 930) y un bloque lleno sucesivo (103; 803; 141-1; 902) y un segundo par (145-2) de un bloque lleno (103; 803; 141-1; 902) y un bloque sucesivo no lleno (133-2; 135-2; 141-2; 930), comprendiendo el aparato por otro lado: un diezmador (120) destinado a diezmar las muestras audio en el ámbito temporal modificados o los bloques sumados por recubrimiento de muestras de audio en el ámbito temporal modificados del primer par (145-1), para obtener las muestras audio diezmadas (147-1) del primer par (145-1) o para diezmar las muestras audio en el ámbito temporal modificados o los bloques sumados por recubrimiento de muestras de audio en el ámbito temporal modificados del segundo par (1452), para obtener las muestras audio diezmadas (147-2) del segundo par (145-2), y un sumador por recubrimiento (124), donde el sumador de recubrimiento (124) está configurado para añadir los bloques que recubren a las muestras audio diezmadas (147-1,147-2) o las muestras audio en el ámbito temporal modificadas del primer par (145-1) o del segundo par (145-2), donde, para el primera par (145-1), la distancia temporal (b’) entre una primera muestra (151) del bloque no lleno (133-2; 135-2; 141-2; 930) y una primera muestra (153) de los valores de señal de audio del bloque lleno (103; 803141-1; 902) se suministra por el sumador por recubrimiento (124), o en el cual, para el segundo par (145-2), una distancia temporal (b’) entre una primera muestra (153) de los valores de señal de audio del bloque lleno (103; 803; 141-1; 902) y una primera muestra (157) del bloque no lleno (133-2; 135-2; 141-2; 930) se suministra por el sumador por recubrimiento (124), para obtener una señal en un rango de frecuencias diana del algoritmo de extensión de anchura de banda.
17.

Procedimiento para manipular una señal de audio, que comprende:

generar (102) una pluralidad (111; 811) de bloques sucesivos de muestras de audio, comprendiendo la pluralidad (111; 811) de bloques sucesivos al menos un bloque lleno (103; 803) de muestras de audio, presentando el bloque lleno (103; 803) valores llenos y valores de señal de audio; convertir (104) el bloque lleno (103; 803) en una representación espectral que presenta valores espectrales; modificar (106) las fases de los valores espectrales, para obtener una representación espectral modificada (107); convertir (108) la representación espectral modificada (107) en una señal de audio (109) en el ámbito temporal (105) modificado, y determinar un acontecimiento transitorio (700, 701, 702, 703, 705, 707) en la señal de audio (100) con ayuda de un detector de transitorios (134), en el cual la etapa de conversión (104) comprende convertir el bloque lleno (103; 803; 141-1; 902) cuando el detector de transitorios (134) detecta el acontecimiento transitorio (700, 701, 702, 703, 705, 707) en un bloque (133-1; 135-1) de la señal de audio (100) correspondiente al bloque lleno (103; 803; 141-1; 902), y en el cual la etapa de conversión (104) comprende convertir un bloque no lleno (133-2; 135-2; 141-2; 930) que presenta únicamente valores de señal de audio, correspondiendo el bloque no lleno (133-2; 135-2; 141-2; 930) al bloque de la señal de audio (100) cuando el transitorio (700, 701, 702, 703, 705, 707) no se detecta en el bloque.
18.

Programa de ordenador que tiene un código de programa adaptado para realizar el procedimiento según la reivindicación 17 cuando el programa de ordenador se ejecuta en un ordenador.

18