ES2372259T3

ES2372259T3 - Procedimiento y sistema de reconstitución de bajas frecuencias en una señal de audio.

Info

Publication number: ES2372259T3
Application number: ES09290310T
Authority: ES
Inventors: Julien De Muynke; Benoit Pochon; Guillaume Pinto
Original assignee: Parrot SA
Current assignee: Parrot SA
Priority date: 2008-04-29
Filing date: 2009-04-29
Publication date: 2012-01-17
Anticipated expiration: 2029-04-29
Also published as: ATE521963T1; FR2930672B1; US8213636B2; EP2113913B1; FR2930672A1; EP2113913A1; US20090323983A1

Abstract

Procedimiento de reconstitución de bajas frecuencias de una señal de audio a la salida de un dispositivo de reproducción de sonido (11, 12) que presenta una frecuencia de corte baja (F0), que comprende las etapas de: - filtrar la señal de audio mediante un filtro de paso bajo (101) con una frecuencia de corte notablemente igual a dicha frecuencia de corte (F0) del dispositivo de reproducción de sonido; - determinar una frecuencia fundamental que se va a reconstituir a partir de la señal de audio filtrada por baso bajo; - generar una señal armónica (Sharm) asociada a dicha frecuencia fundamental que se va a reconstituir; - detectar una envolvente temporal (env(t)) de la señal de audio filtrada por paso bajo; y - reinyectar dicha señal armónica en dicha señal de audio por adición después de multiplicación de esta señal harmónica (Sharm) con la envolvente temporal adaptada (envadapt(t)), caracterizado por una etapa de adaptación dinámica de dicha envolvente temporal (env(t)) en función de la banda de frecuencias considerada, realizada por compresión/expansión (122a) de la envolvente temporal (env(t)) con un control por bucle de realimentación (122b) de dicha etapa de compresión/expansión aplicado de manera condicional después de la comparación del nivel de la señal comprimida/expandida con respecto a un umbral (S) predeterminado, y en que la señal armónica se reinyecta en fase en dicha señal de audio.

Description

Procedimiento y sistema de reconstitución de bajas frecuencias en una señal de audio

La invención se refiere a un procedimiento y a un sistema de reconstitución de bajas frecuencias de una señal de audio, utilizable a la salida de un dispositivo de reproducción de sonido que presenta una frecuencia de corte para las bajas frecuencias.

La invención encuentra una aplicación particularmente ventajosa en el campo de los equipos electroacústicos, especialmente los bafles estéreo para la reproducción de obras musicales o también los bafles de ordenadores personales (PC) para la reproducción de la banda de sonido de ficheros de vídeo.

Se sabe que cualquier bafle acústico posee una frecuencia de corte para las bajas frecuencias por debajo de la cual ya no es capaz de radiar energía. Esta frecuencia de corte está directamente ligada a las dimensiones del altavoz, y más precisamente a la dimensión de la membrana. Cuanto más pequeño es el altavoz, más elevada es la frecuencia de corte en el espectro. Así, un bafle de pequeñas dimensiones impondrá una atenuación natural al contenido de baja frecuencia de un fragmento de música, y esto en detrimento del oyente que no podrá beneficiarse de esta información y experimentará por ello un efecto desagradable ligado a la pérdida de las sonoridades graves.

Una primera solución a esta dificultad consiste en aplicar un filtro para amplificar las bajas frecuencias atenuadas por el bafle acústico, obligando mecánicamente a la membrana del altavoz a radiar estas frecuencias graves. Sin embargo, esta solución presenta riesgos reales para la integridad del altavoz. En efecto, la excursión de la membrana, es decir, la amplitud de su desplazamiento con respecto a su posición de equilibrio, se haría demasiado importante, hasta dañarla, incluso romperla. Otra solución reside en una propiedad psicoacústica del oído humano que permite percibir bajas frecuencias aunque no se transmian efectivamente por un dispositivo perteneciente a la cadena de reproducción de sonido, un altavoz de bafle acústico por ejemplo. Este efecto de percepción de tonalidad (“pitch”) residual, generalmente conocido bajo el término anglosajón Missing-Fundamental Effect, se debe al hecho que la percepción del “pitch” de una señal sonora no está solamente ligada a la presencia de la frecuencia fundamental en la señal, sino también a la de armónicos superiores de esta frecuencia. Dicho de otro modo, si la frecuencia fundamental, de 100 Hz por ejemplo, se elimina de una señal conservando al mismo tiempo sus armónicos superiores, a 200, 300, 400 Hz, ... el “pitch” percibido será el mismo, ya que en este caso es de hecho la desviación de frecuencia, aquí de 100 Hz, entre los armónicos superiores que fija el “pitch” y proporciona al oyente la impresión de oír una señal de “pitch” de 100 Hz. Evidentemente, este truncamiento de la señal, privada así de su frecuencia fundamental, se traduce en un timbre diferente, determinándose este último especialmente por las amplitudes relativas del conjunto de los armónicos.

Es por lo tanto posible dar solución a la atenuación, total o parcial, de las frecuencias fundamentales de las señales de audio inferiores a la frecuencia de corte, generando en tiempo real una señal armónica sintetizada a partir de armónicos asociados a cada una de las frecuencias fundamentales atenuadas, y reinyectando esta señal armónica en la señal de audio original. Se entiende en efecto que, aunque la frecuencia fundamental de un sonido se atenue o se absorba completamente, los armónicos superiores, situados por encima de la frecuencia de corte del dispositivo de reproducción de sonido, podrán transmitirse y reconstituir el “pitch” del sonido por el efecto de tonalidad residual explicado más arriba.

Este procedimiento que permite extender virtualmente hacia la parte baja del espectro la banda de paso de un sistema electroacústico se designa con el término de “generación de bajos virtuales”.

En este contexto, el documento US 5 930 373 A1 describe un procedimiento de este tipo que consiste en generar armónicos relativos a las frecuencias bajas de la señal de audio mediante un sistema de modulación. La señal de referencia se multiplica por si misma para obtener una señal de frecuencia doble, a continuación se multiplica de nuevo por sí misma para obtener una señal de frecuencia triple, etc. Este sistema conocido tiene la ventaja de ser rápido, ya que no tiene retardo importante, y de no necesitar información de frecuencia. Sin embargo, presenta el inconveniente de ser no lineal. En efecto, si la señal de audio original contiene una suma de frecuencias, se generarán no sólo los armónicos de cada una de estas frecuencias, sino también armónicos procedentes de términos de intermodulación que corren en riesgo de degradar en gran medida los rendimientos de audio del sistema.

A partir del documento US 6 134 330 A1 se conoce también un procedimiento en el cual la señal que contiene las bajas frecuencias atraviesa una serie de filtros no lineales constituidos por un rectificador y por un integrador. Este tratamiento genera una serie de armónicos superiores asociados a cada frecuencia fundamental. Sin embargo, como el anterior, este procedimiento presenta los inconvenientes de un sistema no lineal, a saber la generación de artefactos de intermodulación que pueden afectar a la señal resultante.

En el documento WO 97/42789 A1 se describe otra técnica que prevé filtrar la señal de audio mediante un filtro de paso bajo de frecuencia de corte notablemente igual a la frecuencia de corte del dispositivo de reproducción de sonido, y a continuación determinar las frecuencias fundamentales a reconstituir mediante detección de pasos por cero de la señal de audio filtrada. Puesto que las frecuencias fundamentales que deben reconstituirse en la salida se determinan por detección de pasos por cero, se deducen muy fácilmente los valores de sus armónicos superiores para, de este modo, sintetizar las señales harmónicas asociadas a cada frecuencia fundamental que sirven de base a la aplicación del efecto de restitución de “pitch” expuesto anteriormente. Sin embargo, la presencia del filtro de paso bajo induce un desfase variable que interfiere negativamente en la señal obtenida en la salida ya que la señal armónica no se reinyectará en fase en la señal de audio de origen. Esto produce niveles de armónicos desiguales según las frecuencias, ya que son potencialmente menores para las frecuencias que no están en fase con las de la señal original.

Otro problema se debe al hecho que la señal sintetizada presenta variaciones temporales que no siguen fielmente las de la señal original, lo cual tiene por efecto alterar los matices.

El documento US 2003/223588 A1 propone a este respecto un dispositivo de refuerzo de los bajos donde la envolvente de la señal sintética se ajusta por un sistema de compresión/expansión en el cual la pendiente así como un desfase son ajustables. La pendiente y el desfase se ajustan simultáneamente de manera que la energía media de la envolvente esté compensada, pudiendo ajustarse este control simultáneo por un potenciómetro o cualquier otro medio de ajuste manual.

Este sistema presenta el inconveniente de que no está adaptado a todos los tipos de señales de entrada, especialmente si el objetivo deseado es obtener una reproducción lo más natural posible de las tonalidades, y no producir efectos acústicos generando componentes frecuenciales no contenidas en la señal original, como en el caso del documento US 2003/223588 A1 que busca esencialmente ensanchar artificialmente el campo estéreo, aumentar el “brillo” del sonido o también introducir una distorsión que recuerda la sonoridad particular de los amplificadores de tubos.

En efecto, si se aplicasen las enseñanzas de este documento a la reconstitución del “pitch” del sonido por el efecto de tonalidad residual explicado más arriba, una línea de bajo de nivel moderado se amplificaría con el mismo valor que una línea de bajo muy fuerte, y el efecto sería percibido negativamente por el usuario.

Otro problema, común a todas las técnicas descritas por los documentos presentados más arriba, reside en el hecho de que estas técnicas no tienen en cuenta variaciones de la percepción auditiva humana con la frecuencia (efecto denominado “percepción del loudness”). En efecto, según el nivel sonoro y según la frecuencia, una misma variación de una señal acústica no producirá la misma variación de intensidad percibida. Por ejemplo, para pasar una variación de intensidad percibida de 40 a 50 fonos, hay que aumentar la señal acústica case de 10 dB a 100 Hz, mientras que sólo hacen falta 5 o 6 dB adicionales a 50 Hz.

También, un objetivo de la invención es proponer un procedimiento de reconstitución de bajas frecuencias de una señal de audio a la salida de un dispositivo de reproducción de sonido que respete las variaciones temporales de la señal original de manera que se conserven los matices, y que tenga en cuenta igualmente las variaciones de la percepción auditiva humana con la frecuencia.

El procedimiento de la invención es del tipo divulgado por el documento WO 97/42789 A1 anteriormente mencionado correspondiente al preámbulo de la reivindicación 1, es decir, un procedimiento de reconstitución de bajas frecuencias de una señal de audio a la salida de un dispositivo de reproducción de sonido que presenta una frecuencia de corte baja (F0), y que comprende las etapas de:

-: filtrado de la señal de audio mediante un filtro de paso bajo de frecuencia de corte notablemente idéntica a dicha

frecuencia de corte del dispositivo de reproducción de sonido; -determinación de una frecuencia fundamental a reconstituir a partir de la señal de audio filtrada por paso bajo; -generación de una señal armónica asociada a dicha frecuencia fundamental a reconstituir; -detección de una envolvente temporal de la señal de audio filtrada por paso bajo; y -reinyección en fase de dicha señal armónica en dicha señal de audio por adición después de multiplicación de

esta señal armónica con la envolvente temporal adaptada.

La invención prevé utilizar una adaptación dinámica de dicha envolvente temporal en función de la banda de frecuencias considerada.

La adaptación dinámica de la envolvente temporal en función de la banda de frecuencias permite especialmente tener en cuenta variaciones de la percepción auditiva humana con la frecuencia, y la detección de la envolvente temporal y su consideración por multiplicación con la señal armónica generada permiten modular la señal sintetizada según las variaciones temporales de la envolvente.

Según la invención, la etapa de adaptación de la envolvente temporal se realiza por compresión/expansión de la envolvente temporal.

Se ha constatado en particular que es preferible amplificar la ganancia de la envolvente cuando la línea de bajo es débil o moderada, con el fin de que el efecto propuesto sea siempre percibido positivamente por el usuario.

Así, contrariamente al procedimiento de compresión/expansión propuesto por el documento US 2003/223588 A1 anteriormente mencionado, que preveía ajustar el desfase de manera definitiva por un ajuste manual, la invención propone automatizar dinámicamente el ajuste del desfase de la envolvente por un bucle de realimentación sobre el valor de la envolvente (de manera ventajosa con constantes de tiempo diferentes en la subida y en la bajada). Así, el desfase se ajustará automáticamente, en función de la energía media de la señal de entrada, a un valor que maximiza esta energía en un límite definido.

Siempre según la invención, el control de la etapa de compresión/expansión se lleva a cabo de manera condicional tras la comparación del nivel de la señal comprimida/expandida con respecto a un umbral predeterminado.

Según diversas características subsidiarias ventajosas:

-: este control comprende la modificación dinámica de al menos un parámetro de la característica de compresión/expansión en función del nivel de la señal comprimida/expandida;

-: esta modificación dinámica se lleva a cabo iterativamente, por etapas sucesivas, siendo la etapa de modificación de dicho parámetro en caso de niveles altos, superiores a un umbral dado, del nivel de la señal comprimida/expandida, superior a la etapa de modificación de este mismo parámetro en caso de niveles bajos, superiores a un umbral dado, de la señal comprimida/expandida;

-: el parámetro en cuestión es la posición del punto invariable de la característica de compresión/expansión; -la característica de compresión/expansión es una característica lineal, para entradas/salidas expresadas en escala logarítmica; -la pendiente de la característica de compresión/expansión se mantiene constante cuando se modifica el parámetro;

-: la modificación de la posición del punto invariable de la característica de compresión/expansión se lleva a cabo modificando la ordenada en el origen de dicha característica lineal, estando esta modificación preferiblemente limitada por valores mínimo y máximo.

La invención se refiere igualmente, según la reivindicación 10, a un módulo de reconstitución de bajas frecuencias de una señal de audio para la aplicación del procedimiento anteriormente mencionado.

Se describirá a continuación un ejemplo de aplicación del dispositivo de la invención, con referencia a los dibujos adjuntos en los que las mismas referencias númericas designan, de una figura a otra, elementos idénticos o funcionalmente similares.

La figura 1 es un esquema de la arquitectura general de un sistema de reconstitución de bajas frecuencias según la invención. La figura 2 representa la extensión de banda de paso realizada por el sistema de la figura 1. La figura 3 es un esquema detallado del módulo de reconstitución de bajas frecuencias del sistema de la figura 1. La figura 4 es un diagrama de bloques del detector de envolvente temporal del módulo de la figura 3. La figura 5 es un esquema del compresor/expansor del circuito de adaptación de envolvente del módulo de la figura 3. La figura 6 es un diagrama de respuesta del compresor/expansor de la figura 5. La figura 7 ilustra la manera en que evoluciona la ordenada en el origen 1 del compresor/expansor de la figura 5, de manera diferenciada en el sentido del aumento y de la disminución, y con aplicación de umbrales mínimo y máximo. Las figuras 8a y 8b son diagramas de respuesta del compresor/expansor de la figura 5, respectivamente en una configuración de ganancia mínima y de ganancia máxima, que muestra la manera en que la característica se modifica en función del nivel de ganancia aplicado por el compresor/expansor.

La siguiente descripción con relación a los dibujos adjuntos, dada a título de ejemplo no limitativo, hará que se entienda bien en qué consiste la invención y cómo puede realizarse.

Principio general de aplicación

En la figura 1 se representa una arquitectura de un sistema 10 de reconstitución de bajas frecuencias en una señal de audio, por ejemplo una señal estéreo, debiendo dichas bajas frecuencias reconstituirse en la salida de un dispositivo de reproducción de sonido constituido por dos altavoces 11, 12, asociados a cada señal de salida estéreo Lout y Rout, presentando dichos altavoces una frecuencia de corte F0 de baja frecuencia de 120 Hz por ejemplo.

El sistema de reconstitución de la figura 1 comprende un módulo de reconstitución 100, designado también como módulo de generación de “bajos virtuales”, que funciona según el principio de restitución de “pitch” explicado más arriba que consiste, en sustancia, en tratar una señal de entrada Sin, resultante de la media de las señales estéreo de entrada Lin y Rin, de manera que se genera una señal armónica de salida Sout asociada a al menos una frecuencia fundamental inferior a la frecuencia de corte F0 que se desea reconstituir a la salida de los altavoces 11, 12 por efecto de restitución de “pitch”. La señal armónica de salida Sout así generada se reinyecta en fase en la salida del módulo 100 de generación de bajos virtuales en las señales estéreo originales Lin y Rin para formar las señales de salida estéreo Lout y Rout.

Más adelante en la descripción, se elegirá generar dicha señal armónica de salida Sout por suma de tres componentes sinusoidales de frecuencias respectivamente iguales a los tres primeros armónicos de la señal de baja frecuencia a reconstituir, a saber la frecuencia fundamental, o primer armónico, y los dos siguientes armónicos superiores, es decir los armónicos doble y triple de la frecuencia fundamental. Evidentemente, son posibles otras elecciones como, por ejemplo, el uso de los cuatro primeros armónicos, siendo lo esencial en todos los casos que la señal armónica generada contenga al menos dos armónicos consecutivos de manera que se perciba su desviación, la cual es igual al “pitch”.

En consecuencia, en el caso aquí considerado, si la frecuencia de corte F0 es de 120 Hz, la franja de bajas frecuencias que puede beneficiarse de una reconstitución por efecto de “pitch” se extiende entre 60 y 120 Hz. Para una frecuencia fundamental a reconstituirse de 60 Hz, los armónicos a considerar son los de 60, 120, 180 Hz. La banda de paso del sistema 100 está por lo tanto “virtualmente" extendida hacia abajo hasta una nueva frecuencia de corte F’0 igual a 60 Hz, como lo muestra la figura 2. La franja de las frecuencias comprendida en el intervalo [F’0, F0] se denomina FFR (Fundamental Frequency Range).

Reconstitución de las frecuencias bajas

A continuación se describirá en detalle el módulo de reconstitución 100 con referencia a la figura 3.

El módulo 100 comprende en entrada un primer filtro de paso bajo 101 cuya frecuencia de corte es notablemente igual a la frecuencia de corte F0. Este filtro 101 está destinado a efectuar una primera partición del FFR en el seno de todas las frecuencias contenidas en la señal de entrada Sin, y a limitar el fenómeno de distorsión por repliegue (aliasing). A continuación, la señal Sin así filtrada se submuestrea por 10 mediante el bloque 102, con el fin de reducir la complejidad del filtrado conservando al mismo tiempo una resolución suficiente para la futura estimación de las frecuencias fundamentales a reconstituir.

La señal Sin así filtrada por paso bajo y submuestreada, se trata a continuación paralelamente en dos ramas 110, 120, del módulo 100.

La primera rama 110 tiene por objetivo generar una señal armónica Sharm resultante de la síntesis de tres componentes sinusoidales de frecuencias respectivas iguales a una frecuencia fundamental contenida en el FFR y sus dos primeros armónicos superiores.

La segunda rama 120 tiene por objetivo construir una envolvente temporal envadapt(t) destinada a modular la señal armónica Sharm de manera que la señal de salida Sout reproduzca las variaciones temporales de la señal original. Por lo tanto, la señal de salida Sout resulta, en particular, de la multiplicación por el circuito multiplicador 103 de la señal armónica Sharm por la envolvente envadapt(t):

Sout = Sharm envadapt(t)

Como se muestra en la figura 3, la primera rama 110 de tratamiento comprende un segundo filtro de paso bajo 111 previsto para delimitar de nuevo el FFR y eliminar de la señal original las frecuencias que se extienden fuera del FFR.

Este filtro 111 incorpora ventajosamente una etapa de todo paso que permite linealizar la fase de la señal, neutralizando el efecto de desfase variable introducido por el filtrado de paso bajo. El efecto de fase introducido por esta linealización se corrige por un retardo 1 introducido (figura 1) en la señal original Lin o Rin antes de que ésta se combine con la señal armónica de salida Sout sintetizada por el módulo 100 y reinyectada en fase con la señal original para formar las señales de salida Lout y Rout.

Las frecuencias fundamentales, contenidas en el FFR y que se desean reconstituir por el efecto de “pitch” se determinan mediante un bloque 112 de pasos por cero de la señal resultante del segundo filtro de paso bajo 111. Más concretamente, el bloque 112 determina la duración de los periodos fundamentales entre dos pasos por cero y deduce las frecuencias fundamentales correspondientes.

Para cada frecuencia fundamental determinada por el bloque 112, un generador 113 de armónicos proporciona a continuación tres componentes sinusoidales a la propia frecuencia fundamental (n=1), así como a los dos armónicos superiores (n=2, n=3). Estas tres componentes sinusoidales se construyen a partir de una misma tabla, denominada “tabla de seno” o también wavetable, guardada en memoria, que proporciona los valores de un periodo sinusoidal. Para más detalles sobre esta técnica, véase el artículo de Laroche J. “Synthesis of Sinusoids via Non-Overlapping Inverse Fourier Transform”, IEEE Transactions on Speech and Audio Processing, IEEE Service Center, Nueva YorK, NY, USA, vol. 8, nº 4, julio de 2000, páginas 471-477.

En la práctica, el generador 113 construye, a partir del periodo fundamental, las componentes sinusoidales de muestra en muestra progresando según un paso regular en la tabla. En función del periodo detectado, el generador 113 calcula un determinado paso para construir la componente a la frecuencia fundamental (n=1) y, partiendo de la primera muestra, incrementa el índice de este paso con el fin de determinar la siguiente muestra. El paso de muestreo se elige de manera que sea compatible con la potencia de cálculo del microprocesador del sistema 10, entendiéndose que el procedimiento aplicado por la invención es un procedimiento en tiempo real y que, en consecuencia, no debe introducir retardo entre las señales. A título de ejemplo, la tabla de seno puede constar de 4096 puntos en un periodo entero.

Los dos armónicos superiores (n=2, n=3) se generan de la misma manera tomando como paso respectivo el doble y el triple del paso correspondiente a la frecuencia fundamental.

En la figura 3 puede observarse que las componentes sinusoidales proporcionadas por el generador 113 se someten a continuación a una operación de ponderación efectuada por un circuito 114 que consiste en asignar a cada componente un coeficiente de adaptación de timbre determinado experimentalmente, esto con el fin de dar a la señal de salida Sout un timbre aproximado al de la señal original. El valor de estos coeficientes depende esencialmente del orden del armónico considerado, es decir, primer armónico (n=1), o frecuencia fundamental, segundo (n=2) y tercer (n=3) armónicos (se ha visto en efecto más arriba que el timbre de una señal sonora se determina por la relación de energía entre sus diferentes componentes frecuenciales). Más concretamente, el circuito 114 recibe del bloque 112 una información de frecuencia y realiza la ponderación de los armónicos, que depende de la frecuencia instantánea, a partir de tablas de coeficientes indexados por la frecuencia detectada. Así, por ejemplo, la ponderación aplicada a las sinusoides de 60 Hz, 120 Hz y 180 Hz será diferente de la aplicada a las sinusoides de 100 Hz, 200 Hz y 300 Hz.

Las componentes sinusoidales ponderadas se suman en la salida del circuito de ponderación 114 por un circuito sumador 115 para formar la señal armónica sintetizada Sharm que contiene los tres primeros armónicos de la frecuencia fundamental a reconstituir considerada.

Determinación y adaptación de la envolvente temporal

Paralelamente a la generación de los armónicos en la primera rama 110, la segunda rama 120 del tratamiento extrae la envolvente temporal env(t) de la señal filtrada por paso bajo y submuestreada procedente del bloque 102, mediante un detector de envolvente 121 representado en la figura 4 que, para ello, realiza de manera clásica un cálculo de mínimo cuadrado RMS (Root Mean Square) que consiste en elevar la señal al cuadrado por el bloque 121a, filtrarla a través de un filtro de paso bajo 121b, y a continuación obtener la raíz cuadrada mediante el bloque 121c.

Por otra parte, hay que resaltar que la señal armónica sintetizada Sharm no tiene la misma composición espectral que la señal de baja frecuencia original ya que está compuesta no solamente por la frecuencia fundamental, sino también por los dos primeros armónicos superiores. Ahora bien, el oído humano no percibe todas las frecuencias con la misma intensidad, y las variaciones temporales de dos señales sonoras no son percibidas de la misma manera si su contenido espectral es diferente. Con el fin de tener en cuenta esta limitación, las variaciones de la envolvente env(t) deben adaptarse en función del FFR.

Conforme a la figura 3, esta adaptación se realiza en la segunda rama 120 de tratamiento por un circuito 122 apto para realizar una operación de compresión/expansión según la curva de respuestas de entrada/salida mostrada en la figura 6. Al ser calculada la envolvente env(t) previamente en decibelios, los niveles más bajos de la envolvente inferiores a un umbral dado –N dB por ejemplo –27 dB en el ejemplo ilustrado, se atenúan, mientras que los niveles más fuertes, superiores a –N dB, aumentan adicionalmente. Esta adaptación, basada en una escala perceptiva, permite dar a la señal así generada variaciones temporales que se percibirán como similares a las variaciones temporales de la señal original, permitiendo de este modo garantizar que el timbre generado será fiel al timbre original. Como lo muestra la representación esquemática de la figura 5, el circuito de adaptación 122 se controla por un bucle de realimentación 122b de la siguiente manera.

Para simplificar la realización del circuito, y sin que esto tenga ninguna incidencia importante sobre los resultados obtenidos, puede realizarse, en la gama de frecuencias analizadas (típicamente 40-120 Hz) la siguiente doble aproximación:

-: la tasa de expansión, es decir el factor por el cual hay que multiplicar una variación x dada en la señal original,

expresada en decibelios, para obtener la misma variación de intensidad percibida en la señal armónica,

expresada en fonos, es constante para un armónico considerado, y -la tasa de expansión no depende tampoco del orden del armónico considerado (mientras que, teóricamente,

aumentaría con el orden del armónico).

Para el valor de la tasa de expansión se elegirá una media de las tasas de expansión para todas las frecuencias, amplitudes y órdenes de armónicos considerados.

El proceso de compresión/expansión, esquematizado en 122a, se aplicará a la envolvente detectada determinada por el detector de envolvente 121, y a continuación esta envolvente expandida se utilizará para modular la suma de los armónicos sintetizados (ya que la tasa de expansión es la misma para todos los armónicos).

La tasa de expansión, designada en adelante como a, corresponde a la pendiente de la recta D representada en la figura 6 (como se indica más arriba, después del estudio de las curvas de isofonía puede considerarse que esta pendiente será constante). La ordenada en el origen de esta recta D se designará como 1, y dependerá del punto invariable deseado I, que en el ejemplo ilustrado en la figura 6 está situado en (-27 dB, -27 dB). La función de transferencia del bloque 122a puede expresarse de la forma:

salida(dB) = x entrada(dB) + 1 (dB)

Si se desea que el sistema amplifique en todos los casos el nivel sonoro percibido de los sonidos graves (es decir, incluso cuando el nivel de la envolvente temporal es inferior a –N dB (-27 dB en el ejemplo ilustrado), y puesto que se fija a, es conveniente aumentar 1 en un cierto valor para que la característica D de compresión/expansión pase por encima de la recta y = x de pendiente unidad para este nivel bajo de la envolvente. Por el contrario, en el caso de un nivel de bajos importante en la señal original, hay que procurar no amplificar demasiado la envolvente.

Para obtener este resultado, la invención propone utilizar un sistema de adaptación del nivel de la envolvente, basado en un bucle de realimentación.

El principio de este bucle, ilustrado en la figura 5, consiste en comparar con un umbral S el nivel instantáneo de la envolvente expandida suministrado en la salida del módulo de compresión/expansión 122a. Si este nivel es inferior al umbral, el parámetro 1 aumenta en un paso fijo para la adaptación de la siguiente muestra. Por el contrario, si el nivel instantáneo de la envolvente expandida es superior al umbral S, 1 disminuye en un paso fijo.

El paso de aumento o de disminución no será el mismo en un caso ni en el otro. En efecto, si el nivel instantáneo de la envolvente expandida se vuelve bruscamente demasiado grande – en el caso de una percusión por ejemplo -, es preciso que la disminución de 1 intervenga muy rápidamente para evitar alcanzar niveles excesivamente importantes. Por el contrario, si el nivel instantáneo es bajo, es posible aumentar 1 más progresivamente, dado que conviene respetar los matices del fragmento original: la atenuación natural de las notas de bajos debe respetarse ya que, si 1 aumenta tan deprisa como disminuye, las notas no pararían nunca.

La figura 7 ilustra la manera en que el parámetro 1 varía en aumento y disminución en el caso de un fragmento de música que presenta un aumento brusco de nivel, seguido de una disminución rápida de este mismo nivel. Se observará igualmente que la variación del parámetro 1 se limita a un valor mínimo (por ejemplo 1 = 0) y a un valor máximo (por ejemplo 1 = + 12 dB).

El principio de aumento/disminución de 1 es el siguiente: una variable flag toma el valor 0 o 1 en función del resultado de la comparación entre el nivel instantáneo de la envolvente expandida y el umbral S, y el paso de adaptación de 1 se calcula según la fórmula:

paso =coef x (x0 – flag), siendo 0 < x0 < 1,

eligiéndose x0 en función de la relación deseada entre el aumento y el paso de disminución de 1, y eligiéndose coef en función de la velocidad de adaptación deseada (si coef es pequeño, 1 evolucionará despacio, mientras que evolucionará rápidamente con un valor de coef elevado).

Las variaciones de 1 se traducirán en un desplazamiento del punto invariable I de la característica D de compresión/expansión.

Las figuras 8a y 8b ilustran la característica D obtenida para los dos valores extremos de 1, respectivamente 1 = 0 dB y 1 = +12 dB (cuando 1 varía, la recta D oscila verticalmente entre las dos posiciones extremas representadas en las figuras 8a y 8b).

La zona de compresión efectiva (es decir, la zona en la que la señal de salida se atenúa con respecto a la señal de entrada) y la zona de expansión efectiva (es decir, la zona en la que la señal de salida se amplifica con respecto a la señal de entrada) se separan por el punto invariable I, definiendo los sectores comprendidos entre la característica D y la recta de pendiente unidad y = x las regiones de compresión (sin llegar al punto I) y de expansión (pasando del punto I).

El bucle de realimentación permite así comprimir o expandir la envolvente en función de su nivel instantáneo, con el fin de homogeneizar el nivel de las componentes bajas reinyectadas en la señal original sea cual sea el género musical del fragmento considerado (eligiéndose las constantes de tiempo del aviso suficientemente bajas para no afectar a la disminución natural de las notas). Esto permite generar señales armónicas de amplitud relativamente constante sea cual sea la señal original. Así, una señal sonora de baja frecuencia y poco dinámica en las bajas frecuencias se reforzará notablemente por el sistema, mientras que una señal sonora con una línea de bajo de energía fuerte se reforzará a un nivel limitado, con el fin de conservar una reproducción natural.

Este procedimiento de adaptación de la envolvente, que combina un módulo de compresión/expansión con un bucle de control por realimentación, permite generar una señal que se percibirá como similar a la señal original si ésta fuese producida por un bafle acústico de mayores dimensiones.

Reconstitución final de la señal de salida

Volviendo a la figura 3, una vez realizada la adaptación de la envolvente por el circuito 122, la señal armónica Sharm sintetizada en la primera rama 110 se modula por la envolvente adaptada envadapt(t) procedente de la segunda rama 120, por multiplicación llevada a cabo mediante el circuito 103, y a continuación la señal se sobremuestrea de un factor de 10 por el bloque 105 para volver a la frecuencia de muestreo inicial. Puede ser ventajoso introducir en este estado un filtro de paso bajo en el proceso de sobremuestreo, ya que al ser este filtro de fase lineal, no introduce distorsión de fase, lo cual iría contra el objetivo deseado de reinyección de la señal sintetizada en fase en la señal original.

Como la reinyección de la señal de salida Sout filtrada por paso alto y sobremuestreada presenta riesgos de sobrepaso de la dinámica, se utiliza un limitador en la salida del sistema 10 de reconstitución para que la señal reenviada a los altavoces 11, 12 permanezca contenida en una dinámica de 16 bits.

Claims

REIVINDICACIONES

1. Procedimiento de reconstitución de bajas frecuencias de una señal de audio a la salida de un dispositivo de reproducción de sonido (11, 12) que presenta una frecuencia de corte baja (F0), que comprende las etapas de:

-

filtrar la señal de audio mediante un filtro de paso bajo (101) con una frecuencia de corte notablemente igual a dicha frecuencia de corte (F0) del dispositivo de reproducción de sonido;

-

determinar una frecuencia fundamental que se va a reconstituir a partir de la señal de audio filtrada por baso

bajo;

-

generar una señal armónica (Sharm) asociada a dicha frecuencia fundamental que se va a reconstituir;

-

detectar una envolvente temporal (env(t)) de la señal de audio filtrada por paso bajo; y

-

reinyectar dicha señal armónica en dicha señal de audio por adición después de multiplicación de esta señal

harmónica (Sharm) con la envolvente temporal adaptada (envadapt(t)),

-

caracterizado por una etapa de adaptación dinámica de dicha envolvente temporal (env(t)) en función de la banda de frecuencias considerada, realizada por compresión/expansión (122a) de la envolvente temporal (env(t)) con un control por bucle de realimentación (122b) de dicha etapa de compresión/expansión aplicado de manera condicional después de la comparación del nivel de la señal comprimida/expandida con respecto a un umbral (S) predeterminado, y en que la señal armónica se reinyecta en fase en dicha señal de audio.
2.

Procedimiento según la reivindicación 1, en el que dicho control por bucle de realimentación de la etapa de compresión/expansión comprende la modificación dinámica de al menos un parámetro de la característica (D) de compresión/expansión en función del nivel de la señal comprimida/expandida.
3.

Procedimiento según la reivindicación 2, en el que dicha modificación dinámica de dicho parámetro es una modificación aplicada de manera iterativa, mediante etapas sucesivas.
4.

Procedimiento según la reivindicación 3, en el que el paso de modificación de dicho parámetro en caso de niveles altos, superiores a un umbral dado, del nivel de la señal comprimida/expandida es superior al paso de modificación de este mismo parámetro en caso de niveles bajos, superiores a un umbral dado, de la señal comprimida/expandida.
5.

Procedimiento según la reivindicación 2, en el que dicho al menos un parámetro es la posición del punto invariable (I) de la característica de compresión/expansión.
6.

Procedimiento según la reivindicación 5, en el que dicha característica de compresión/expansión es una característica lineal (D), para entradas/salidas expresadas en escala logarítmica.
7.

Procedimiento según la reivindicación 6, en el que la pendiente (a) de dicha característica de compresión/expansión se mantiene constante durante la modificación de dicho parámetro.
8.

Procedimiento según las reivindicaciones 5 y 6 tomadas en combinación, en el que la modificación de la posición de dicho punto invariable (I) se lleva a cabo modificando la ordenada en el origen (1) de dicha característica lineal.
9.

Procedimiento según la reivindicación 8, en el que dicha modificación de la ordenada en el origen de la característica lineal es una modificación limitada por valores mínimo y máximo.
10.

Módulo de reconstitución de bajas frecuencias de una señal de audio (Sin) en la salida de un dispositivo (11, 12) de reproducción de sonido que presenta una frecuencia (F0) de corte para dichas bajas frecuencias, para aplicar el procedimiento según una de las reivindicaciones precedentes, este módulo comprendiendo:

-

un filtro de paso bajo (101) apto para filtrar dicha señal de audio (Sin) a una frecuencia de corte notablemente igual a la frecuencia de corte (F0) de dicho dispositivo (11, 12) de reproducción de sonido;

-

una primera rama (110) para procesar la señal de audio filtrada por paso bajo destinada a generar una señal armónica (Sharm) asociada con al menos una frecuencia fundamental que se va a reconstituir en la señal de audio, dicha primera rama (110) comprendiendo un bloque (112) apto para determinar dicha frecuencia fundamental;

-

una segunda rama (120) para procesar la señal de audio filtrada por paso bajo que comprende un detector

(121) de la envolvente temporal de dicha señal; y

-

un circuito apto para reinyectar en fase dicha señal armónica en dicha señal de audio por adición después de multiplicación de esta señal armónica (Sharm) con la envolvente temporal adaptada (envadapt(t)),

módulo caracterizado porque:

-

la segunda rama (120) comprende además un circuito (122) para adaptar dicha envolvente temporal en función de su nivel instantáneo, comprendiendo un compresor/expansor (122a) de la envolvente temporal y un bucle de control (122b) de dicho compresor/expansor (122a) por realimentación en función del nivel de la señal comprimida/expandida;

-

el control por el bucle de realimentación se aplica de manera condicional después de comparación del nivel de la señal comprimida/expandida con respecto a un umbral (S) predeterminado; y -la señal armónica se reinyecta en fase en dicha señal de audio.