ES2898865T3 - Aparato y método para sintetizar una representación parametrizada de una señal de audio - Google Patents

Aparato y método para sintetizar una representación parametrizada de una señal de audio Download PDF

Info

Publication number
ES2898865T3
ES2898865T3 ES17189419T ES17189419T ES2898865T3 ES 2898865 T3 ES2898865 T3 ES 2898865T3 ES 17189419 T ES17189419 T ES 17189419T ES 17189419 T ES17189419 T ES 17189419T ES 2898865 T3 ES2898865 T3 ES 2898865T3
Authority
ES
Spain
Prior art keywords
information
bandpass filter
frequency
bandpass
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17189419T
Other languages
English (en)
Inventor
Sascha Disch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2898865T3 publication Critical patent/ES2898865T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

Aparato para sintetizar una señal de salida de audio (206) a partir de una representación parametrizada de una señal de audio, comprendiendo el aparato: una interfaz de entrada (200) para recibir la representación parametrizada de la señal de audio, comprendiendo la representación parametrizada, para una parte de tiempo de la señal de audio, información de filtro de paso de banda para una pluralidad de filtros de paso de banda, comprendiendo la información del filtro de paso de banda: información que indica las frecuencias centrales de filtro de paso de banda variables en el tiempo de la pluralidad de filtros de paso de banda, teniendo la pluralidad de filtros de paso de banda anchos de banda variables, que dependen de una frecuencia central de filtro de paso de banda del filtro de paso de banda correspondiente, información de modulación de amplitud para cada filtro de paso de banda de la pluralidad de filtros de paso de banda para la parte de tiempo de la señal de audio, y al menos una información de modulación de fase y modulación de frecuencia para cada filtro de paso de banda de la pluralidad de filtros de paso de banda para la parte de tiempo de la señal de audio; un sintetizador de modulación de amplitud (201) para sintetizar, para cada canal de filtro de paso de banda, una componente de modulación de amplitud basándose en la información de modulación de amplitud para un filtro de paso de banda respectivo de la pluralidad de filtros de paso de banda, en el que el sintetizador de modulación de amplitud (201) comprende un elemento de adición de ruido (160f) para añadir ruido, estando el elemento de adición de ruido (160f) controlado a través de información lateral transmitida, que se establece de manera fija o que se controla mediante un análisis local; un sintetizador de modulación de frecuencia o modulación de fase (202) para sintetizar, para cada canal de filtro de paso de banda, información de frecuencia instantánea o información de fase instantánea basándose en la información de filtro de paso de banda que indica una frecuencia central de filtro de paso de banda variable en el tiempo y la información de modulación de frecuencia o la información de modulación de fase para un filtro de paso de banda respectivo de la pluralidad de filtros de paso de banda, en el que las distancias en frecuencia entre las frecuencias centrales adyacentes de los filtros de paso de banda de la pluralidad de filtros de paso de banda son diferentes en un espectro de frecuencias, un oscilador (203) para generar, para cada canal de filtro de paso de banda, una señal de salida que representa una señal de oscilación modulada instantáneamente en amplitud y al menos una de una señal de oscilación modulada en frecuencia instantáneamente o una señal de oscilación modulada en fase instantáneamente (204) usando la componente de modulación de amplitud para el canal de filtro de paso de banda respectivo y usando al menos una de la información de frecuencia instantánea o la información de fase instantánea para el canal de filtro de paso de banda respectivo; y un combinador (205) para generar la señal de salida de audio (206) mediante la combinación de las señales de salida para los canales de filtro de paso de banda.

Description

DESCRIPCIÓN
Aparato y método para sintetizar una representación parametrizada de una señal de audio
La presente invención se refiere a la codificación de audio y, en particular, a esquemas de codificación de audio parametrizados, que se aplican en codificadores vocales.
La clase cne de los codificadores vocales es codificadores vocales de fase. Un tutorial sobre codificadores vocales de fase es la publicación “The Phase Vocoder: A tutorial”, Mark Dolson, Computer Music Journal, volumen 10, n.° 4, páginas 14 a 27, 1986. Una publicación adicional es “New phase vocoder techniques for pitch-shifting, harmonizing and other exotic effects”, L. Laroche y M. Dolson, actas 1999, taller IEEE sobre aplicaciones de procesamiento de señales a audio y acústica, New Paltz, Nueva York, 17 al 20 de octubre de 1999, páginas 91 a 94.
Las figuras 5 a 6 ilustran diferentes implementaciones y aplicaciones para un codificador vocal de fase. La figura 5 ilustra una implementación de banco de filtros de un codificador vocal de fase, en la que se proporciona una señal de audio a una entrada 500, y en donde, en una salida 510, se obtiene una señal de audio sintetizada. Específicamente, cada canal del banco de filtros ilustrado en la figura 5 comprende un filtro de paso de banda 501 y un oscilador conectado posteriormente 502. Las señales de salida de todos los osciladores 502 de todos los canales se combinan a través de un combinador 503, que se ilustra como un elemento de adición. En la salida del combinador 503, se obtiene la señal de salida 510.
Cada filtro 501 se implementa para proporcionar, por un lado, una señal de amplitud A(t) y, por otro lado, la señal de frecuencia f(t). La señal de amplitud y la señal de frecuencia son señales de tiempo. La señal de amplitud ilustra un desarrollo de la amplitud dentro de una banda de filtro a lo largo del tiempo y la señal de frecuencia ilustra el desarrollo de la frecuencia de una señal de salida de filtro a lo largo del tiempo.
Una implementación esquemática de un filtro 501 se ilustra en la figura 6. La señal entrante se encamina para dar dos trayectorias paralelas. En una trayectoria, la señal se multiplica por una onda de señal con una amplitud de 1,0 y una frecuencia igual a la frecuencia central del filtro de paso de banda tal como se ilustra en 551. En la otra trayectoria, la señal se multiplica por una onda cosenoidal de la misma amplitud y frecuencia que la ilustrada en 551. Por tanto, las dos trayectorias paralelas son idénticas, excepto por la fase de la forma de onda multiplicadora. Entonces, en cada trayectoria, el resultado de la multiplicación se alimenta a un filtro de paso bajo 553. La propia operación de multiplicación también se conoce como modulación en anillo simple. La multiplicación de cualquier señal por una onda sinusoidal (o cosenoidal) de frecuencia constante tiene el efecto de cambiar simultáneamente todas las componentes de frecuencia en la señal original, por tanto, más como menos la frecuencia de la onda sinusoidal. Si este resultado pasa ahora a través de un filtro de paso bajo apropiado, solo quedará la parte de baja frecuencia. Esta secuencia de operaciones también se conoce como heterodinación. Esta heterodinación se realiza en cada una de las dos trayectorias paralelas, pero dado que una trayectoria heterodina con una onda sinusoidal, mientras que la otra trayectoria utiliza una onda cosenoidal, las señales heterodinas resultantes en las dos trayectorias están desfasadas en 90°. El filtro de paso bajo superior 553, por tanto, proporciona una señal cuadrada 554 y el filtro inferior 553 proporciona una señal en fase. Estas dos señales, que también se conocen como señales I y Q, se transmiten a un transformador de coordenadas 556, que genera una representación de magnitud/fase a partir de la representación rectangular.
La señal de amplitud se emite en 557 y corresponde a A(t) de la figura 5. La señal de fase se introduce en un desenvolvente de fase 558. En la salida del elemento 558 no existe un valor de fase entre 0 y 360°, sino un valor de fase, que aumenta de manera lineal. Este valor de fase “desenvuelto” se introduce en un convertidor de fase/frecuencia 559 que puede, por ejemplo, implementarse como un dispositivo de diferencia de fase que resta una fase en un instante de tiempo anterior de la fase menos un instante de tiempo actual con el fin de obtener el valor de frecuencia para el instante de tiempo actual.
Este valor de frecuencia se añade a un valor de frecuencia constante fi del canal de filtro i, con el fin de obtener un valor de frecuencia variable en el tiempo en una salida 560.
El valor de frecuencia en la salida 560 tiene una parte de CC fi y una parte cambiante, que también se conoce como “fluctuación de frecuencia” , por la que una frecuencia de corriente de la señal en el canal de filtro se desvía de la frecuencia central fi.
Por tanto, el codificador vocal de fase tal como se ilustra en la figura 5 y la figura 6 proporciona una separación de información espectral e información temporal. La información espectral está comprendida en la ubicación del canal del banco de filtros específico en la frecuencia fi y la información temporal se encuentra en la fluctuación de frecuencia y en la magnitud a lo largo del tiempo.
Otra descripción del codificador vocal de fase es la interpretación de la transformada de Fourier. Consiste en una sucesión de transformadas de Fourier superpuestas que se apoderan de ventanas de duración finita en el tiempo. En la interpretación de la transformada de Fourier, la atención se centra en los valores de magnitud y fase de todas las diferentes bandas de filtro o compartimentos de frecuencia en un único punto en el tiempo. Mientras que en la interpretación de banco de filtros, la resíntesis puede verse como un ejemplo clásico de síntesis aditiva con controles de amplitud y frecuencia que varían en el tiempo para cada oscilador, la síntesis, en la implementación de Fourier, se logra al convertir de nuevo a la forma real e imaginaria y la superposición de adiciones las sucesivas transformadas inversas de Fourier. En la interpretación de Fourier, el número de bandas de filtro en el codificador vocal de fase es el número de puntos de frecuencia en la transformada de Fourier. De manera similar, el espaciado igual en frecuencia de los filtros individuales puede reconocerse como la característica fundamental de la transformada de Fourier. Por otro lado, la forma de las bandas de paso de filtro, es decir, la pendiente del corte en los bordes de la banda está determinada por la forma de la función de ventana que se aplica antes de calcular la transformada. Para una forma característica particular, por ejemplo, ventana Hamming, la pendiente del corte de filtro aumenta en proporción directa a la duración de la ventana.
Resulta útil ver que las dos interpretaciones diferentes del análisis de codificador vocal de fase solo se aplican a la implementación del banco de filtros de paso de banda. La operación mediante la que las salidas de estos filtros se expresan como amplitudes y frecuencias variables en el tiempo es la misma para ambas implementaciones. El objetivo básico del codificador vocal de fase es separar la información temporal de la información espectral. La estrategia operativa consiste en dividir la señal entre diversas bandas espectrales y caracterizar la señal que varía en el tiempo en cada banda.
Dos operaciones básicas son particularmente significativas. Estas operaciones son escala de tiempo y transposición de altura. Siempre es posible ralentizar un sonido grabado simplemente reproduciéndolo a un índice de muestreo más bajo. Esto es análogo a reproducir una grabación en cinta a una velocidad de reproducción más baja. Sin embargo, este tipo de expansión de tiempo simplista reduce simultáneamente la altura en el mismo factor que la expansión de tiempo. Ralentizar la evolución temporal de un sonido sin alterar su altura requiere una separación explícita de la información temporal y espectral. Tal como se señaló anteriormente, esto es precisamente lo que intenta realizar el codificador vocal de fase. El estiramiento de las señales de amplitud y frecuencia que varían en el tiempo A(t) y f(t) de la figura 5a no cambia en absoluto la frecuencia de los osciladores individuales, pero ralentiza la evolución temporal del sonido compuesto. El resultado es un sonido ampliado en el tiempo con la altura original. La vista de la transformada de Fourier de la escala temporal es de modo que, con el fin de ampliar un sonido en el tiempo, las FFT inversas simplemente pueden separarse más lejos que las FFT de análisis. Como resultado, los cambios espectrales ocurren más lentamente en el sonido sintetizado que en el original en esta aplicación y la fase se cambia de escala precisamente por el mismo factor por el que el sonido se amplía en el tiempo.
La otra aplicación es la transposición de altura. Dado que el codificador vocal de fase puede utilizarse para cambiar la evolución temporal de un sonido sin cambiar su altura, también debería ser posible hacer lo contrario, es decir, cambiar la altura sin cambiar la duración. Esto se realiza o bien mediante una escala de tiempo que usa el factor de cambio de altura deseado y entonces reproduciendo los sonidos resultantes a un índice de muestreo incorrecto o reduciendo el muestreo con un factor deseado y reproduciendo a un índice sin cambios. Por ejemplo, para elevar la altura en una octava, en primer lugar, el sonido se amplía un factor de 2 y la expansión de tiempo se reproduce entonces al doble del índice de muestreo original.
El codificador vocal (o “VODER”) fue inventado por Dudley como un dispositivo sintetizador operado manualmente para generar habla humana [2]. Un tiempo considerable después, el principio de su funcionamiento se extendió hacia el denominado codificador vocal de fase [3] [4]. El codificador vocal de fase funciona en espectros de DFT a corto plazo de superposición y, por tanto, en un conjunto de filtros de subbanda con frecuencias centrales fijas. El codificador vocal ha encontrado una amplia aceptación como principio subyacente para manipular archivos de audio. Por ejemplo, los efectos de audio tales como el estiramiento de tiempo y la transposición de altura se logran fácilmente mediante un codificador vocal [5]. Desde entonces, se han publicado muchas modificaciones y mejoras en relación con esta tecnología. Específicamente, las restricciones de tener filtros de análisis de frecuencia fijos se eliminaron al añadir un mapeo derivado de frecuencia fundamental (‘f0’), por ejemplo, en el codificador vocal ‘STRAIGHT’ [6]. Aun así, el caso de uso predominante seguía siendo la codificación/procesamiento de voz.
Otra área de interés para la comunidad de procesamiento de audio ha sido la descomposición de las señales de voz para dar componentes modulados. Cada componente consiste en un portador, una modulación de amplitud (AM) y una parte de modulación de frecuencia (FM) de algún tipo. Se publicó una forma adaptativa de señal de tal descomposición, por ejemplo, en [7] que sugiere el uso de un conjunto de filtros de paso de banda adaptativos de señal. En [8] se presentó un enfoque que utiliza información de AM en combinación con un codificador paramétrico de ‘sinusoides más ruido’. Otro método de descomposición se publicó en [9] que usa la llamada estrategia “FAME”: en este caso, las señales de voz se han descompuesto para dar cuatro bandas que usan filtros de paso de banda con el fin de extraer posteriormente su contenido de AM y de FM. Las publicaciones más recientes también tienen como objetivo reproducir señales de audio a partir de información de AM (envolventes de subbanda) solo y sugieren métodos iterativos para la recuperación de la información de fase asociada que contiene predominantemente la FM [10].
El presente enfoque presentado en el presente documento está dirigido al procesamiento de señales de audio generales, por tanto, también incluye la música. Es similar a un codificador vocal de fase, pero modificado con el fin de realizar una descomposición de subbanda motivada de manera perceptiva dependiente de la señal para dar un conjunto de frecuencias portadoras de subbanda con señales de AM y de FM asociadas cada una. Cabe señalar que esta descomposición es significativa de manera perceptiva y que sus elementos son interpretables de manera directa, de modo que todo tipo de procesamiento de modulación en las componentes de la descomposición resulta factible.
Para lograr el objetivo indicado anteriormente, se hace uso de la observación de que existen señales similares de manera perceptiva. Una señal de paso de banda tonal de banda suficientemente estrecha está bien representada de manera perceptiva por un portador sinusoidal en su posición espectral de ‘centro de gravedad’ (COG) y su envolvente de Hilbert. Esto se debe al hecho de que ambas señales evocan aproximadamente el mismo movimiento de la membrana basilar en el oído humano [11]. Un ejemplo sencillo para ilustrar esto es el complejo de dos tonos (1) con frecuencias f y f2 suficientemente cerca entre sí de modo que se fusionan de manera perceptiva para dar una componente (sobre)modulada.
Figure imgf000004_0001
Una señal que consiste en un portador sinusoidal a una frecuencia igual al COG espectral de st y que tiene la misma envolvente de amplitud absoluta que st es sm según (2)
Figure imgf000004_0002
En la figura 9b (gráfica superior y media) se representan la señal de tiempo y la envolvente de Hilbert de ambas señales. Cabe destacar que el salto de fase de n en la primera señal en cero de la envolvente es opuesto a la segunda señal. La figura 9a muestra las gráficas de densidad espectral de potencia de las dos señales (gráfica superior y media).
Aunque estas señales son considerablemente diferentes en su contenido espectral, sus marcas perceptivas predominantes, la frecuencia ‘media’ representada por COG y la envolvente de amplitud, son similares. Esto hace que sean sustitutos mutuos de manera perceptiva con respecto a una región espectral limitada de banda centrada en COG tal como se representa en la figura 9a y la figura 9b (gráficos inferiores). El mismo principio sigue siendo válido aproximadamente para señales más complicadas.
En general, los sistemas de análisis/síntesis de modulación que descomponen una señal de banda ancha en un conjunto de componentes comprendiendo cada uno información de portador, de modulación de amplitud y de modulación de frecuencia tienen muchos grados de libertad, ya que, en general, esta tarea es un problema mal planteado. Los métodos que modifican las envolventes de magnitud de subbanda de espectros de audio complejos y posteriormente los recombinan con sus fases no modificadas para la resíntesis dan como resultado artefactos, ya que estos procedimientos no prestan atención al receptor final del sonido, es decir, el oído humano.
Además, la aplicación de FFT muy largas, es decir, ventanas muy largas con el fin de obtener una resolución de frecuencia fina reduce al mismo tiempo la resolución de tiempo. Por otro lado, las señales transitorias no requerirían una resolución de alta frecuencia, sino que requerirían una resolución de tiempo alta, ya que, en un instante de tiempo determinado, las señales de paso de banda exhiben una fuerte correlación mutua, lo que también se conoce como “coherencia vertical” . En esta terminología, cabe imaginarse una gráfica de espectrograma de tiempo en donde en el eje horizontal se usa la variable de tiempo y en donde en el eje vertical se usa la variable de frecuencia. Por tanto, el procesamiento de señales transitorias con una resolución de frecuencia muy alta dará como resultado una resolución de tiempo baja, lo que, al mismo tiempo, significa una pérdida casi total de la coherencia vertical. De nuevo, el receptor definitivo del sonido, es decir, el oído humano no se considera en un modelo de este tipo.
La publicación [22] da a conocer una metodología de análisis para extraer parámetros sinusoidales precisos a partir de señales de audio. El método combina la estimación de parámetro de codificador vocal modificado los algoritmos de detección de picos usados actualmente en el modelado sinusoidal. El sistema procesa la entrada fotograma por fotograma, busca picos como un modelo de análisis sinusoidal, pero también selecciona dinámicamente los canales de codificador vocal a través de los que se procesan los picos extendidos en el dominio de FFT. De esta manera, las trayectorias de frecuencia de sinusoides de frecuencia cambiante dentro de un fotograma pueden parametrizarse con precisión. En una etapa de análisis espectral, se identifican picos y valles en la magnitud FFT. En un aislamiento de picos, el espectro se establece en cero fuera del pico de interés y se conservan las versiones de frecuencia tanto positiva como negativa del pico. Entonces, se calcula la transformada de Hilbert de este espectro y, posteriormente, se calcula IFFT del espectro original y el transformado de Hilbert para obtener dos señales de dominio de tiempo, que están desfasadas 90° una con respecto a otra. Las señales se usan para obtener la señal analítica usada en el análisis de codificador vocal. Pueden detectarse picos falsos y posteriormente se modelarán como ruido o se excluirán del modelo.
Nuevamente, no se tienen en cuenta criterios perceptivos, tales como un ancho de banda variable del oído humano sobre el espectro, es decir, tal como un ancho de banda pequeño en la parte inferior del espectro y un ancho de banda más alto en la parte superior del espectro. Además, una característica significativa del oído humano es que, tal como se comentó en relación con las figuras 9a, 9b y 9c, el oído humano combina tonos sinusoidales dentro de un ancho de banda correspondiente al ancho de banda crítico del oído humano de modo que un ser humano no escucha dos tonos estables que tienen una diferencia de frecuencia pequeña pero percibe un tono que tiene una amplitud variable, en donde la frecuencia de este tono se coloca entre las frecuencias de los tonos originales. Este efecto aumenta cada vez más cuando aumenta el ancho de banda crítico del oído humano.
Además, la colocación de las bandas críticas en el espectro no es constante, sino que depende de la señal. La psicoacústica ha descubierto que el oído humano selecciona dinámicamente las frecuencias centrales de las bandas críticas según el espectro. Cuando, por ejemplo, el oído humano percibe un tono fuerte, entonces una banda crítica se centra en torno a este tono fuerte. Cuando, más tarde, se percibe un tono fuerte a una frecuencia diferente, entonces el oído humano coloca una banda crítica alrededor de esta frecuencia diferente de modo que la percepción humana no solo se adapta a la señal a lo largo del tiempo, sino que también presenta filtros que tienen una resolución espectral alta en la parte de baja frecuencia y que tienen una baja resolución espectral, es decir, un ancho de banda alto en la parte superior del espectro.
La publicación “Speech Analysis and Synthesis using an AM-FM Modulation Model”, A. Botamianos, P. Maragos, Speech Communication 28 (1999), páginas 195-209, da a conocer la aplicación de un modelo de modulación de AM-FM al análisis, síntesis y codificación del habla. Se aplica un análisis de demodulación de múltiples bandas al problema de la estimación de frecuencia fundamental usando la frecuencia instantánea promedio como estimaciones de armónicos de altura. Se muestra que el algoritmo de dirección de altura de MDA produce contornos de frecuencia fundamentales fluidos y precisos. Se usa un banco de filtros que varía en el tiempo para extraer las bandas de formantes y entonces se usa un algoritmo de separación de energía para demodular las señales resonantes para dar las envolturas de amplitud y las señales de frecuencia instantáneas. Las bandas de formantes se reconstruyen a partir de las señales de amplitud y de fase y la señal de voz sintética es la suma de las bandas de formantes reconstruidas.
El documento WO 20/091363 A1 da a conocer un procedimiento de codificación de audio, en donde las bandas de frecuencia seleccionadas que son audibles, pero que son menos relevantes de manera perceptiva no se codifican, sino que se reemplazan por un parámetro de archivo de ruido. Esas bandas de señal que tienen un contenido que es más relevante de manera perceptiva están, por el contrario, totalmente codificadas.
La publicación “Multiband Amplitude Modulated Sinusoidal Audio Modeling” M. Christensen, et al, ICASSP, 2004, IV169-IV172 da a conocer la importancia de tener en cuenta fenómenos temporales dependientes de frecuencia en la codificación de audio. Esto se realiza mediante el modelado sinusoidal de señales de audio mediante la aplicación de modulación de amplitud a los componentes sinusoidales.
El objeto de la presente invención es proporcionar un concepto mejorado para procesar una representación parametrizada por síntesis.
Este objeto se logra mediante un aparato para sintetizar una señal de salida de audio a partir de una representación parametrizada según la reivindicación 1, un método para sintetizar una señal de salida de audio a partir de una representación parametrizada según la reivindicación 6, o un programa informático según la reivindicación 7.
La presente invención se basa en el hallazgo de que el ancho de banda variable de las bandas críticas puede utilizarse ventajosamente para diferentes fines. Un fin es mejorar la eficacia utilizando la baja resolución del oído humano. En este contexto, la presente invención busca no calcular los datos cuando los datos no son necesarios con el fin de mejorar la eficacia.
La segunda ventaja, sin embargo, es que, en la región en donde se requiere una alta resolución, se calculan los datos necesarios con el fin de mejorar la calidad de una señal parametrizada y, de nuevo, resintetizada.
La principal ventaja, sin embargo, está en el hecho de que este tipo de descomposición de la señal proporciona un control para la manipulación de señal de manera directa, intuitiva y adaptada de manera perceptiva, por ejemplo, para abordar directamente propiedades como la rugosidad, la altura, etc.
Con este fin, se realiza un análisis adaptativo a señal de la señal de audio y, basándose en los resultados del análisis, se estiman una pluralidad de filtros de paso de banda de manera adaptativa a la señal. Específicamente, los anchos de banda de los filtros de paso de banda no son constantes, sino que dependen de la frecuencia central del filtro de paso de banda. Por tanto, la presente invención permite frecuencias de filtro de paso de banda variables y, adicionalmente, anchos de banda de filtro de paso de banda variables, de modo que, para cada señal de paso de banda correcta de manera perceptiva, se obtienen una modulación de amplitud y una modulación de frecuencia junto con una frecuencia central actual, que es aproximadamente la frecuencia central de paso de banda calculada. Preferiblemente, el valor de frecuencia de la frecuencia central en una banda representa el centro de gravedad (COG) de la energía dentro de esta banda con el fin de modelar el oído humano en la medida de lo posible. Por tanto, un valor de frecuencia de una frecuencia central de un filtro de paso de banda no se selecciona necesariamente para que esté en un tono específico en la banda, sino que la frecuencia central de un filtro de paso de banda puede encontrarse fácilmente en un valor de frecuencia, en donde no existía un pico en el espectro de FFT.
La información de modulación de frecuencia se obtiene mezclando de manera descendente la señal de paso de banda con la frecuencia central determinada. Por tanto, aunque la frecuencia central se ha determinado con una resolución de tiempo baja debido a la determinación basada en FFT (basada en el espectro), la información de tiempo instantánea se guarda en la modulación de frecuencia. Sin embargo, la separación de la variación a largo plazo en la frecuencia portadora y la variación a corto plazo en la información de modulación de frecuencia junto con la modulación de amplitud permite la representación parametrizada similar a codificador vocal en un sentido correcto de manera perceptiva.
Por tanto, la presente invención es ventajosa porque se cumple la condición de que la información extraída es significativa e interpretable de manera perceptiva en el sentido de que el procesamiento de modulación aplicado sobre la información de modulación debe producir resultados fluidos de manera perceptiva evitando que se introduzcan artefactos no deseados por las limitaciones de la propia representación de modulación.
Otra ventaja de la presente invención es que la información de portadora extraída por sí sola ya permite, grosso modo, una reconstrucción de “boceto”, pero agradable y representativa de manera perceptiva de la señal de audio, y cualquier aplicación sucesiva de información relacionada con AM y FM debe refinar esta representación hacia un detalle y una transparencia completos, lo que significa que el concepto inventivo permite una escalabilidad total desde una capa de baja escala que depende de la reconstrucción del “boceto” usando solo la información de portadora extraída, que ya es agradable de manera perceptiva, hasta una alta calidad usando capas de escalado superiores adicionales que tienen la información relacionada con AM y FM para aumentar la precisión/resolución de tiempo.
Una ventaja de la presente invención es que es muy deseable para el desarrollo de nuevos efectos de audio, por un lado, y como componente básico para futuros algoritmos de compresión de audio eficaces, por otro lado. Aunque, en el pasado, siempre ha habido una distinción entre métodos de codificación paramétrica y codificación de forma de onda, esta distinción puede ser superada por la presente invención en gran medida. Aunque los métodos de codificación de forma de onda escalan fácilmente hasta la transparencia siempre que se disponga de la velocidad de bits necesaria, los esquemas de codificación paramétrica, tales como los esquemas CELP o ACELP, están sujetos a las limitaciones de los modelos de origen subyacentes, e incluso si la velocidad de bits aumenta cada vez más en estos codificadores, no pueden aprovecharse de la transparencia. Sin embargo, los métodos paramétricos suelen ofrecer una amplia gama de posibilidades de manipulación, que pueden aprovecharse para una aplicación de efectos de audio, mientras que la codificación de forma de onda se limita estrictamente a la mejor reproducción posible de la señal original.
La presente invención superará esta brecha al permitir una transición perfecta entre ambos enfoques.
Posteriormente, las realizaciones de la presente invención se comentan en el contexto de los dibujos adjuntos, en los que:
La figura 1 a es una representación esquemática de un aparato o método para convertir una señal de audio, no cubierto por la invención reivindicada;
la figura 1b es una representación esquemática de otra implementación, no cubierta por la invención reivindicada;
la figura 2a es un diagrama de flujo para ilustrar una operación de procesamiento en el contexto de la implementación de la figura 1a, no cubierta por la invención reivindicada;
la figura 2b es un diagrama de flujo para ilustrar el proceso de operación para generar la pluralidad de señales de paso de banda, no cubierto por la invención reivindicada;
la figura 2c ilustra una segmentación espectral adaptativa a la señal basada en el cálculo de COG y las limitaciones de percepción;
la figura 2d ilustra un diagrama de flujo para ilustrar el proceso realizado en el contexto de la implementación de la figura 1b, no cubierto por la invención reivindicada;
la figura 3a ilustra una representación esquemática de un concepto para modificar la representación parametrizada, no cubierto por la invención reivindicada;
la figura 3b ilustra una implementación del concepto ilustrado en la figura 3a, no cubierto por la invención reivindicada; la figura 3c ilustra una representación esquemática para explicar una descomposición de la información de AM para dar información de estructura gruesa y fina;
la figura 3d ilustra un escenario de compresión basándose en la realización de la figura 3c;
la figura 4a ilustra una representación esquemática del concepto de síntesis;
la figura 4b ilustra una realización preferida del concepto de la figura 4a;
la figura 4c ilustra una representación de una superposición, la señal de audio de dominio de tiempo procesada, un flujo de bits de la señal de audio y un procedimiento de superposición/adición para la síntesis de información de modulación;
la figura 4d ilustra un diagrama de flujo de una realización preferida para sintetizar una señal de audio usando una representación parametrizada;
la figura 5 ilustra una estructura de codificador vocal de análisis/síntesis de la técnica anterior;
la figura 6 ilustra la implementación del filtro de la técnica anterior de la figura 5;
la figura 7a ilustra un espectrograma de un elemento musical original;
la figura 7b ilustra un espectrograma de los portadores sintetizados únicamente;
la figura 7c ilustra un espectrograma de los portadores refinados por AM y FM gruesas;
la figura 7d ilustra un espectrograma de los portadores refinados por AM y FM gruesas, y “ruido de gracia” añadido; la figura 7e ilustra un espectrograma de los portadores y AM y FM sin procesar después de la síntesis;
la figura 8 ilustra el resultado de una prueba subjetiva de calidad de audio;
la figura 9a ilustra una densidad espectral de potencia de una señal de 2 tonos, una señal de múltiples tonos y una señal de múltiples tonos limitada en banda de manera apropiada;
la figura 9b ilustra una forma de onda y una envolvente de una señal de dos tonos, una señal de múltiples tonos y una señal de múltiples tonos limitada en banda de manera apropiada; y
la figura 9c ilustra ecuaciones para generar dos señales equivalentes de manera perceptiva, en un sentido de paso de banda.
La figura 1 ilustra un aparato para convertir una señal de audio 100 en una representación parametrizada 180. El aparato comprende un analizador de señales 102 para analizar una parte de la señal de audio para obtener un resultado de análisis 104. El resultado del análisis se introduce en un estimador de paso de banda 106 para estimar la información sobre una pluralidad de filtros de paso de banda para la parte de señal de audio basándose en el resultado del análisis de señal. Por tanto, la información 108 sobre la pluralidad de filtros de paso de banda se calcula de manera adaptativa a la señal.
Específicamente, la información 1C8 sobre la pluralidad de filtros de paso de banda comprende información sobre la forma de un filtro. La forma del filtro puede incluir un ancho de banda de un filtro de paso de banda y/o una frecuencia central del filtro de paso de banda para la parte de la señal de audio, y/o una forma espectral de una función de transferencia de magnitud en una forma paramétrica o una forma no paramétrica. Es importante destacar que el ancho de banda de un filtro de paso de banda no es constante en todo el intervalo de frecuencias, sino que depende de la frecuencia central del filtro de paso de banda. Preferiblemente, la dependencia es de modo que el ancho de banda aumenta a frecuencias centrales más altas y disminuye a frecuencias centrales más bajas. Aún más preferiblemente, el ancho de banda de un filtro de paso de banda se determina en una escala correcta de manera perceptiva, tal como la escala Bark, de modo que el ancho de banda de un filtro de paso de banda siempre depende del ancho de banda realmente realizado por el oído humano para una determinada frecuencia central determinada de manera adaptativa a la señal.
Con este fin, se prefiere que el analizador de señales 102 realice un análisis espectral de una parte de señal de la señal de audio y, en particular, analice la distribución de potencia en el espectro para encontrar regiones que tienen una concentración de potencia, ya que tales regiones también están determinadas por el oído humano al recibir y procesar adicionalmente el sonido.
El aparato comprende adicionalmente un estimador de modulación 110 para estimar una modulación de amplitud 112 o una modulación de frecuencia 114 para cada banda de la pluralidad de filtros de paso de banda para la parte de la señal de audio. Con este fin, el estimador de modulación 110 usa la información sobre la pluralidad de filtros de paso de banda 108 tal como se comentará más adelante.
El aparato de la figura 1a comprende adicionalmente una interfaz de salida 116 para transmitir, almacenar o modificar la información sobre la modulación de amplitud 112, la información de la modulación de frecuencia 114 o la información sobre la pluralidad de filtros de paso de banda 108, que puede comprender información de forma de filtro tal como los valores de las frecuencias centrales de los filtros de paso de banda para esta parte/bloque específicos de la señal de audio u otra información tal como se comentó anteriormente. La salida es una representación parametrizada 180 tal como se ilustra en la figura 1a.
La figura 1 d ilustra el estimador de modulación 110 y el analizador de señal 102 de la figura 1a y el estimador de paso de banda 106 de la figura 1a combinados para dar una única unidad, que se denomina “estimación de frecuencia de portador” en la figura 1 b. El estimador de modulación 110 comprende preferiblemente un filtro de paso de banda 110a, que proporciona una señal de paso de banda. Esta se introduce en un convertidor de señal analítica 110b. La salida del bloque 110b es útil para calcular la información de AM y la información de FM. Para calcular la información de AM, la magnitud de la señal analítica se calcula mediante el bloque 110c. La salida del bloque de señal analítica 110b se introduce en un multiplicador 110d, que recibe, en su otra entrada, una señal de oscilador de un oscilador 110e, que está controlado por la frecuencia portadora real fc del paso de banda 110a. Entonces, la fase de la salida del multiplicador se determina en el bloque 110f. La fase instantánea se diferencia en el bloque 110g con el fin de obtener finalmente la información de FM.
Por tanto, la descomposición para dar señales portadoras y sus componentes de modulación asociadas se ilustra en la figura 1b.
En la imagen se muestra el flujo de señal para la extracción de una componente. Todas las demás componentes se obtienen de manera similar. La extracción se lleva a cabo preferiblemente bloque por bloque usando un tamaño de bloque de N = 214 a una frecuencia de muestreo de 48 kHz y superposición de %, que corresponde aproximadamente a un intervalo de tiempo de 340 ms y un ritmo de 85 ms. Obsérvese que también pueden usarse otros tamaños de bloques o factores de superposición. Consiste en un filtro de paso de banda adaptativo de señal que se centra en un COG local [12] en el espectro de DFT de la señal. Los candidatos de COG local se estiman mediante la búsqueda de transiciones positivas a negativas en la función CogPos definida en (3). Un procedimiento posterior a la selección garantiza que las posiciones finales estimadas de COG sean aproximadamente equidistantes en una escala perceptiva.
nom ( ik,, m
C o g P o s ( k ,m ) - - .........T ...
denom{k,m)
Figure imgf000008_0001
Para cada índice de coeficiente espectral k produce el desvío relativo hacia el centro de gravedad local en la región espectral que está cubierta por una ventana deslizante fluida w. El ancho B(k) de la ventana sigue una escala de percepción, por ejemplo, la escala Bark. X(k,m) es el coeficiente espectral k en el bloque de tiempo m. Además, se realiza un suavizado temporal recursivo de primer orden con la constante de tiempo t.
Pueden concebirse funciones de cálculo del valor del centro de gravedad alternativas, que pueden ser iterativas o no iterativas. Una función no iterativa, por ejemplo, incluye valores de energía de adición para diferentes partes de una banda y mediante la comparación de los resultados de la operación de adición para las diferentes partes.
El COG local corresponde a la frecuencia ‘media’ que se percibe por un oyente humano debido a la contribución espectral en esa región de frecuencia. Para ver esta relación, obsérvese la equivalencia del COG y la ‘frecuencia instantánea promedio ponderada por intensidad’ (IWAIF) tal como se deriva en [12]. La ventana de estimación de COG y el ancho de banda de transición del filtro resultante se eligen con respecto a la resolución del oído humano (‘bandas críticas’). En este caso, un ancho de banda de aproximadamente 0,5 Bark se encontró empíricamente que era un buen valor para todo tipo de elementos de prueba (habla, música, ambiente). Adicionalmente, esta opción está respaldada por la literatura [13].
Posteriormente, la señal analítica se obtiene usando la transformada de Hilbert de la señal filtrada de paso de banda y se heterodina por la frecuencia de COG estimada. Finalmente, la señal se descompone adicionalmente en su envolvente de amplitud y su pista de frecuencia instantánea (IF), lo que produce las señales de AM y FM deseadas. Obsérvese que el uso de señales de paso de banda centradas en las posiciones de COG locales corresponde al paradigma de las ‘regiones de influencia’ de un codificador vocal de fase tradicional. Ambos métodos conservan la envolvente temporal de una señal de paso de banda: El primero intrínsecamente y el segundo garantizando la coherencia de fase espectral local.
Debe tenerse cuidado de que el conjunto resultante de filtros, por un lado, cubra el espectro sin problemas y, por otro lado, que los filtros adyacentes no se superpongan demasiado, ya que esto dará como resultado efectos de golpes no deseados después de la síntesis de las componentes (modificadas). Esto implica algunos compromisos con respecto al ancho de banda de los filtros que siguen una escala de percepción, pero, al mismo tiempo, tienen que proporcionar una cobertura espectral perfecta. De modo que la estimación de frecuencia portadora y el diseño de filtro adaptativo de señal resultan ser las partes cruciales para la importancia perceptiva de los componentes de descomposición y, por tanto, tienen una gran influencia sobre la calidad de la señal resintetizada. Un ejemplo de una segmentación compensativa de este tipo se muestra en la figura 2c.
La figura 2a ilustra un proceso preferido para convertir una señal de audio en una representación parametrizada, tal como se ilustra en la figura 2b. En una primera etapa 120, se forman bloques de muestras de audio. Para ello, se usa preferiblemente una función de ventana. Sin embargo, el uso de una función de ventana no es necesario en ningún caso. Entonces, en la etapa 121, se realiza la conversión espectral para dar un espectro de resolución de alta frecuencia 121. Entonces, en la etapa 122, la función de centro de gravedad se calcula preferiblemente usando la ecuación (3). Este cálculo se realizará en el analizador de señales 102 y los cruces por cero posteriormente determinados serán el resultado del análisis 104 proporcionado por el analizador de señales 102 de la figura 1a al estimador de paso de banda 106 de la figura 1a.
Tal como resulta visible a partir de la ecuación (3), la función de centro de gravedad se calcula basándose en diferentes anchos de banda. Específicamente, el ancho de banda B(k), que se usa en el cálculo del nominador nom(k,m) y el denominador (k,m) en la ecuación (3) depende de la frecuencia. El índice de frecuencia k, por tanto, determina el valor de B y, aún más preferiblemente, el valor de B aumenta para un índice de frecuencia creciente k. Por tanto, tal como resulta evidente en la ecuación (3) para nom(k, m), una “ventana” que tiene el ancho de ventana B en el dominio espectral se centra alrededor de un determinado valor de frecuencia k, en donde i va desde -B(k)/2 hasta B(k)/2.
Este índice i, que se multiplica por una ventana w(i) en el término nom, asegura que el valor de potencia espectral X2 (en donde X es una amplitud espectral) a la izquierda del valor de frecuencia real k entra en la operación de suma con un signo negativo, mientras que los valores espectrales al cuadrado a la derecha del índice de frecuencia k entran en la operación de suma con el signo positivo. Naturalmente, esta función podría ser diferente, de modo que, por ejemplo, la mitad superior entre con un signo negativo y la mitad inferior entre con un signo positivo. La función B(k) garantiza que se lleve a cabo un cálculo correcto de manera perceptiva de un centro de gravedad y esta función se determina preferiblemente, por ejemplo, tal como se ilustra en la figura 2c, en donde se ilustra una segmentación espectral correcta de manera perceptiva.
En una implementación alternativa, los valores espectrales X(k) se transforman para dar un dominio logarítmico antes de calcular la función de centro de gravedad. Entonces, el valor B en el término para el nominador y el denominador en la ecuación (3) es independiente de la frecuencia (escala logarítmica). En este caso, la dependencia correcta de manera perceptiva ya está incluida en los valores espectrales X, que están presentes en la escala logarítmica. Naturalmente, un ancho de banda igual en una escala logarítmica corresponde a un ancho de banda creciente con respecto a la frecuencia central en una escala no logarítmica.
Tan pronto como se calculan los cruces por cero y, específicamente, las transiciones de positivo a negativo en la etapa 122, se realiza el procedimiento posterior a la selección en la etapa 124. En este caso, los valores de frecuencia en los cruces por cero se modifican basándose en criterios de percepción. Esta modificación sigue diversas restricciones, que son que preferiblemente todo el espectro debe cubrirse y que preferiblemente no se permiten orificios espectrales. Además, las frecuencias centrales de los filtros de paso de banda se colocan en los cruces por cero de la función de centro de gravedad en la medida de lo posible y, preferiblemente, se favorece la colocación de las frecuencias centrales en la parte inferior del espectro con respecto a la colocación en la parte superior del espectro. Esto significa que la segmentación espectral adaptativa de la señal intenta seguir más estrechamente los resultados del centro de gravedad de la etapa 122 en la parte inferior del espectro y cuando, basándose en esta determinación, el centro de gravedad en la parte superior del espectro no coincide con las frecuencias centrales de paso de banda, se acepta este desvío.
Tan pronto como se determinan los valores de frecuencia central y los anchos correspondientes de los filtros de paso de banda, el bloque de señal de audio se filtra 126 teniendo el banco de filtros de paso de banda con anchos de banda variables para los valores de frecuencia modificados obtenidos por la etapa 124. Por tanto, con respecto al ejemplo en la figura 2c, se aplica un banco de filtros tal como se ilustra en la segmentación espectral adaptativa de señal calculando los coeficientes de filtro y estableciendo estos coeficientes de filtro, y el banco de filtros se usa posteriormente para filtrar la parte de la señal de audio que se ha usado para calcular estas segmentaciones espectrales.
Este filtrado se realiza preferiblemente con un banco de filtros o una transformada de frecuencia de tiempo tal como DFT con ventana, ponderación espectral e IDFT posterior, donde se ilustra un único filtro de paso de banda en 110a y los filtros de paso de banda para las otras componentes 101 forman el banco de filtros junto con el filtro de paso de banda 110a. Basándose en las señales de subbanda la información de AM y la información de FM, es decir, 112, 114 se calculan en la etapa 128 y se emiten junto con la frecuencia portadora para cada paso de banda como la representación parametrizada del bloque de valores de muestreo de audio.
Entonces, se completa el cálculo de un bloque y en la etapa 130, se aplica un valor de ritmo o avance en el dominio del tiempo de manera superpuesta con el fin de obtener el siguiente bloque de muestras de audio tal como se indica en 120 en la figura 2a.
Este procedimiento se ilustra en la figura 4c. La señal de audio de dominio de tiempo se ilustra en la parte superior en donde se ilustran siete partes a modo de ejemplo, comprendiendo cada parte preferiblemente el mismo número de muestras de audio. Cada bloque consiste en N muestras. El primer bloque 1 consiste en las cuatro primeras partes adyacentes 1, 2, 3 y 4. El siguiente bloque 2 consiste en las partes de señal 2, 3, 4, 5, el tercer bloque, es decir, el bloque 3 comprende las partes de señal 3, 4, 5, 6 y el cuarto bloque, es decir, el bloque 4 comprende las partes de señal posteriores 4, 5, 6 y 7 tal como se ilustra. En el flujo de bits, la etapa 128 de la figura 2a genera una representación parametrizada para cada bloque, es decir, para el bloque 1, el bloque 2, el bloque 3, el bloque 4 o una parte seleccionada del bloque, preferiblemente la parte intermedia N/2, ya que las partes exteriores pueden contener anillos de filtro o la característica de deslizamiento de una ventana de transformada que está diseñada en consecuencia. Preferiblemente, la representación parametrizada para cada bloque se transmite en un flujo de bits de manera secuencial. En el ejemplo ilustrado en la gráfica superior de la figura 4c, se forma una operación de superposición de 4 pliegos. Alternativamente, también puede realizarse una superposición de dos pliegos de modo que el valor de ritmo o el valor de avance aplicado en la etapa 130 tenga dos partes en la figura 4c en lugar de una parte. Básicamente, una operación de superposición no es necesaria en absoluto, pero se prefiere con el fin de evitar artefactos de bloqueo y con el fin de permitir ventajosamente una operación de fundido conjunto de un bloque a otro, que, según una realización preferida de la presente invención, no se realiza en el dominio del tiempo pero que se realiza en el dominio de AM/FM tal como se ilustra en la figura 4c, y tal como se describe más adelante con respecto a las figuras 4a y 4b.
La figura 2b ilustra una implementación general del procedimiento específico en la figura 2a con respecto a la ecuación (3). Este procedimiento en la figura 2b se realiza en parte en el analizador de señales y en el estimador de paso de banda. En la etapa 132, se analiza una parte de la señal de audio con respecto a la distribución espectral de potencia. La etapa 132 puede implicar una transformada de tiempo/frecuencia. En una etapa 134, los valores de frecuencia estimados para las concentraciones de potencia local en el espectro se adaptan para obtener una segmentación espectral correcta de manera perceptiva, tal como la segmentación espectral en la figura 2c, que tiene anchos de banda motivados de manera perceptiva de los diferentes filtros de paso de banda y que no tiene ningún orificio en el espectro. En la etapa 135, la parte de la señal de audio se filtra con la segmentación espectral determinada usando el banco de filtros o un método de transformada, en donde se proporciona un ejemplo para una implementación de banco de filtros en la figura 1b para un canal que tiene un paso de banda 110a y filtros de paso de banda correspondientes para las otras componentes 101 en la figura 1b. El resultado de la etapa 135 es una pluralidad de señales de paso de banda para las bandas que tienen un ancho de banda creciente a frecuencias más altas. Entonces, en la etapa 136, cada señal de paso de banda se procesa por separado usando los elementos 110a a 110g. Sin embargo, alternativamente, todos los demás métodos para extraer una modulación A y una modulación F pueden realizarse para parametrizar cada señal de paso de banda.
Posteriormente, se comentará la figura 2d, en la que se ilustra una secuencia preferida de etapas para procesar por separado cada señal de paso de banda. En una etapa 138, se establece un filtro de paso de banda usando el valor de frecuencia central calculado y usando un ancho de banda determinado por la segmentación espectral tal como se obtiene en la etapa 134 de la figura 2b. Esta etapa usa información de filtro de paso de banda y también puede usarse para emitir información del filtro de paso de banda a la interfaz de salida 116 en la figura 1a. En la etapa 139, la señal de audio se filtra usando el filtro de paso de banda establecido en la etapa 138. En la etapa 140, se forma una señal analítica de la señal de paso de banda. En este caso, puede aplicarse la verdadera transformada de Hilbert o un algoritmo de transformada de Hilbert aproximado. Esto se ilustra por el elemento 110b de la figura 1b. Entonces, en la etapa 141, se realiza la implementación del recuadro 110c de la figura 1b, es decir, se determina la magnitud de la señal analítica con el fin de proporcionar la información de AM. Básicamente, la información de AM se obtiene en la misma resolución que la resolución de la señal de paso de banda en la salida del bloque 110a. Con el fin de comprimir esta gran cantidad de información de AM, puede realizarse cualquier técnica de diezmación o parametrización, que se comentará más adelante.
Con el fin de obtener información de fase o frecuencia, la etapa 142 comprende una multiplicación de la señal analítica por una señal de oscilador que tiene la frecuencia central del filtro de paso de banda. En el caso de una multiplicación, se prefiere una operación de filtrado de paso bajo posterior para rechazar la parte de alta frecuencia generada por la multiplicación en la etapa 142. Cuando la señal de oscilador es compleja, entonces no se requiere el filtrado. La etapa 142 da como resultado una señal analítica mezclada de manera descendente, que se procesa en la etapa 143 para extraer la información de fase instantánea tal como se indica en el recuadro 110f de la figura 1 b. Esta información de fase puede emitirse como información paramétrica además de la información de AM, pero se prefiere diferenciar esta información de fase en el recuadro 144 para obtener una información de modulación de frecuencia verdadera tal como se ilustra en la figura 1b en 114. De nuevo, la información de fase puede usarse para describir las fluctuaciones relacionadas con frecuencia/fase. Cuando la información de fase como información de parametrización es suficiente, entonces la diferenciación en el bloque 110g no es necesaria.
La figura 3a ilustra un aparato para modificar una representación parametrizada de una señal de audio que tiene, para una parte de tiempo, información de filtro de paso de banda de una pluralidad de filtros de paso de banda, tal como el bloque 1 en la gráfica en el medio de la figura 4c. La información de filtro de paso de banda indica las frecuencias centrales de filtro de paso de banda variables en tiempo (frecuencias portadoras) de los filtros de paso de banda que tienen anchos de banda que dependen de los filtros de paso de banda y las frecuencias de los filtros de paso de banda, y que tienen información de modulación de amplitud o de modulación de fase o de modulación de frecuencia para cada filtro de paso de banda para la parte de tiempo respectiva. El aparato para modificar comprende un modificador de información 160 que puede funcionar para modificar las frecuencias centrales variables en el tiempo o para modificar la información de modulación de amplitud o la información de modulación de frecuencia o la información de modulación de fase y que emite una representación parametrizada modificada que tiene frecuencias portadoras para una parte de señal de audio, información de AM modificada, información de PM modificada o información de FM modificada.
La figura 3b ilustra el modificador de información 160 en la figura 3a. Preferiblemente, la información de AM se introduce en una etapa de descomposición para descomponer la información de AM para dar una estructura de escala gruesa/fina. Esta descomposición es, preferiblemente, una descomposición no lineal tal como la descomposición tal como se ilustra en la figura 3c. Con el fin de comprimir los datos transmitidos para la información de AM, solo la estructura gruesa se transmite, por ejemplo, a un sintetizador. Una parte de este sintetizador puede ser el elemento de adición 160e y la fuente de ruido de paso de banda 160f. Sin embargo, estos elementos también pueden formar parte del modificador de información.
Preferiblemente, existe una trayectoria de transmisión entre el bloque 160a y 160e, y en este canal de transmisión, solo se transmite una representación parametrizada de la estructura gruesa y, por ejemplo, un valor de energía que representa o se deriva de la estructura fina se transmite a través de la línea 161 desde un analizador a un sintetizador. Entonces, en el lado de sintetizador, se escala una fuente de ruido 160f con el fin de proporcionar una señal de ruido de paso de banda para una señal de paso de banda específica, y la señal de ruido tiene una energía tal como se indica a través de un parámetro tal como el valor de energía en la línea 161. Entonces, en el lado de decodificador/sintetizador, el ruido se conforma temporalmente por la estructura gruesa, ponderado por su energía objetivo y añadido a la estructura gruesa transmitida con el fin de sintetizar una señal que solo requería una tasa de bits baja para la transmisión debido a la síntesis artificial de la estructura fina. En general, el elemento de adición de ruido 160f es para la adición de una señal de ruido (pseudoaleatoria) que tiene un determinado valor de energía global y una distribución de energía temporal predeterminada. Se controla a través de la información lateral transmitida o se establece de manera fija, por ejemplo, basándose en una cifra empírica, tales como valores fijos determinados para cada banda. Alternativamente, se controla mediante un análisis local en el modificador o el sintetizador, en el que se analiza la señal disponible y se derivan los valores de control del elemento de adición de ruido. Estos valores de control son, preferiblemente, valores relacionados con la energía.
El modificador de información 160 puede comprender, adicionalmente, una funcionalidad de ajuste polinómico de restricción 160b y/o un elemento de transporte 160d para las frecuencias portadoras, que también transporta la información de FM a través del multiplicador 160c. Alternativamente, también puede ser útil modificar solo las frecuencias portadoras y no modificar la información de FM o la información de AM o solo modificar la información de FM, pero no modificar la información de AM o la información de frecuencia portadora.
Al tener los componentes de modulación a mano, se vuelven factibles métodos de procesamiento nuevos e interesantes. Una gran ventaja de la descomposición de modulación presentada en el presente documento es que el método de análisis/síntesis propuesto garantiza implícitamente que el resultado de cualquier procesamiento de modulación, independiente en gran medida de la naturaleza exacta del procesamiento, será fluido de manera perceptiva (libre de clics, repeticiones transitorias, etc.). Algunos ejemplos de procesamiento de modulación se incluyen en la figura 3b.
Sin duda, una aplicación destacada es el ‘transporte’ de una señal de audio al tiempo que se mantiene la velocidad de reproducción original: Esto se logra fácilmente mediante la multiplicación de todas las componentes portadoras con un factor constante. Dado que la estructura temporal de la señal de entrada solo se capta por las señales de AM, no se ve afectada por el estiramiento de la separación espectral del portador.
Si solo un subconjunto de portadores correspondientes a determinados intervalos de frecuencia predefinidos se mapea para valores nuevos adecuados, el modo clave de una pieza musical puede cambiar de, por ejemplo, menor a mayor o viceversa. Para lograr esto, las frecuencias portadoras se cuantifican en números MIDI que posteriormente se mapean sobre nuevos números MIDI apropiados (usando el conocimiento a priori del modo y la clave del elemento musical que va a procesarse). Por último, los números MIDI mapeados vuelven a convertirse con el fin de obtener las frecuencias portadoras modificadas que se usan para la síntesis. De nuevo, no se requiere una detección de activación/desvío de notas MIDI dedicada, ya que las características temporales están representadas predominantemente por la AM no modificada y, por tanto, se conservan.
Un procesamiento más avanzado pretende conseguir la modificación de las propiedades de modulación de una señal: Por ejemplo, puede ser deseable modificar la ‘rugosidad’ de una señal [14] [15] mediante el filtrado de modulación. En la señal de AM existe una estructura gruesa relacionada con el inicio y el desvío de eventos musicales, etc. y una estructura fina relacionada con frecuencias de modulación más rápidas (-30-300 Hz). Dado que esta estructura fina representa las propiedades de rugosidad de una señal de audio (para portadores de hasta 2 kHz) [15] [16], la rugosidad auditiva puede modificarse eliminando la estructura fina y manteniendo la estructura gruesa.
Para descomponer la envolvente para dar una estructura gruesa y fina, pueden utilizarse métodos no lineales. Por ejemplo, para captar la AM gruesa puede aplicarse un ajuste por tramos de un polinomio (de bajo orden). La estructura fina (residual) se obtiene como la diferencia de la envolvente original y la gruesa. La pérdida de estructura fina de AM puede compensarse perceptualmente, si se desea, mediante la adición de un ruido de ‘gracia’ limitado por banda escalado por la energía del residuo y conformado temporalmente por la envolvente de AM gruesa.
Obsérvese que, si se aplica cualquier modificación a la señal de AM, es recomendable restringir la señal de FM para que solo varíe lentamente, ya que la FM no procesada puede contener picos repentinos debido a efectos de golpes dentro de una región de paso de banda [17] [18]. Estos picos aparecen en las proximidades de cero [19] de la señal de AM y son insignificantes de manera perceptiva. Un ejemplo de tal pico en IF puede observarse en la señal según la fórmula (1) en la figura 9 en forma de un salto de fase de pi en ubicaciones cero de la envolvente de Hilbert. Los picos no deseados pueden eliminarse, por ejemplo, mediante un ajuste polinómico restringido en la FM, en donde la señal de AM original actúa como pesos para la buena capacidad deseada del ajuste. Por tanto, los picos en la FM pueden eliminarse sin introducir un sesgo no deseado.
Otra aplicación sería eliminar la FM de la señal. En este caso, podría simplemente establecerse la FM a cero. Dado que las señales portadoras se centran en los COG locales, representan la frecuencia media local correcta de manera perceptiva.
La figura 3c ilustra un ejemplo para extraer una estructura gruesa de una señal de paso de banda. La figura 3c ilustra una estructura gruesa típica para un tono producido por un determinado instrumento en la gráfica superior. Al principio, el instrumento está en silencio, entonces, en un instante de tiempo de ataque, puede observarse un fuerte aumento de la amplitud, que luego se mantiene constante en el llamado periodo sostenido. Entonces, se libera el tono. Esto se caracteriza por una especie de declive exponencial que comienza al final del periodo sostenido. Este es el comienzo del periodo de liberación, es decir, un instante de tiempo de liberación. El periodo sostenido no está necesariamente presente en los instrumentos. Cuando, por ejemplo, se tiene en consideración una guitarra, resulta evidente que el tono se genera al excitar una cuerda y después del ataque en el instante de tiempo de excitación, sigue inmediatamente una parte de liberación, que es bastante larga, que se caracteriza por el hecho de que la oscilación de la cuerda se amortigua hasta que la cuerda alcanza un estado estacionario, que es, entonces, el final del tiempo de liberación. Para instrumentos habituales, existen formas típicas o estructuras gruesas para tales tonos. Con el fin de extraer tales estructuras gruesas de una señal de paso de banda, se prefiere realizar un ajuste polinómico en la señal de paso de banda, en donde el ajuste polinómico tiene una forma general similar a la forma en la gráfica superior de la figura 3c, que puede hacerse coincidir determinando los coeficientes polinómicos. Tan pronto como se obtiene el mejor ajuste polinómico, la señal se determina mediante la alimentación polinómica, que es la estructura gruesa de la señal de paso de banda restada de la señal de paso de banda real de modo que se obtiene la estructura fina que, cuando el ajuste polinómico era lo suficientemente bueno, es una señal bastante ruidosa que tiene una determinada energía que puede transmitirse desde el lado de analizador hasta el lado de sintetizador, además de la información de estructura gruesa que serían los coeficientes polinómicos. La descomposición de una señal de paso de banda en su estructura gruesa y su estructura fina es un ejemplo de una descomposición no lineal. También pueden realizarse otras composiciones no lineales con el fin de extraer otras características de la señal de paso de banda y con el fin de reducir en gran medida la tasa de datos para transmitir información de AM en una aplicación de baja tasa de bits.
La figura 3d ilustra las etapas en un procedimiento de este tipo. En una etapa 165, la estructura gruesa se extrae tal como mediante ajuste polinómico y calculando los parámetros polinómicos que son, entonces, la información de modulación de amplitud que va a transmitirse de un analizador a un sintetizador. Con el fin de realizar esta transmisión de manera más eficaz, se realiza una operación de cuantificación y codificación 166 adicional de los parámetros para la transmisión. La cuantificación puede ser uniforme o no uniforme, y la operación de codificación puede ser cualquiera de las operaciones de codificación de entropía que se conocen bien, tal como la codificación de Huffman, con o sin tablas o la codificación aritmética, tal como una codificación aritmética basada en contexto, tal como se conoce a partir de la compresión de video.
Entonces, se forma una información de AM de baja tasa de bits o información de FM/PM que puede transmitirse a través de un canal de transmisión de una manera muy eficaz. En el lado de sintetizador, se realiza una etapa 168 para decodificar y descuantificar los parámetros transmitidos. Entonces, en una etapa 169, la estructura gruesa se reconstruye, por ejemplo, calculando realmente todos los valores definidos por un polinomio que tiene los coeficientes polinómicos transmitidos. Además, podría ser útil la adición de ruido de gracia por banda preferiblemente basándose en parámetros de energía transmitida y moldeado temporalmente por la información de AM gruesa o, alternativamente, en una aplicación de tasa de ultra bits, mediante la adición de ruido (de gracia) que tiene una energía seleccionada empíricamente.
Alternativamente, una modificación de señal puede incluir, tal como se comentó anteriormente, un mapeo de las frecuencias centrales a números MIDI o, en general, a una escala musical y para entonces transformar la escala con el fin de, por ejemplo, transformar una pieza musical que está en una escala mayor a una escala menor o viceversa. En este caso, lo más importante, se modifican las frecuencias portadoras. Preferiblemente, la información de AM o la información de PM/FM no se modifica en este caso.
Alternativamente, pueden realizarse otros tipos de modificaciones de frecuencia portadora, tal como el transporte de todas las frecuencias portadoras usando el mismo factor de transporte que puede ser un número entero mayor que 1 o que puede ser un número fraccionario entre 1 y 0. En el último caso, la altura de los tonos será menor después de la modificación, y en el primer caso, la altura de los tonos será mayor después de la modificación que antes de la modificación.
La figura 4a ilustra un aparato para sintetizar una representación parametrizada de una señal de audio, comprendiendo la representación parametrizada información de paso de banda tal como frecuencias portadoras o frecuencias centrales de paso de banda para los filtros de paso de banda. Las componentes adicionales de la representación parametrizada son información sobre una modulación de amplitud, información sobre una modulación de frecuencia o información sobre una modulación de fase de una señal de paso de banda.
Con el fin de sintetizar una señal, el aparato para sintetizar comprende una interfaz de entrada 200 que recibe una representación parametrizada no modificada o modificada que incluye información para todos los filtros de paso de banda. A modo de ejemplo, la figura 4a ilustra los módulos de síntesis para una única señal de filtro de paso de banda. Con el fin de sintetizar información de AM, se proporciona un sintetizador de AM 201 para sintetizar una componente de AM basándose en la modulación de AM. Además, también se proporciona un sintetizador de FM/PM para sintetizar una información de frecuencia o fase instantánea basándose en la información sobre las frecuencias portadoras y la información de modulación de PM o de FM transmitida. Ambos elementos 201, 202 están conectados a un módulo oscilador para generar una señal de salida, que es la señal de oscilación modulada de AM/FM/PM 204 para cada canal de banco de filtros. Además, se proporciona un combinador 205 para combinar señales de los canales de filtro de paso de banda, tales como las señales 204 de los osciladores para otros canales de filtro de paso de banda y para generar una señal de salida de audio que se basa en las señales de los canales de filtro de paso de banda. Simplemente mediante la adición de las señales de paso de banda de una manera de muestra en una realización preferida, se genera la señal de audio sintetizada 206. Sin embargo, también pueden usarse otros métodos de combinación.
La figura 4b ilustra una realización preferida del sintetizador de la figura 4a. Una implementación ventajosa se basa en una operación de superposición y adición (OLA) en el dominio de modulación, es decir, en el dominio antes de generar la señal de paso de banda de dominio de tiempo. Tal como se ilustra en la gráfica intermedia de la figura 4c, la señal de entrada que puede ser un flujo de bits, pero que también puede ser una conexión directa a un analizador o un modificador, está separada en la información de AM 207a, la información de FM 207b y la información de frecuencia portadora 207c. El sintetizador de AM 201 comprende, preferiblemente, un elemento de adición/superposición 201a y, adicionalmente, un controlador de unión de componentes 201b que, preferiblemente no solo comprende el bloque 201a sino también el bloque 202a, que es un elemento de adición/superposición dentro del sintetizador de FM 202. El sintetizador de FM 202 comprende adicionalmente un elemento de adición/superposición de frecuencia 202a, un integrador de fase 202b, un combinador de fase 202c que, nuevamente, puede implementarse como un elemento de adición habitual y un elemento de cambio de fase 202d que es controlable por el controlador de unión de componentes 201b con el fin de regenerar una fase constante de bloque a bloque de modo que la fase de una señal de un bloque anterior sea continua con la fase de un bloque real. Por tanto, puede decirse que la adición de fase en los elementos 202d, 202c corresponde a una regeneración de una constante que se perdió durante la diferenciación en el bloque 110g en la figura 1b del lado de analizador. Desde una perspectiva de pérdida de información en el dominio perceptivo, cabe señalar que esta es la única pérdida de información, es decir, la pérdida de una parte constante por el dispositivo de diferenciación 110g en la figura 1b. Esta pérdida se recrea mediante la adición de una fase constante determinada por el dispositivo de unión de componentes 201b en la figura 4b.
La señal se sintetiza de manera aditiva de todos los componentes. Para una componente, la cadena de procesamiento se muestra en la figura 4b. Al igual que el análisis, la síntesis se realiza de manera bloque por bloque. Dado que solo se usa la parte N/2 centrada de cada bloque de análisis para la síntesis, se obtiene un factor de superposición de 1. Se utiliza un mecanismo de unión de componentes para mezclar AM y FM y alinear la fase absoluta para los componentes en las proximidades espectrales de sus predecesores en un bloque anterior. Las proximidades espectrales también se calculan basándose en una escala de Bark para reflejar nuevamente la sensibilidad del oído humano con respecto a la percepción de altura.
En detalle, en primer lugar, la señal de FM se añade a la frecuencia portadora y el resultado se transmite a la etapa de superposición/adición (OLA). Entonces se integra para obtener la fase de la componente que va a sintetizarse. La señal de fase resultante alimenta un oscilador sinusoidal. La señal de AM se procesa del mismo modo por otra etapa OLA. Finalmente, la salida del oscilador se modula en cuanto a amplitud por la señal de AM resultante para obtener la contribución aditiva de las componentes a la señal de salida.
La figura 4c, bloque inferior, muestra una implementación preferida de la operación de adición/superposición en el caso de una superposición del 50%. En esta implementación, la primera parte de la información realmente utilizada del bloque actual se añade a la parte correspondiente que es la segunda parte de un bloque anterior. Además, la figura 4c, bloque inferior, ilustra una operación de fundido conjunto en donde la parte del bloque que se funde recibe pesos decrecientes de 1 a 0 y, al mismo tiempo, el bloque que va a fundirse recibe pesos crecientes de 0 a 1. Estos pesos ya pueden aplicarse en el lado de analizador y, entonces, solo se necesita una operación de adición en el lado de decodificador. Sin embargo, preferiblemente, estos pesos no se aplican en el lado de codificador, sino que se aplican en el lado de decodificador de una manera predefinida. Tal como se comentó anteriormente, solo la parte N/2 centrada de cada bloque de análisis se usa para la síntesis, de modo que un factor de superposición de 1/2 resulte, tal como se ilustra en la figura 4c. Sin embargo, también podría usarse la parte completa de cada bloque de análisis para superponer/añadir, de modo que se ilustra una superposición de 4 pliegos tal como se ilustra en la parte superior de figura 4c. La realización descrita, en la que se usa la parte central, es preferible, ya que los cuartos exteriores incluyen el deslizamiento de la ventana de análisis y los cuartos centrales solo presentan la parte superior plana.
Todas las demás relaciones de superposición pueden implementarse según sea el caso.
La figura 4d ilustra una secuencia preferida de etapas que van a realizarse dentro de la realización preferida de las figuras 4a/4b. En una etapa 170, dos bloques adyacentes de información de AM se mezclan/funden. Preferiblemente, esta operación de fundido conjunto se realiza en el dominio de parámetros de modulación en lugar de en el dominio de la señal de tiempo de paso de banda modulada y sintetizada fácilmente. Por tanto, se evitan los artefactos de latido entre las dos señales que van a mezclarse en comparación con el caso en el que el fundido conjunto se realizaría en el dominio de tiempo y no en el dominio de parámetro de modulación. En la etapa 171, se calcula una frecuencia absoluta para un instante determinado combinando la frecuencia portadora en bloque para una señal de paso de banda con la información de FM de resolución fina utilizando el elemento de adición 202c. Entonces, en la etapa 171, dos bloques adyacentes de información de frecuencia absoluta se mezclan/funden en conjunto con el fin de obtener una frecuencia instantánea mezclada a la salida del bloque 202a. En la etapa 173, el resultado de la operación OLA 202a se integra tal como se ilustra en el bloque 202b de la figura 4b. Además, la operación de unión de componentes 201b determina la fase absoluta de una frecuencia predecesora correspondiente en un bloque anterior, tal como se ilustra en 174. Basándose en la fase determinada, el elemento de cambio de fase 202d de la figura 4b ajusta la fase absoluta de la señal mediante la adición de ^0 adecuado en el bloque 202c que también se ilustra mediante la etapa 175 en la figura 4d. Ahora, la fase está lista para el control de fase de un oscilador sinusoidal tal como se indica en la etapa 176. Finalmente, la señal de salida del oscilador se modula en cuanto a amplitud en la etapa 177 usando la información de amplitud de fundido conjunto del bloque 170. El modulador de amplitud, tal como el multiplicador 203b, finalmente emite una señal de paso de banda sintetizada para un canal de paso de banda determinado que, debido al procedimiento inventivo, tiene un ancho de banda de frecuencia que varía de bajo a alto al aumentar la frecuencia central de paso de banda.
A continuación, se presentan algunos espectrogramas que demuestran las propiedades de los esquemas de procesamiento de modulación propuestos. La figura 7a muestra el espectrograma de registro original de un fragmento de un elemento de música clásica orquestal (Vivaldi).
Las figuras 7b a 7e muestran los espectrogramas correspondientes después de diversos métodos de procesamiento de modulación en orden de detalles de modulación cada vez más restaurados. La figura 7b ilustra la reconstrucción de la señal únicamente de los portadores. Las regiones blancas corresponden a una alta energía espectral y coinciden con la concentración de energía local en el espectrograma de la señal original en la figura 7a. La figura 7c representa los mismos portadores, pero refinados por AM y FM suavizadas no linealmente. La adición de detalles es claramente visible. En la figura 7d, adicionalmente, la pérdida de detalle de AM se compensa mediante la adición de ruido de ‘gracia’ en forma de envolvente, que nuevamente añade más detalles a la señal. Finalmente, el espectrograma de la señal sintetizada de las componentes de modulación no modificadas se muestra en la figura 7e. La comparación del espectrograma en la figura 7e con el espectrograma de la señal original en la figura 7a ilustra la reproducción muy buena de los detalles completos.
Para evaluar el rendimiento del método propuesto, se llevó a cabo una prueba de escucha subjetiva. Se llevó a cabo la prueba de audición de tipo MUSHRA [21] usando auriculares electrostáticos de alta calidad STAX. Un total de 6 oyentes participaron en la prueba. Todos los sujetos pueden considerarse oyentes experimentados.
El conjunto de prueba consistía en los elementos enumerados en la figura 8 y las configuraciones bajo prueba se incluyen en la figura 9.
La gráfica representada de la figura 8 visualiza el resultado. Se muestran los resultados medios con intervalos de confianza del 95% para cada elemento. Las gráficas muestran los resultados después del análisis estadístico de los resultados de prueba para todos los oyentes. El eje X muestra el tipo de procesamiento y el eje Y representa la puntuación según la escala MUSHRA de 100 puntos que oscila entre 0 (malo) y 100 (transparente).
A partir de los resultados, puede observarse que las dos versiones que tienen un detalle de AM completo y un detalle de FM completo o grueso obtienen las mejores puntuaciones en aproximadamente 80 puntos de media, pero aún pueden distinguirse del original. Dado que los intervalos de confianza de ambas versiones se superponen en gran medida, puede concluirse que la pérdida de detalles finos de FM es de hecho perceptualmente insignificante. La versión con AM y FM gruesas y el ruido de ‘gracia’ añadido puntúa considerablemente más bajo, pero de media aún en 60 puntos: esto refleja la elegante propiedad de degradación del método propuesto con una omisión creciente de la información de detalle de AM fina.
La mayor parte de la degradación se percibe para los elementos que tienen un contenido transitorio fuerte tal como el carrillón y el clavecín. Esto se debe a la pérdida de las relaciones de fase originales entre las diferentes componentes en todo el espectro. Sin embargo, este problema podría superarse en versiones futuras del método de síntesis propuesto ajustando la fase portadora en los centros temporales de gravedad de la envolvente de AM conjuntamente para todas las componentes.
Para los elementos de música clásica en el conjunto de prueba, la degradación observada es estadísticamente insignificante.
El método de análisis/síntesis presentado podría ser útil en diferentes situaciones de aplicación: Para la codificación de audio, podría servir como un componente básico de un codificador de audio escalable de alta definición y correcto de manera perceptiva, cuyo principio básico se ha publicado en [1]. Con una tasa de bits decreciente, pueden transmitirse menos detalles al lado de receptor, por ejemplo, reemplazando la envolvente de AM completa por una gruesa y añadiendo ruido de ‘gracia’.
Además, pueden concebirse nuevos conceptos de extensión de ancho de banda de audio [20] que, por ejemplo, usan componentes de banda base modificadas y alterados para formar las bandas altas. Los experimentos mejorados sobre las propiedades auditivas del ser humano se vuelven factibles, por ejemplo, la creación mejorada de sonidos quiméricos con el fin de evaluar más a fondo la percepción humana de la estructura de modulación [11].
Por último, pero no por ello menos importante, nuevos y emocionantes efectos de audio artísticos para la producción de música están al alcance de la mano: cualquiera del modo de escala y el modo de clave de un elemento musical pueden alterarse mediante el procesamiento adecuado de las señales portadoras o puede accederse a la propiedad psicoacústica de la sensación de rugosidad mediante la manipulación de las componentes de AM.
Se ha presentado una propuesta de un sistema para descomponer una señal de audio arbitraria en componentes de AM/FM y portador perceptualmente significativos, lo que permite una escalabilidad de alta definición de la modificación de detalle de modulación. Se ha proporcionado un método de resíntesis apropiado. Se han descrito algunos ejemplos de principios de procesamiento de modulación y se han presentado los espectrogramas resultantes de un archivo de audio a modo de ejemplo. Se ha llevado a cabo una prueba de escucha para verificar la calidad perceptiva de los diferentes tipos de procesamiento de modulación y la posterior resíntesis. Se han identificado situaciones de aplicación futuras para este nuevo y prometedor método de análisis/síntesis. Los resultados demuestran que el método propuesto proporciona los medios apropiados para cerrar la brecha entre el procesamiento de audio paramétrico y de forma de onda y, además, hace posibles nuevos efectos de audio fascinantes.
Las realizaciones descritas son meramente ilustrativas para los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento serán evidentes para otros expertos en la técnica. La intención es, por tanto, limitarse solo por el alcance de las reivindicaciones de patentes latentes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en el presente documento.
Dependiendo de determinados requisitos de implementación de los métodos inventivos, los métodos inventivos pueden implementarse en hardware o en software. La implementación puede realizarse usando un medio de almacenamiento digital, en particular, un disco, un DVD o un CD que tenga señales de control legibles electrónicamente almacenadas en el mismo, que actúen conjuntamente con sistemas informáticos programables de manera que se realicen los métodos inventivos. En general, la presente invención es, por tanto, un producto de programa informático con un código de programa almacenado en un portador legible por máquina, haciéndose el código de programa funcionar para realizar los métodos inventivos cuando el producto de programa informático se ejecuta en un ordenador. En otras palabras, los métodos inventivos son, por tanto, un programa informático que tiene un código de programa para realizar al menos uno de los métodos inventivos cuando el programa informático se ejecuta en un ordenador.
REFERENCIAS
[1] M. Vinton y L. Atlas, “A Scalable And Progressive Audio Codec”, en Proc. of ICASSP 2001, págs. 3277-3280, 2001 [2] H. Dudley, “The vocoder”, en Bell Labs Record, vol. 17, págs. 122-126, 1939
[3] J. L. Flanagan y R. M. Golden, “Phase Vocoder”, en Bell System Technical Journal, vol.45, págs. 1493-1509, 1966 [4] J. L. Flanagan, “Parametric coding of speech spectra”, J. Acoust. Soc. Am., vol. 68 (2), págs.412-419, 1980
[5] U. Zoelzer, DAFX: Digital Audio Effects, Wiley & Sons, págs. 201-298, 2002
[6] H. Kawahara, “Speech representation and transformation using adaptive interpolation of weighted spectrum: vocoder revisited”, en Proc. of ICASSP 1997, vol. 2, págs. 1303-1306, 1997
[7] A. Rao y R. Kumaresan, “On decomposing speech into modulated components”, en IEEE Trans. on Speech and Audio Processing, vol. 8, págs. 240-254, 2000
[8] M. Christensen et al., “Multiband amplitude modulated sinusoidal audio modelling”, en IEEE Proc. of ICASSP 2004, vol.4, págs. 169-172, 2004
[9] K. Nie y F. Zeng, “A perception-based processing strategy for cochlear implants and speech coding” , en Proc. del 26° IEEE-EMBA, vol. 6, págs.4205-4208, 2004
[10] J. Thiemann y P. Kabal, “Reconstructing Audio Signals from Modified Non-Coherent Hilbert Envelopes”, en Proc. Interspeech (Amberes, Bélgica), págs. 534-537, 2007
[11] Z. M. Smith y B. Delgutte y A. J. Oxenham, “Chimaeric sounds reveal dichotomies in auditory perception” , en Nature, vol.416, págs. 87-90, 2002
[12] J. N. Anantharaman y A.K. Krishnamurthy, L.L. Feth, “Intensity weighted average of instantaneous frequency as a model for frequency discrimination” , en J. Acoust. Soc. Am., vol. 94 (2), págs. 723-729, 1993
[13] O. Ghitza, “On the upper cutoff frequency of the auditory critical-band envelope detectors in the context of speech perception”, en J. Acoust. Soc. Amer., vol. 110 (3), págs. 1628-1640, 2001
[14] E. Zwicker y H. Fast1, Psychoacoustics - Facts and Models, Springer, 1999
[15] E. Terhardt, “On the perception of periodic sound fluctuations (roughness)” en Acustica, vol. 30, págs. 201-213, 1974
[16] P. Daniel y R. Weber, “Psychoacoustical Roughness: Implementation of an Optimized Model” , en Acustica, vol.
83, págs. 113-123, 1997
[17] P. Loughlin y B. Tacer, “Comments on the interpretation of instantaneous frequency”, en IEEE Signal Processing Lett., vol.4, págs. 123-125, 1997.
[18] D. Wei y A. Bovik, “On the instantaneous frequencies of multicomponent AM-FM signals”, en IEEE Signal Processing Lett., vol. 5, págs. 84-86, 1998.
[19] Q. Li y L. Atlas, “Over-modulated AM-FM decomposition”, en Proceedings of the SPIE, vol. 5559, págs. 172-183, 2004
[20] M. Dietz, L. Liljeryd, K. Kjorling y O. Kunz, “Spectral Band Replication, a novel approach in audio coding”, en la 112 Convención de a Es , Munich, mayo de 2002.
[21] Recomendación de UIT-R BS.1534-1, “Method for the subjective assessment of intermediate sound quality (MUSHRA)”, Unión Internacional de Telecomunicaciones, Ginebra, Suiza, 2001.
[22] “Sinusoidal modeling parameter estimation via a dynamic channel vocoder model” A.S. Master, Conferencia internacional del IEEE 2002 sobre procesamiento de señales, acústica y habla.

Claims (1)

  1. REIVINDICACIONES
    Aparato para sintetizar una señal de salida de audio (206) a partir de una representación parametrizada de una señal de audio, comprendiendo el aparato:
    una interfaz de entrada (200) para recibir la representación parametrizada de la señal de audio, comprendiendo la representación parametrizada, para una parte de tiempo de la señal de audio, información de filtro de paso de banda para una pluralidad de filtros de paso de banda, comprendiendo la información del filtro de paso de banda:
    información que indica las frecuencias centrales de filtro de paso de banda variables en el tiempo de la pluralidad de filtros de paso de banda, teniendo la pluralidad de filtros de paso de banda anchos de banda variables, que dependen de una frecuencia central de filtro de paso de banda del filtro de paso de banda correspondiente,
    información de modulación de amplitud para cada filtro de paso de banda de la pluralidad de filtros de paso de banda para la parte de tiempo de la señal de audio, y
    al menos una información de modulación de fase y modulación de frecuencia para cada filtro de paso de banda de la pluralidad de filtros de paso de banda para la parte de tiempo de la señal de audio;
    un sintetizador de modulación de amplitud (201) para sintetizar, para cada canal de filtro de paso de banda, una componente de modulación de amplitud basándose en la información de modulación de amplitud para un filtro de paso de banda respectivo de la pluralidad de filtros de paso de banda,
    en el que el sintetizador de modulación de amplitud (201) comprende un elemento de adición de ruido (160f) para añadir ruido, estando el elemento de adición de ruido (160f) controlado a través de información lateral transmitida, que se establece de manera fija o que se controla mediante un análisis local;
    un sintetizador de modulación de frecuencia o modulación de fase (202) para sintetizar, para cada canal de filtro de paso de banda, información de frecuencia instantánea o información de fase instantánea basándose en la información de filtro de paso de banda que indica una frecuencia central de filtro de paso de banda variable en el tiempo y la información de modulación de frecuencia o la información de modulación de fase para un filtro de paso de banda respectivo de la pluralidad de filtros de paso de banda,
    en el que las distancias en frecuencia entre las frecuencias centrales adyacentes de los filtros de paso de banda de la pluralidad de filtros de paso de banda son diferentes en un espectro de frecuencias,
    un oscilador (203) para generar, para cada canal de filtro de paso de banda, una señal de salida que representa una señal de oscilación modulada instantáneamente en amplitud y al menos una de una señal de oscilación modulada en frecuencia instantáneamente o una señal de oscilación modulada en fase instantáneamente (204) usando la componente de modulación de amplitud para el canal de filtro de paso de banda respectivo y usando al menos una de la información de frecuencia instantánea o la información de fase instantánea para el canal de filtro de paso de banda respectivo; y
    un combinador (205) para generar la señal de salida de audio (206) mediante la combinación de las señales de salida para los canales de filtro de paso de banda.
    Aparato según la reivindicación 1, en el que el sintetizador de modulación de amplitud (201) comprende;
    un elemento de adición de superposición (201a) para superponer y añadir de manera ponderada bloques posteriores de información de modulación de amplitud para obtener la componente de modulación de amplitud; o
    en el que el sintetizador de modulación de frecuencia o modulación de fase (202) comprende un elemento de adición/superposición (202a) para añadir de manera ponderada dos bloques posteriores de información de modulación de frecuencia o modulación de fase o de una representación combinada de la información de modulación de frecuencia y la frecuencia central para un canal de filtro de paso de banda para obtener una información de frecuencia sintetizada.
    Aparato según la reivindicación 2, en el que el sintetizador de modulación de frecuencia o modulación de fase (202) comprende un integrador (202b) para integrar la información de frecuencia sintetizada y para añadir (202c), a la información de frecuencia sintetizada integrada, un término de fase (202d) derivado de una fase de una componente en las proximidades espectrales de un bloque anterior de una señal de salida del oscilador (203).
    Aparato según la reivindicación 3, en el que el oscilador (203) comprende un oscilador sinusoidal (203a) alimentado por una señal de fase obtenida por la adición (202c).
    Aparato según la reivindicación 4, en el que el oscilador (203) comprende un modulador (203b) para modular una señal de salida del oscilador sinusoidal (203a) que usa la componente de modulación de amplitud para el canal de filtro de paso de banda respectivo.
    Método para sintetizar una señal de salida de audio (206) a partir de una representación parametrizada de una señal de audio, comprendiendo el método:
    recibir la representación parametrizada de la señal de audio, comprendiendo la representación parametrizada, para una parte de tiempo de la señal de audio, información de filtro de paso de banda para una pluralidad de filtros de paso de banda, comprendiendo la información de filtro de paso de banda:
    información que indica las frecuencias centrales de filtro de paso de banda variables en el tiempo de la pluralidad de filtros de paso de banda, teniendo la pluralidad de filtros de paso de banda anchos de banda variables, que dependen de una frecuencia central de filtro de paso de banda del filtro de paso de banda correspondiente,
    información de modulación de amplitud para cada filtro de paso de banda de la pluralidad de filtros de paso de banda para la parte de tiempo de la señal de audio, y
    al menos una información de modulación de fase o información de modulación de frecuencia para cada filtro de paso de banda de la pluralidad de filtros de paso de banda para la parte de tiempo de la señal de audio;
    sintetizar (201), para cada canal de filtro de paso de banda, una componente de modulación de amplitud basándose en la información de modulación de amplitud para un filtro de paso de banda respectivo de la pluralidad de filtros de paso de banda, en el que la etapa de sintetizar (201) comprende una etapa de adición de ruido controlada a través de información secundaria transmitida, estableciéndose la información secundaria de manera fija o controlándose mediante un análisis local;
    sintetizar (202), para cada canal de filtro de paso de banda, información de frecuencia instantánea o información de fase instantánea basándose en la información de filtro de paso de banda que indica una frecuencia central de filtro de paso de banda variable en el tiempo y la información de modulación de frecuencia o la información de modulación de fase para un filtro de paso de banda respectivo de la pluralidad de filtros de paso de banda,
    en el que las distancias en frecuencia entre las frecuencias centrales adyacentes de los filtros de paso de banda de la pluralidad de filtros de paso de banda son diferentes en un espectro de frecuencias,
    generar (203), para cada canal de filtro de paso de banda, una señal de salida que representa una señal de amplitud modulada instantáneamente, y al menos una de una señal de oscilación modulada en frecuencia instantáneamente o una señal de oscilación modulada en fase instantáneamente (204) usando la componente de modulación de amplitud para el canal de filtro paso de banda respectivo y usando al menos una de la información de frecuencia instantánea o la información de fase instantánea para el filtro de paso de banda respectivo; y
    generar la señal de salida de audio (206) combinando (205) las señales de salida de los canales de filtro de paso de banda.
    Programa informático configurado para realizar, cuando se ejecuta en un ordenador, el método según la reivindicación 6.
ES17189419T 2008-03-20 2008-08-27 Aparato y método para sintetizar una representación parametrizada de una señal de audio Active ES2898865T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US3830008P 2008-03-20 2008-03-20

Publications (1)

Publication Number Publication Date
ES2898865T3 true ES2898865T3 (es) 2022-03-09

Family

ID=40139129

Family Applications (5)

Application Number Title Priority Date Filing Date
ES17189419T Active ES2898865T3 (es) 2008-03-20 2008-08-27 Aparato y método para sintetizar una representación parametrizada de una señal de audio
ES17189421T Active ES2895268T3 (es) 2008-03-20 2008-08-27 Aparato y método para modificar una representación parametrizada
ES08015123T Active ES2796493T3 (es) 2008-03-20 2008-08-27 Aparato y método para convertir una señal de audio en una representación parametrizada, aparato y método para modificar una representación parametrizada, aparato y método para sintetizar una representación parametrizada de una señal de audio
ES17177479T Active ES2770597T3 (es) 2008-03-20 2009-03-10 Aparato y método para modificar una representación parametrizada
ES09723599T Active ES2741200T3 (es) 2008-03-20 2009-03-10 Aparato y método para convertir una señal de audio en una representación parametrizada, aparato y método para modificar una representación parametrizada, aparato y método para sintetizar una representación parametrizada de una señal de audio

Family Applications After (4)

Application Number Title Priority Date Filing Date
ES17189421T Active ES2895268T3 (es) 2008-03-20 2008-08-27 Aparato y método para modificar una representación parametrizada
ES08015123T Active ES2796493T3 (es) 2008-03-20 2008-08-27 Aparato y método para convertir una señal de audio en una representación parametrizada, aparato y método para modificar una representación parametrizada, aparato y método para sintetizar una representación parametrizada de una señal de audio
ES17177479T Active ES2770597T3 (es) 2008-03-20 2009-03-10 Aparato y método para modificar una representación parametrizada
ES09723599T Active ES2741200T3 (es) 2008-03-20 2009-03-10 Aparato y método para convertir una señal de audio en una representación parametrizada, aparato y método para modificar una representación parametrizada, aparato y método para sintetizar una representación parametrizada de una señal de audio

Country Status (16)

Country Link
US (1) US8793123B2 (es)
EP (6) EP2104096B1 (es)
JP (1) JP5467098B2 (es)
KR (1) KR101196943B1 (es)
CN (1) CN102150203B (es)
AU (1) AU2009226654B2 (es)
CA (2) CA2867069C (es)
CO (1) CO6300891A2 (es)
ES (5) ES2898865T3 (es)
HK (4) HK1250089A1 (es)
MX (1) MX2010010167A (es)
MY (1) MY152397A (es)
RU (1) RU2487426C2 (es)
TR (1) TR201911307T4 (es)
WO (1) WO2009115211A2 (es)
ZA (1) ZA201006403B (es)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2898865T3 (es) 2008-03-20 2022-03-09 Fraunhofer Ges Forschung Aparato y método para sintetizar una representación parametrizada de una señal de audio
CN101770776B (zh) * 2008-12-29 2011-06-08 华为技术有限公司 瞬态信号的编码方法和装置、解码方法和装置及处理系统
US8700410B2 (en) * 2009-06-18 2014-04-15 Texas Instruments Incorporated Method and system for lossless value-location encoding
EP2451076B1 (en) * 2009-06-29 2018-10-03 Mitsubishi Electric Corporation Audio signal processing device
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5844266B2 (ja) 2009-10-21 2016-01-13 ドルビー・インターナショナル・アクチボラゲットDolby International Ab 適応オーバーサンプリングを用いる高周波数オーディオ信号を発生させるための装置および方法
EP2362376A3 (en) * 2010-02-26 2011-11-02 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using envelope shaping
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5243620B2 (ja) 2010-06-09 2013-07-24 パナソニック株式会社 帯域拡張方法、帯域拡張装置、プログラム、集積回路およびオーディオ復号装置
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
BE1019445A3 (fr) 2010-08-11 2012-07-03 Reza Yves Procede d'extraction d'information audio.
DK2617035T3 (da) 2010-09-16 2019-01-02 Dolby Int Ab Krydsprodukt-forstærket underbåndsblokbaseret harmonisk transponering
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
MX350686B (es) * 2012-01-20 2017-09-13 Fraunhofer Ges Forschung Aparato y método para la codificación y decodificación de audio que emplea sustitución sinusoidal.
US9161035B2 (en) 2012-01-20 2015-10-13 Sony Corporation Flexible band offset mode in sample adaptive offset in HEVC
US9570083B2 (en) 2013-04-05 2017-02-14 Dolby International Ab Stereo audio encoder and decoder
RU2665228C1 (ru) 2013-04-05 2018-08-28 Долби Интернэшнл Аб Аудиокодер и декодер для кодирования по форме волны с перемежением
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
EP2838086A1 (en) 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
EP2830063A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for decoding an encoded audio signal
EP2830046A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal to obtain modified output signals
CN110890101B (zh) * 2013-08-28 2024-01-12 杜比实验室特许公司 用于基于语音增强元数据进行解码的方法和设备
JP6531649B2 (ja) 2013-09-19 2019-06-19 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
RU2764260C2 (ru) 2013-12-27 2022-01-14 Сони Корпорейшн Устройство и способ декодирования
KR102185478B1 (ko) * 2014-02-28 2020-12-02 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 복호 장치, 부호화 장치, 복호 방법, 및 부호화 방법
CN106463133B (zh) * 2014-03-24 2020-03-24 三星电子株式会社 高频带编码方法和装置,以及高频带解码方法和装置
JP2015206874A (ja) * 2014-04-18 2015-11-19 富士通株式会社 信号処理装置、信号処理方法、及び、プログラム
RU2584462C2 (ru) * 2014-06-10 2016-05-20 Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования Московский технический университет связи и информатики (ФГОБУ ВПО МТУСИ) Способ передачи и приема сигналов, представленных параметрами ступенчатого модуляционного разложения, и устройство для его осуществления
EP2980796A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
WO2016102651A1 (fr) * 2014-12-24 2016-06-30 Reza Yves Jean-Paul Guy Procedes de traitement et d'analyse d'un signal, et dispositifs mettant en œuvre lesdits procedes
KR101661713B1 (ko) * 2015-05-28 2016-10-04 제주대학교 산학협력단 파라메트릭 어레이 응용을 위한 변조 방법 및 장치
CN107924683B (zh) * 2015-10-15 2021-03-30 华为技术有限公司 正弦编码和解码的方法和装置
WO2017078714A1 (en) * 2015-11-05 2017-05-11 Halliburton Energy Services Inc. Fluid flow metering with point sensing
EP3430620B1 (en) 2016-03-18 2020-03-25 Fraunhofer Gesellschaft zur Förderung der Angewand Encoding by reconstructing phase information using a structure tensor on audio spectrograms
CN106126172B (zh) 2016-06-16 2017-11-14 广东欧珀移动通信有限公司 一种音效处理方法及移动终端
CN108023548B (zh) * 2016-10-31 2023-06-16 北京普源精电科技有限公司 一种复合调制信号发生器及复合调制信号发生方法
CN108564957B (zh) * 2018-01-31 2020-11-13 杭州士兰微电子股份有限公司 码流的解码方法、装置、存储介质和处理器
CN109119053B (zh) * 2018-08-08 2021-07-02 瓦纳卡(北京)科技有限公司 一种信号传输方法、装置、电子设备以及计算机可读存储介质
WO2020082311A1 (zh) * 2018-10-25 2020-04-30 Oppo广东移动通信有限公司 消除频率干扰的装置和方法
CN109599104B (zh) * 2018-11-20 2022-04-01 北京小米智能科技有限公司 多波束选取方法及装置
CN110488252B (zh) * 2019-08-08 2021-11-09 浙江大学 一种地基气溶胶激光雷达系统的重叠因子定标装置和标定方法
CN111710327B (zh) * 2020-06-12 2023-06-20 百度在线网络技术(北京)有限公司 用于模型训练和声音数据处理的方法、装置、设备和介质
US11694692B2 (en) 2020-11-11 2023-07-04 Bank Of America Corporation Systems and methods for audio enhancement and conversion
CN113218391A (zh) * 2021-03-23 2021-08-06 合肥工业大学 一种基于ewt算法的姿态解算方法
CN113542980B (zh) * 2021-07-21 2023-03-31 深圳市悦尔声学有限公司 一种抑制扬声器串扰的方法
CN115440234B (zh) * 2022-11-08 2023-03-24 合肥工业大学 基于midi和对抗生成网络的音频隐写方法和系统

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5214708A (en) * 1991-12-16 1993-05-25 Mceachern Robert H Speech information extractor
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5574823A (en) * 1993-06-23 1996-11-12 Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Communications Frequency selective harmonic coding
JPH07261798A (ja) * 1994-03-22 1995-10-13 Secom Co Ltd 音声分析合成装置
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
JPH10319947A (ja) * 1997-05-15 1998-12-04 Kawai Musical Instr Mfg Co Ltd 音域制御装置
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
TW358925B (en) * 1997-12-31 1999-05-21 Ind Tech Res Inst Improvement of oscillation encoding of a low bit rate sine conversion language encoder
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
US6725108B1 (en) * 1999-01-28 2004-04-20 International Business Machines Corporation System and method for interpretation and visualization of acoustic spectra, particularly to discover the pitch and timbre of musical sounds
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
EP1238489B1 (en) * 1999-12-13 2008-03-05 Broadcom Corporation Voice gateway with downstream voice synchronization
JP2004522198A (ja) * 2001-05-08 2004-07-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声符号化方法
JP3709817B2 (ja) * 2001-09-03 2005-10-26 ヤマハ株式会社 音声合成装置、方法、及びプログラム
JP2003181136A (ja) * 2001-12-14 2003-07-02 Sega Corp 音声制御方法
US6950799B2 (en) * 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles
US7191134B2 (en) * 2002-03-25 2007-03-13 Nunally Patrick O'neal Audio psychological stress indicator alteration method and apparatus
JP3941611B2 (ja) * 2002-07-08 2007-07-04 ヤマハ株式会社 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
ATE352953T1 (de) * 2002-08-28 2007-02-15 Freescale Semiconductor Inc Verfahren und vorrichtung zur detektierung von tonsignalen
US7027979B2 (en) * 2003-01-14 2006-04-11 Motorola, Inc. Method and apparatus for speech reconstruction within a distributed speech recognition system
JP2004350077A (ja) * 2003-05-23 2004-12-09 Matsushita Electric Ind Co Ltd アナログオーディオ信号送信装置および受信装置並びにアナログオーディオ信号伝送方法
US7179980B2 (en) * 2003-12-12 2007-02-20 Nokia Corporation Automatic extraction of musical portions of an audio stream
DE102004012208A1 (de) * 2004-03-12 2005-09-29 Siemens Ag Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme
FR2868587A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme de conversion rapides d'un signal vocal
FR2868586A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
DE102004021403A1 (de) * 2004-04-30 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung
JP4645241B2 (ja) * 2005-03-10 2011-03-09 ヤマハ株式会社 音声処理装置およびプログラム
WO2006128107A2 (en) * 2005-05-27 2006-11-30 Audience, Inc. Systems and methods for audio signal analysis and modification
US7734462B2 (en) * 2005-09-02 2010-06-08 Nortel Networks Limited Method and apparatus for extending the bandwidth of a speech signal
US8099282B2 (en) * 2005-12-02 2012-01-17 Asahi Kasei Kabushiki Kaisha Voice conversion system
US7831420B2 (en) * 2006-04-04 2010-11-09 Qualcomm Incorporated Voice modifier for speech processing systems
WO2007118583A1 (en) 2006-04-13 2007-10-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decorrelator
EP1845699B1 (en) * 2006-04-13 2009-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decorrelator
JP2007288468A (ja) * 2006-04-17 2007-11-01 Sony Corp オーディオ出力装置、パラメータ算出方法
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
US7974838B1 (en) * 2007-03-01 2011-07-05 iZotope, Inc. System and method for pitch adjusting vocals
US8131549B2 (en) * 2007-05-24 2012-03-06 Microsoft Corporation Personality-based device
ES2898865T3 (es) 2008-03-20 2022-03-09 Fraunhofer Ges Forschung Aparato y método para sintetizar una representación parametrizada de una señal de audio
EP2306453B1 (en) * 2008-06-26 2015-10-07 Japan Science and Technology Agency Audio signal compression device, audio signal compression method, audio signal decoding device, and audio signal decoding method

Also Published As

Publication number Publication date
US20110106529A1 (en) 2011-05-05
ES2770597T3 (es) 2020-07-02
EP2104096B1 (en) 2020-05-06
AU2009226654B2 (en) 2012-08-09
CN102150203B (zh) 2014-01-29
EP3242294A1 (en) 2017-11-08
ES2741200T3 (es) 2020-02-10
EP3244407A1 (en) 2017-11-15
MX2010010167A (es) 2010-12-07
CA2867069C (en) 2016-01-19
EP3296992A1 (en) 2018-03-21
EP3273442B1 (en) 2021-10-20
HK1251074A1 (zh) 2019-01-18
EP2255357A2 (en) 2010-12-01
ES2895268T3 (es) 2022-02-18
EP3296992B1 (en) 2021-09-22
CA2718513C (en) 2015-09-22
JP2011514562A (ja) 2011-05-06
EP3242294B1 (en) 2024-05-01
JP5467098B2 (ja) 2014-04-09
KR20100134611A (ko) 2010-12-23
ES2796493T3 (es) 2020-11-27
ZA201006403B (en) 2011-05-25
HK1246494A1 (zh) 2018-09-07
EP3273442A1 (en) 2018-01-24
KR101196943B1 (ko) 2012-11-05
RU2010139018A (ru) 2012-03-27
EP3244407B1 (en) 2019-11-27
CA2718513A1 (en) 2009-09-24
US8793123B2 (en) 2014-07-29
RU2487426C2 (ru) 2013-07-10
AU2009226654A1 (en) 2009-09-24
EP2255357B1 (en) 2019-05-15
EP2104096A2 (en) 2009-09-23
CO6300891A2 (es) 2011-07-21
EP2104096A3 (en) 2010-08-04
WO2009115211A3 (en) 2010-08-19
WO2009115211A2 (en) 2009-09-24
BRPI0906247A8 (pt) 2018-10-16
CN102150203A (zh) 2011-08-10
HK1246495A1 (zh) 2018-09-07
HK1250089A1 (zh) 2018-11-23
TR201911307T4 (tr) 2019-08-21
CA2867069A1 (en) 2009-09-24
MY152397A (en) 2014-09-15

Similar Documents

Publication Publication Date Title
ES2898865T3 (es) Aparato y método para sintetizar una representación parametrizada de una señal de audio
Nagel et al. A harmonic bandwidth extension method for audio codecs
JP5336522B2 (ja) 瞬間的事象を有する音声信号の操作装置および操作方法
ES2523800T3 (es) Aparato y procedimiento para modificar una señal de audio usando modelado de envolvente
BRPI0905795B1 (pt) dispositivo e método para uma extensão de largura de banda de um sinal de áudio
Disch et al. An amplitude-and frequency modulation vocoder for audio signal processing
BRPI0906247B1 (pt) Equipamento e método para converter um sinal de áudio em uma representação parametrizada, equipamento e método para modificar uma representação parametrizada, equipamento e método para sintetizar uma representação parametrizada de um sinal de áudio
AU2012216537B2 (en) Device and method for manipulating an audio signal having a transient event