ES2837107T3 - Aparato y método para procesar una señal de audio para obtener una señal de audio procesada usando una envolvente en el dominio del tiempo objetivo - Google Patents

Aparato y método para procesar una señal de audio para obtener una señal de audio procesada usando una envolvente en el dominio del tiempo objetivo Download PDF

Info

Publication number
ES2837107T3
ES2837107T3 ES16705948T ES16705948T ES2837107T3 ES 2837107 T3 ES2837107 T3 ES 2837107T3 ES 16705948 T ES16705948 T ES 16705948T ES 16705948 T ES16705948 T ES 16705948T ES 2837107 T3 ES2837107 T3 ES 2837107T3
Authority
ES
Spain
Prior art keywords
audio signal
frequency domain
envelope
time domain
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16705948T
Other languages
English (en)
Inventor
Christian Dittmar
Meinard Müller
Sascha Disch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2837107T3 publication Critical patent/ES2837107T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Abstract

Aparato (2) para procesar una señal de audio (49) para obtener una señal de audio procesada (6), que comprende: un calculador de fase (8) para calcular valores de fase (10) para valores espectrales de una secuencia de tramas en el dominio de la frecuencia (12) que representan tramas superpuestas de la señal de audio (4), caracterizado porque el calculador de fase (8) se configura para calcular los valores de fase (10) basándose en información sobre una envolvente en el dominio del tiempo objetivo (14) relacionada con la señal de audio procesada (6), de modo que la señal de audio procesada tenga al menos en una aproximación la envolvente en el dominio del tiempo objetivo (14) y una envolvente espectral determinada por la secuencia de tramas en el dominio de la frecuencia (12).

Description

DESCRIPCIÓN
Aparato y método para procesar una señal de audio para obtener una señal de audio procesada usando una envolvente en el dominio del tiempo objetivo
La presente invención se refiere a un aparato y un método para procesar una señal de audio para obtener una señal de audio procesada. Las realizaciones adicionales muestran un decodificador de audio que comprende el aparato y un codificador de audio correspondiente, un procesador de separación de fuentes de audio y un procesador de mejora de ancho de banda, comprendiendo ambos el aparato. Según realizaciones adicionales, se muestra la restauración transitoria en la reconstrucción de señal y la restauración transitoria en la descomposición de audio informada por puntuación.
La tarea de separar una mezcla de fuentes de sonido superpuestas en sus componentes constituyentes ha ganado importancia en el procesamiento de señales de audio digitales. En el procesamiento de voz, estos componentes son usualmente las pronunciaciones de oradores objetivo interferidas por ruido o personas hablando simultáneamente. En la música, estos componentes pueden ser melodías instrumentales o vocales individuales, instrumentos de percusión o incluso eventos de notas individuales. Los temas relevantes son la reconstrucción de señal y la conservación transitoria y composición de audio informada por puntuación (es decir, separación de fuentes).
La separación de fuentes de la música pretende descomponer una grabación de música polifónica, multitímbrica en señales componentes tales como una voz cantando, melodías instrumentales, instrumentos de percusión o eventos de notas individuales que se produzcan en una señal mezclada. Además de ser una etapa importante en muchos análisis y tareas de recuperación de música, la separación de fuentes musicales es también un prerrequisito fundamental para aplicaciones tales como restauración de música, mezclado ascendente y remezclado. Para esos propósitos, es deseable la alta fidelidad en términos de calidad perceptual de los componentes separados. La mayoría de las técnicas de separación existentes trabaja sobre una representación en el tiempo-frecuencia (TF) de la señal mezclada, a menudo la Transformación de Fourier de Tiempo Reducido (STFT). Las señales componentes objetivo se reconstruyen usualmente usando una transformación inversa adecuada, que a su vez puede introducir distorsiones audibles como ruido musical, transitorios sucios y pre-ecos. Los enfoques existentes sufren distorsiones audibles en forma de ruido musical, interferencia de fase y pre-ecos. Estas distorsiones son a menudo muy molestas para el oyente humano.
Existe un número de documentos recientes sobre separación de fuentes musicales. En la mayoría de los enfoques, la separación se lleva a cabo en el dominio del tiempo-frecuencia (TF) modificando el espectrograma de magnitud. Las señales en el dominio del tiempo correspondientes de los componentes separados se derivan usando la información de fase original y aplicando transformaciones inversas adecuadas. Cuando se esfuerzan por buena calidad perceptual de las señales únicas separadas, muchos autores regresan a técnicas de descomposición informadas por puntuación. Esto tiene la ventaja de que la separación puede guiarse por información sobre la ubicación aproximada de las señales componentes en el tiempo (comienzo, compensación) y frecuencia (tono, timbre). Menos publicaciones abordan la separación de fuentes de las señales transitorias tales como tambores. Otras se han enfocado en la separación de componentes armónicos frente a percusivos [5].
Además, el problema de pre-ecos se ha abordado en el campo de codificación de audio perceptual, donde los pre­ ecos están provocados normalmente por el uso de ventanas de análisis y síntesis relativamente largas conjuntamente con la manipulación intermedia de compartimientos de TF tal como la cuantificación de magnitudes espectrales según el modelo psicoacústico. Puede considerarse estado de la técnica usar la conmutación por bloques en los alrededores de eventos transitorios [6]. En otro enfoque interesante, los coeficientes espectrales se codifican por predicción lineal a lo largo del eje de frecuencia, reduciendo automáticamente los pre-ecos. Trabajos posteriores propusieron descomponer la señal en componentes transitorios y residuales y usar parámetros de codificación optimizados para cada flujo [3]. La conservación transitoria también se ha investigado en el contexto de métodos de modificación de escala de tiempo basándose en codificador vocal de fase. Además del tratamiento optimizado de los componentes transitorios, varios autores siguen el principio de sincronización de fase o reinicialización de fase en tramas transitorias [8].
El problema de reconstrucción de señal, también conocido como inversión o estimación de fase del espectrograma de magnitud es un tema muy investigado. En su artículo clásico [1], Griffin y Lim propusieron el denominado algoritmo de LSEE-MSTFTM para la reconstrucción de señal iterativa ciega a partir de espectrogramas de magnitud de STFT modificado (MSTFTM). En [2], Le Roux et al. desarrollaron una visión diferente sobre este método al describirlo usando un criterio de consistencia de TF. Conservando las operaciones necesarias totalmente en el dominio de TF, podrían introducirse varias simplificaciones y aproximaciones que disminuyeran la carga computacional en comparación con el procedimiento original. Puesto que las estimaciones de fase obtenidas usando LSEE-MSTFTM pueden converger únicamente a óptimos locales, varias publicaciones se preocuparon por encontrar una buena estimación inicial para la información de fase [3, 4]. Sturmel y Daudet [5] proporcionaron una revisión profunda de los métodos de reconstrucción de señal y señalaron problemas no resueltos. Se propuso una extensión del LSEE-MSTFTM con respecto a la velocidad de convergencia en [6]. Otros autores intentaron formular el problema de estimación de fase como un esquema de optimización convexa y llegaron a resultados prometedores obstaculizados por la alta complejidad computacional [7]. Otro trabajo [8] se refería a la aplicación del marco de consistencia de espectrograma a la reconstrucción de señal de espectrogramas de magnitud basados en ondícula.
Gnann y Becker [11] propusieron un enfoque de estimación de fase de multirresolución para hacer frente a eventos transitorios.
Sin embargo, los enfoques descritos para la reconstrucción de señal comparten el problema de que un cambio rápido de la señal de audio, que es, por ejemplo, típico de transitorios, puede sufrir las distorsiones descritas anteriormente tales como, por ejemplo, pre-ecos.
Por tanto, existe la necesidad de un enfoque mejorado.
Un objetivo de la presente invención es proporcionar un concepto mejorado para procesar una señal de audio. Este objetivo se resuelve por el contenido de las reivindicaciones independientes.
La presente invención se basa en el hallazgo de que una envolvente de amplitud en el dominio del tiempo objetivo puede aplicarse a los valores espectrales de la secuencia de tramas en el dominio de la frecuencia en el dominio del tiempo o de la frecuencia. En otras palabras, una fase de una señal puede corregirse después del procesamiento de la señal usando la conversión tiempo-frecuencia y frecuencia-tiempo, donde una amplitud o una magnitud de esta señal todavía se mantiene o se conserva (sin cambios). La fase puede restaurarse usando, por ejemplo, un algoritmo iterativo tal como el algoritmo propuesto por Griffin y Lim. Sin embargo, el uso de la envolvente en el dominio del tiempo objetivo mejora significativamente la calidad de la restauración de fase, que da como resultado un número reducido de iteraciones si se usa el algoritmo iterativo. La envolvente en el dominio del tiempo objetivo puede calcularse o aproximarse.
Las realizaciones muestran un aparato para procesar una señal de audio para obtener una señal de audio procesada. El aparato puede comprender un calculador de fase para calcular valores de fase para valores espectrales de una secuencia de tramas en el dominio de la frecuencia que representan tramas superpuestas de la señal de audio. El calculador de fase puede configurarse para calcular los valores de fase basándose en información sobre una envolvente en el dominio del tiempo objetivo relacionada con la señal de audio procesada, de modo que la señal de audio procesada tenga al menos en una aproximación la envolvente en el dominio del tiempo objetivo y una envolvente en el dominio espectral determinada por la secuencia de tramas en el dominio de la frecuencia. La información sobre la envolvente de amplitud en el dominio del tiempo objetivo puede aplicarse a la secuencia de tramas en el dominio de la frecuencia en el dominio del tiempo o de la frecuencia.
Para superar las limitaciones mencionadas anteriormente de los enfoques conocidos, las realizaciones muestran una técnica, método o un aparato para conservar mejor componentes transitorios en señales de fuente reconstruidas. En particular, un objetivo puede ser atenuar pre-ecos que deterioren la claridad del comienzo de eventos de notas de tambores y percusiones así como piano y guitarra.
Las realizaciones muestran además una extensión o una mejora del procedimiento de reconstrucción de señal de Griffin y Lim [1] que, por ejemplo, conserva mejor componentes de señal transitorios. El método original estima iterativamente la información de fase necesaria para la reconstrucción en el dominio del tiempo de una magnitud de STFT (STFTM) yendo hacia atrás y hacia adelante entre la STFT y la señal en el dominio del tiempo, actualizando únicamente la información de fase, mientras se conserva la STFTM fija. La extensión o mejora propuesta manipula las reconstrucciones en el dominio del tiempo intermedias para atenuar los pre-ecos que preceden potencialmente a los transitorios.
Según una primera realización, la información sobre la envolvente en el dominio del tiempo objetivo se aplica a la secuencia de tramas en el dominio de la frecuencia en el dominio del tiempo. Por tanto, puede derivarse una Transformación de Fourier de Tiempo Reducido modificada (MSTFT) de una secuencia de tramas en el dominio de la frecuencia. Basándose en la Transformación de Fourier de Tiempo Reducido modificada, puede realizarse una Transformación de Fourier de Tiempo Reducido inversa. Puesto que la Transformación de Fourier de Tiempo Reducido Inversa (ISTFT) realiza un procedimiento de superposición y adición, los valores de magnitud y valores de fase de la MSTFT inicial se modifican (se actualizan, se adaptan o se ajustan). Esto conduce a una reconstrucción en el dominio del tiempo intermedia de la señal de audio. Además, puede aplicarse una envolvente en el dominio del tiempo objetivo a la reconstrucción en el dominio del tiempo intermedia. Esto puede realizarse, por ejemplo, convolucionando una señal en el dominio del tiempo por una respuesta a un impulso o multiplicando un espectro por una función de transferencia. La reconstrucción en el dominio del tiempo intermedia de la señal de audio que tiene (una aproximación de) la envolvente en el dominio del tiempo objetivo puede convertirse por tiempo-frecuencia usando una Transformación de Fourier de Tiempo Reducido (STFT). Por tanto, pueden usarse ventanas de análisis y/o síntesis superpuestas.
Aunque la modulación de la envolvente en el dominio del tiempo objetivo no se aplica, la STFT de la representación en el dominio del tiempo intermedia de la señal de audio sería diferente de la MSTFT inicial debido al procedimiento de superposición y adición en la ISTFT y la STFT. Esto puede realizarse en un algoritmo iterativo, en el que, para una MSTFT actualizada, se usa el valor de fase de la operación de la STFT anterior y se descarta el valor de amplitud o magnitud correspondiente. En su lugar, como un valor de amplitud o magnitud para la MSTFT actualizada, pueden usarse los valores de magnitud iniciales, puesto que se supone que el valor de amplitud (o magnitud) se reconstruye (perfectamente) teniendo solo información de fase incorrecta. Por tanto, en cada etapa de iteración, los valores de fase se adaptan a los valores de fase correctos (u originales).
Según una segunda realización, la envolvente en el dominio del tiempo objetivo puede aplicarse a la secuencia de tramas en el dominio de la frecuencia en el dominio de la frecuencia. Por tanto, las etapas realizadas al principio en el dominio del tiempo pueden transferirse (transformarse, aplicarse o convertirse) al dominio de la frecuencia. En detalle, esta puede ser una transformación tiempo-frecuencia de la ventana de síntesis de la ISTFT y la ventana de análisis de la STFT. Esto conduce a una representación de frecuencia de tramas vecinas que superpondrían la trama actual después de que la ISTFT y la STFT se hayan transformado en el dominio del tiempo. Sin embargo, esta sección se desplaza a una posición correcta dentro de la trama actual, y se realiza una adición para derivar una representación en el dominio de la frecuencia intermedia de la señal de audio. Además, la envolvente en el dominio del tiempo objetivo puede transformarse al dominio de la frecuencia, por ejemplo, usando una STFT, de manera que la representación de frecuencia de la envolvente en el dominio del tiempo objetivo pueda aplicarse a la representación en el dominio de la frecuencia intermedia. De nuevo, este procedimiento puede realizarse de manera iterativa usando la fase actualizada de la representación en el dominio de la frecuencia intermedia que tiene (en una aproximación) la envolvente de la envolvente en el dominio del tiempo objetivo. Además, se usa la magnitud inicial de la MSTFT, puesto que se supone que la magnitud ya está perfectamente reconstruida.
Usando el aparato mencionado anteriormente, puede suponerse que múltiples realizaciones adicionales tienen diferentes posibilidades de derivar la envolvente en el dominio del tiempo objetivo. Las realizaciones muestran un decodificador de audio que comprende el aparato mencionado anteriormente. El decodificador de audio puede recibir la señal de audio de un codificador de audio (asociado). El codificador de audio puede analizar la señal de audio para derivar una envolvente en el dominio del tiempo objetivo, por ejemplo, para cada trama de tiempo de la señal de audio. La envolvente en el dominio del tiempo objetivo derivada puede compararse con una lista predeterminada de envolventes en el dominio del tiempo objetivo a modo de ejemplo. La envolvente en el dominio del tiempo objetivo predeterminada que se aproxime a la envolvente en el dominio del tiempo objetivo calculada de la señal de audio puede asociarse a una determinada secuencia de bits, por ejemplo, una secuencia de cuatro bits para asignar 16 envolventes en el dominio del tiempo objetivo diferentes. El decodificador de audio puede comprender las mismas envolventes en el dominio del tiempo objetivo predeterminadas, por ejemplo, un libro de código o una tabla de consulta, y puede determinar (leer, computar o calcular) la envolvente en el dominio del tiempo objetivo predeterminada (codificada) por la secuencia de bits transmitida desde el codificador.
Según realizaciones adicionales, el aparato mencionado anteriormente puede formar parte de un procesador de separación de fuentes de audio. Un procesador de separación de fuentes de audio puede usar una aproximación preliminar de la envolvente en el dominio del tiempo objetivo, puesto que una señal de audio original que tiene únicamente una fuente de múltiples fuentes de la señal de audio (usualmente) no está disponible. Por tanto, especialmente para la restauración transitoria, una parte de una trama actual hasta una posición transitoria inicial puede forzarse a ser cero. Esto puede reducir efectivamente pre-ecos en la parte frontal de un transitorio usualmente incorporado debido al algoritmo de procesamiento de la señal. Además, puede usarse un comienzo común como una aproximación de la envolvente en el dominio del tiempo objetivo, por ejemplo, el mismo comienzo para cada trama. Según una realización adicional, puede usarse un comienzo diferente para diferentes componentes de la señal de audio, por ejemplo, derivado de una lista predeterminada de comienzos. Por ejemplo, una envolvente en el dominio del tiempo objetivo o un comienzo de un piano puede diferir de una envolvente en el dominio del tiempo objetivo o un comienzo de una guitarra, un charles o voz. Por tanto, la fuente o componente actual para la señal de audio puede analizarse, por ejemplo, para detectar el tipo de información de audio (instrumento, voz, etc.) para determinar la mejor aproximación (teóricamente) de la envolvente en el dominio del tiempo objetivo. Según realizaciones adicionales, el tipo de información de audio puede ser un preajuste (por un usuario), si se pretende que la separación de fuentes de audio, por ejemplo, separe uno o más instrumentos (por ejemplo, guitarra, charles, flauta o piano) o voz de una parte restante de la señal de audio. Basándose en el preajuste, puede elegirse un comienzo correspondiente para la pista de audio separada o aislada.
Según realizaciones adicionales, un procesador de mejora de ancho de banda puede usar el aparato mencionado anteriormente. El procesador de mejora de ancho de banda usa un codificador central para codificar una representación de alta resolución de una o más bandas de la señal de audio. Además, las bandas que se codifican usando el codificador central pueden aproximarse en un decodificador de mejora de ancho de banda usando un parámetro del codificador de mejora de ancho de banda. La envolvente en el dominio del tiempo objetivo puede transmitirse, por ejemplo, como un parámetro, por el codificador. Sin embargo, según una realización preferida, la envolvente en el dominio del tiempo objetivo no se transmite (como un parámetro) por el codificador. Por tanto, la envolvente en el dominio del tiempo objetivo puede derivarse directamente de la banda(s) de frecuencia o parte decodificada centralmente de la señal de audio. La forma o envolvente de la parte decodificada centralmente de la señal de audio es una buena aproximación a la envolvente en el dominio del tiempo objetivo de la señal de audio original. Sin embargo, los componentes de alta frecuencia pueden estar ausentes en la parte decodificada centralmente de la señal de audio conduciendo a una envolvente en el dominio del tiempo objetivo que puede ser menos acentuada cuando se compara con la envolvente original. Por ejemplo, la envolvente en el dominio del tiempo objetivo puede ser similar a una versión filtrada de paso bajo de la señal de audio o una parte de la señal de audio. Sin embargo, la aproximación de la envolvente en el dominio del tiempo objetivo de la señal de audio decodificada centralmente puede ser (como promedio) más precisa en comparación con, por ejemplo, el uso de un libro de código donde la información de la envolvente en el dominio del tiempo objetivo puede transmitirse desde un codificador de mejora de ancho de banda hasta el decodificador de mejora de ancho de banda.
Según realizaciones adicionales, se muestra una extensión efectiva del algoritmo de reconstrucción de señal iterativo propuesto por Griffin y Lim. La extensión muestra una etapa intermedia dentro de la reconstrucción iterativa usando una Transformación de Fourier de Tiempo Reducido modificada. La etapa intermedia puede imponer una forma deseada o predeterminada de la señal que será reconstruida. Por tanto, puede aplicarse una envolvente predeterminada sobre la señal reconstruida (dominio del tiempo), por ejemplo, usando modulación de amplitud, dentro de cada etapa de la iteración. De manera alternativa, la envolvente puede aplicarse a la señal reconstruida usando una convolución de la STFT y la envolvente en el dominio del tiempo-frecuencia. El segundo enfoque puede ser ventajoso o más efectivo, puesto que la STFT inversa y la STFT pueden simularse (realizarse, transformarse o transferirse) en el dominio del tiempo-frecuencia y, por tanto, estas etapas no necesitan realizarse explícitamente. Además, pueden realizarse simplificaciones adicionales, tales como, por ejemplo, un procesamiento selectivo de secuencia. Además, una inicialización de las fases (de la primera etapa de MSTFT) que tiene valores significativos es ventajosa, puesto que se logra una conversión más rápida.
Antes de que se describan con detalle las realizaciones usando las figuras adjuntas, debe señalarse que a los mismos elementos o elementos igualmente funcionales se les da los mismos números de referencia en las figuras y que se presenta una descripción repetida para elementos provistos de los mismos números de referencia. Por tanto, las descripciones proporcionadas para elementos que tienen los mismos números de referencia son mutuamente intercambiables.
Las realizaciones de la presente invención se comentarán posteriormente refiriéndose a sus dibujos adjuntos, en los que:
la figura 1 muestra un diagrama de bloques esquemático de un aparato para procesar una señal de audio para obtener una señal de audio procesada;
la figura 2 muestra un diagrama de bloques esquemático del aparato según una realización adicional usando el procesamiento en el dominio del tiempo-frecuencia o dominio de la frecuencia;
la figura 3 muestra el aparato según una realización adicional en un diagrama de bloques esquemático usando el procesamiento en el dominio del tiempo-frecuencia;
la figura 4 muestra un diagrama de bloques esquemático del aparato según una realización usando el procesamiento en el dominio de la frecuencia;
la figura 5 muestra un diagrama de bloques esquemático del aparato según una realización adicional usando el procesamiento en el dominio del tiempo-frecuencia;
las figura 6a-d muestran un diagrama esquemático de la restauración transitoria según una realización;
la figura 7 muestra un diagrama de bloques esquemático del aparato según una realización adicional usando el procesamiento en el dominio de la frecuencia;
la figura 8 muestra un diagrama en el dominio del tiempo esquemático que ilustra un segmento de una señal de audio;
las figuras 9a-c ilustran diagramas esquemáticos de diferentes señales componentes de charles separadas de un bucle de tambor a modo de ejemplo;
las figuras 10a-b muestran una ilustración esquemática de una mezcla de señales percusivas que contiene tres instrumentos como fuentes para separación de fuentes de bucles de tambor;
la figura 11a muestra una evolución de la medición de inconsistencia normalizada frente al número de iteraciones; la figura 11b muestra la evolución de la energía de pre-eco frente al número de iteraciones;
la figura 12a muestra un diagrama esquemático de una evolución de la medición de inconsistencia normalizada frente al número de iteraciones;
la figura 12b muestra la evolución de la energía de pre-eco frente al número de iteraciones;
la figura 13 muestra un diagrama esquemático de un resultado de descomposición de NMF típica, que ilustra las plantillas extraídas (tres diagramas en el extremo izquierdo) que en efecto se asemejan a versiones prototipo de los eventos de comienzo en V (diagrama inferior derecho).
la figura 14a muestra un diagrama esquemático de una evolución de la medición de consistencia normalizada frente al número de iteraciones;
la figura 14b muestra un diagrama esquemático de una evolución de la energía de pre-eco frente al número de iteraciones;
la figura 15 muestra un codificador de audio para codificar una señal de audio según una realización;
la figura 16 muestra un decodificador de audio que comprende el aparato y una interfaz de entrada;
la figura 17 muestra una señal de audio que comprende una representación de una secuencia de tramas en el dominio de la frecuencia y una representación de una envolvente en el dominio del tiempo objetivo;
la figura 18 muestra un diagrama de bloques esquemático de un procesador de separación de fuentes de audio según una realización;
la figura 19 muestra un diagrama de bloques esquemático de un procesador de mejora de ancho de banda según una realización;
la figura 20 muestra un diagrama en el dominio de la frecuencia esquemático que ilustra la mejora de ancho de banda; la figura 21 muestra una representación esquemática de la reconstrucción en el dominio del tiempo (intermedia); la figura 22 muestra un diagrama de bloques esquemático de un método para procesar una señal de audio para obtener una señal de audio procesada;
la figura 23 muestra un diagrama de bloques esquemático de un método de decodificación de audio;
la figura 24 muestra un diagrama de bloques esquemático de un método de separación de fuentes de audio;
la figura 25 muestra un diagrama de bloques esquemático de un método de mejora de ancho de banda de una señal de audio codificada;
la figura 26 muestra un diagrama de bloques esquemático de un método de codificación de audio.
A continuación, se describirán las realizaciones de la invención con mayor detalle. Los elementos mostrados en las figuras respectivas que tienen la misma funcionalidad o similar tendrán asociados con estos los mismos signos de referencia.
La figura 1 muestra un diagrama de bloques esquemático de un aparato 2 para procesar una señal de audio 4 para obtener una señal de audio procesada 6. El aparato 2 comprende un calculador de fase 8 para calcular valores de fase 10 para valores espectrales de una secuencia de tramas en el dominio de la frecuencia 12 que representen tramas superpuestas de la señal de audio 4. Además, el calculador de fase 8 se configura para calcular los valores de fase 10 basándose en información sobre una envolvente en el dominio del tiempo objetivo 14 relacionada con la señal de audio procesada 6, de modo que la señal de audio procesada 6 tenga al menos en una aproximación la envolvente de amplitud en el dominio del tiempo objetivo 14 y una envolvente espectral determinada por la secuencia de tramas en el dominio de la frecuencia 12. Por tanto, el calculador de fase 8 puede configurarse para recibir la información sobre la envolvente en el dominio del tiempo objetivo o para extraer la información sobre la envolvente en el dominio del tiempo objetivo de (una representación de) la envolvente en el dominio del tiempo objetivo.
Los valores espectrales de la secuencia de tramas en el dominio de la frecuencia 10 pueden calcularse usando una Transformación de Fourier de Tiempo Reducido (STFT) de la señal de audio 4. Por tanto, la STFT puede usar ventanas de análisis que tengan un intervalo de superposición de, por ejemplo, 50%, 67%, 75% o incluso más. En otras palabras, la STFT puede usar un tamaño de salto de, por ejemplo, la mitad, un tercio o un cuarto de una longitud de la ventana de análisis.
La información sobre la envolvente en el dominio del tiempo objetivo 14 puede derivarse usando enfoques diferentes o variables relacionados con la realización actual o usada. En un entorno de codificación, por ejemplo, un codificador puede analizar la señal de audio (original) (antes de codificar) y transmitir, por ejemplo, un libro de código o índice de tabla de consulta al decodificador que represente una envolvente en el dominio objetivo predefinida cercana a la envolvente en el dominio objetivo calculada. El decodificador, que tiene el mismo libro de código o tabla de consulta que el codificador puede derivar la envolvente en el dominio del tiempo objetivo usando el índice del libro de código recibido.
En un entorno de mejora de ancho de banda, la envolvente de la representación decodificada centralmente de la señal de audio puede ser una buena aproximación a la envolvente en el dominio del tiempo objetivo original.
La mejora de ancho de banda cubre cualquier forma de mejora de ancho de banda de una señal procesada en comparación con el ancho de banda de una señal de entrada antes del procesamiento. Una forma de mejora de ancho de banda es una implementación de llenado de huecos, tal como el Llenado de Huecos Inteligente tal como se da a conocer, por ejemplo, en el documento WO2015010948 o el llenado de huecos semiparamétrico, donde los huecos espectrales en una señal de entrada se llenan o “se mejoran” por otras partes espectrales de la señal de entrada con o sin la ayuda de información paramétrica transmitida. Una forma adicional de mejora de ancho de banda es la replicación de banda espectral (SBR) tal como se usa en HE-AAC (MPEG 4) o procedimientos relacionados, donde se genera una banda por encima de una frecuencia cruzada por el procesamiento. En contraste con la implementación de llenado de huecos, el ancho de banda de la señal central en SBR es limitado, mientras que las implementaciones de llenado de huecos tienen una señal central de banda completa. Por tanto, la mejora de ancho de banda representa una extensión de ancho de banda a frecuencias más altas que una frecuencia cruzada o una extensión de ancho de banda a huecos espectrales ubicados, con respecto a la frecuencia, por debajo de una frecuencia máxima de la señal central.
Además, en un entorno de separación de fuentes, la envolvente en el dominio del tiempo objetivo puede ser aproximada. Esto puede ser relleno con ceros hasta una posición inicial de un transitorio o usando comienzos (diferentes) como una aproximación o una estimación aproximada de la envolvente en el dominio del tiempo objetivo. En otras palabras, una envolvente en el dominio del tiempo objetivo aproximada puede derivarse de la envolvente en el dominio del tiempo actual de la señal en el dominio del tiempo intermedia forzando la envolvente en el dominio del tiempo actual a cero desde el principio de la trama o parte de la señal de audio hasta la posición inicial de un transitorio. Según realizaciones adicionales, la envolvente en el dominio del tiempo actual se modula (por amplitud) por uno o más comienzos (predefinidos). El comienzo puede fijarse por (todo) el procesamiento de la señal de audio o, en otras palabras, elegirse una vez antes de (o para) el procesamiento de la primera trama (de tiempo) o parte de la señal de audio.
La (aproximación o estimación) de la envolvente en el dominio del tiempo objetivo puede usarse para formar una forma de la señal de audio procesada, por ejemplo, usando la modulación o multiplicación de amplitud, de manera que la señal de audio procesada tenga al menos una aproximación de la envolvente en el dominio del tiempo objetivo. Sin embargo, la envolvente espectral de la señal de audio procesada se determina por la secuencia de tramas en el dominio de la frecuencia, puesto que la envolvente en el dominio del tiempo objetivo comprende principalmente componentes de baja frecuencia cuando se compara con el espectro de la secuencia de tramas en el dominio de la frecuencia, de manera que la mayoría de frecuencias permanece sin cambios.
La figura 2 muestra un diagrama de bloques esquemático del aparato 2 según una realización adicional. El aparato de la figura 2 muestra un calculador de fase 8 que comprende un procesador de iteración 16 para realizar un algoritmo iterativo para calcular, partiendo de los valores de fase iniciales 18, los valores de fase 10 para los valores espectrales usando un objetivo de optimización que requiere consistencia de bloques de superposición en el intervalo de superposición. Además, el procesador de iteración 16 se configura para usar, en una etapa de iteración adicional, una estimación de fase actualizada 20, dependiendo de la envolvente en el dominio del tiempo objetivo. En otras palabras, el cálculo de los valores de fase 10 puede realizarse usando un algoritmo iterativo realizado por el procesador de iteración 16. Por tanto, los valores de magnitud de la secuencia de tramas en el dominio de la frecuencia pueden conocerse y permanecer sin cambios. Partiendo del valor de fase inicial 18, el procesador de iteración puede actualizar iterativamente los valores de fase por valores espectrales usando, después de cada iteración, una estimación de fase actualizada 20 para realizar las iteraciones.
El objetivo de optimización puede ser, por ejemplo, un número de iteraciones. Según realizaciones adicionales, el objetivo de optimización puede ser un umbral, donde los valores de fase se actualizan únicamente en un grado menor cuando se comparan con los valores de fase de una etapa de iteración anterior, o el objetivo de optimización puede ser una diferencia de la magnitud constante (inicial) de la secuencia de tramas en el dominio de la frecuencia cuando se compara con la magnitud de los valores espectrales después un proceso de iteración. Por tanto, los valores de fase pueden mejorarse o actualizarse de manera que un espectro de frecuencia individual de esas partes de tramas de la señal de audio sean iguales a o difieran al menos únicamente en un grado menor. En otras palabras, todas las partes de trama de las tramas superpuestas de la señal de audio que se superponen entre sí deberían tener la misma o una representación de frecuencia similar.
Según realizaciones, el calculador de fase se configura para realizar el algoritmo iterativo según el procedimiento de reconstrucción de señal iterativo de Griffin y Lim. Se muestran realizaciones adicionales (más detalladas) con respecto a las siguientes figuras. En ellas, el procesador de iteración se subdividirá o se reemplazará por una secuencia de bloques de procesamiento, a saber, el convertidor de frecuencia a tiempo 22, el modulador de amplitud 24 y el convertidor de tiempo a frecuencia 26. Por conveniencia, el procesador de iteración 16 usualmente se señala (no explícitamente) en las figuras adicionales, sin embargo, los bloques de procesamiento mencionados anteriormente realizan las mismas operaciones que el procesador de iteración 16, o el procesador de iteración supervisa o verifica la condición de finalización (o condición de salida) del procesamiento iterativo, tal como, por ejemplo, el objetivo de optimización. Además, el procesador de iteración puede realizar las operaciones según un procesamiento en el dominio de la frecuencia mostrado, por ejemplo, con respecto a la figura 4 y la figura 7.
La figura 3 muestra el aparato 2 según una realización adicional en un diagrama de bloques esquemático. El aparato 2 comprende un convertidor de frecuencia a tiempo 22, un modulador de amplitud 24, y un convertidor de tiempo a frecuencia 26, en el que la conversión de frecuencia a tiempo y/o la conversión de tiempo a frecuencia puede realizar un procedimiento de superposición y adición. El convertidor de frecuencia a tiempo 22 puede calcular una reconstrucción en el dominio del tiempo intermedia 28 de la señal de audio 4 de la secuencia de tramas en el dominio de la frecuencia 12 y una estimación del valor de fase inicial 18 o estimaciones de valor de fase 10 de una etapa de iteración anterior. El modulador de amplitud 24 puede modular la reconstrucción en el dominio del tiempo intermedia 28 usando la (información sobre) la envolvente en el dominio del tiempo objetivo 14 para obtener una señal de audio modulada por amplitud 30. Además, el convertidor de tiempo a frecuencia se configura para convertir la señal modulada por amplitud 30 en una secuencia adicional de tramas en el dominio de la frecuencia 32 que tienen valores de fase 10. Por tanto, el calculador de fase 8 se configura para usar, para una etapa posterior de iteración, los valores de fase 10 (de la secuencia adicional de tramas en el dominio de la frecuencia) y los valores espectrales de la secuencia de tramas en el dominio de la frecuencia (que no es la secuencia adicional de tramas en el dominio de la frecuencia). En otras palabras, el calculador de fase usa valores de fase actualizados de la secuencia adicional de tramas en el dominio de la frecuencia 32 después de cada etapa de iteración. Los valores de magnitud de la secuencia adicional de tramas en el dominio de la frecuencia pueden descartarse o no usarse para el procesamiento adicional. Además, el calculador de fase 8 usa valores de magnitud de la secuencia (inicial) de tramas en el dominio de la frecuencia 12, puesto que se supone que los valores de magnitud ya están (perfectamente) reconstruidos.
De manera más general, el calculador de fase 8 se configura para aplicar una modulación de amplitud, por ejemplo, en el modulador de amplitud 22, a una reconstrucción en el dominio del tiempo intermedia 28 de la señal de audio 4, basándose en la envolvente en el dominio del tiempo objetivo 14. La modulación de amplitud puede realizarse usando la modulación de banda lateral única, modulación de banda lateral doble con o sin transmisión del portador suprimido o usando una multiplicación de la envolvente en el dominio del tiempo objetivo con la reconstrucción en el dominio del tiempo intermedia de la señal de audio. La estimación del valor de fase inicial puede ser un valor de fase de la señal de audio, un valor (arbitrario) elegido tal como, por ejemplo, cero, un valor aleatorio, o una estimación de una fase de una banda de frecuencia de la señal de audio, o una fase de una fuente de la señal de audio, por ejemplo, cuando se usa la separación de fuentes de audio.
Según realizaciones adicionales, el calculador de fase 8 se configura para emitir la reconstrucción en el dominio del tiempo intermedia 28 de la señal de audio 4 como la señal de audio procesada 6, cuando se cumple una condición de determinación de iteración (por ejemplo, la condición de finalización de iteración). La condición de determinación de iteración puede ser estrechamente relacionada con el objetivo de optimización y puede definir una desviación máxima del objetivo de optimización a un valor de optimización actual. Además, la condición de determinación de iteración puede ser un número (máximo) de iteraciones, una desviación (máxima) de una magnitud de la secuencia adicional de tramas en el dominio de la frecuencia 32 cuando se compara con la magnitud de la secuencia de tramas en el dominio de la frecuencia 12, o un esfuerzo de actualización (máximo) de los valores de fase 10, entre una trama actual y una anterior.
La figura 4 muestra un diagrama de bloques esquemático del aparato 2 según una realización, que puede ser una realización alternativa cuando se compara con la realización de la figura 3. El calculador de fase 8 se configura para aplicar una convolución 34 de una representación espectral 14' de al menos una envolvente en el dominio del tiempo objetivo 14 y al menos una representación en el dominio de la frecuencia intermedia, o partes o bandas seleccionadas o únicamente una parte de paso alto o únicamente varias partes de paso de banda de al menos una envolvente en el dominio del tiempo objetivo 14 o al menos una representación en el dominio de la frecuencia intermedia 28' de la señal de audio 4. En otras palabras, el procesamiento de la figura 3 puede realizarse en el dominio de la frecuencia en lugar de en el dominio del tiempo. Por tanto, la envolvente en el dominio del tiempo objetivo 14, de manera más específica, una representación de frecuencia 14' de la misma, puede aplicarse a la representación en el dominio de la frecuencia intermedia 28' usando convolución en lugar de modulación por amplitud. Sin embargo, la idea es usar nuevamente la magnitud (original) de la secuencia de tramas en el dominio de la frecuencia para cada iteración y, además, después de usar el valor de fase inicial 18 en una primera etapa de iteración, usar estimaciones de valor de fase actualizadas 10 por cada etapa de iteración adicional. En otras palabras, el calculador de fase se configura para usar valores de fase 10 obtenidos por la convolución 34 como estimaciones del valor de fase actualizada para la siguiente etapa de iteración. Además, el aparato puede comprender un convertidor de envolvente objetivo 36 para convertir la envolvente en el dominio del tiempo objetivo al dominio espectral. Además, el aparato 2 puede comprender un convertidor de frecuencia a tiempo 38 para calcular la reconstrucción en el dominio del tiempo 28 a partir de la reconstrucción en el dominio de la frecuencia intermedia 28' usando las estimaciones de valor de fase 10 obtenidas de una etapa de iteración más reciente y la secuencia de tramas en el dominio de la frecuencia 12. En otras palabras, la representación en el dominio de la frecuencia intermedia 28' puede comprender valores de magnitud de la secuencia de tramas en el dominio de la frecuencia y un valor de fase 10 de las estimaciones del valor de fase actualizadas. La reconstrucción en el dominio del tiempo 28 puede ser la señal de audio procesada 6 o al menos una parte de la señal de audio procesada 6. La parte puede relacionarse, por ejemplo, con un número reducido de bandas de frecuencia cuando se compara con un número total de bandas de frecuencia de la señal de audio procesada o la señal de audio 4.
Según realizaciones adicionales, el calculador de fase 8 comprende un procesador de convolución 40. El procesador de convolución 40 puede aplicar un núcleo de convolución, un núcleo de desplazamiento y/o una operación de trama de adición al centro para obtener la representación en el dominio de la frecuencia intermedia 28' de la señal de audio 4. En otras palabras, el procesador de convolución puede procesar la secuencia de tramas en el dominio de la frecuencia 12, en la que el procesador de convolución 40 puede configurarse para aplicar un dominio de la frecuencia equivalente a un procedimiento de superposición y adición en el dominio del tiempo a la secuencia de tramas en el dominio de la frecuencia 12 en el dominio de la frecuencia para determinar la reconstrucción en el dominio de la frecuencia intermedia. Según realizaciones adicionales, el procesador de convolución se configura para determinar, basándose en una trama en el dominio de la frecuencia actual, una parte de las tramas en el dominio de la frecuencia adyacentes que contribuye a la trama en el dominio de la frecuencia actual después de realizarse la superposición y adición en el dominio del tiempo en el dominio de la frecuencia. Además, el procesador de convolución 40 puede determinar adicionalmente una posición de superposición de la parte de la trama en el dominio de la frecuencia adyacente dentro de la trama en el dominio de la frecuencia actual y realizar una adición de las posiciones de las tramas en el dominio de la frecuencia adyacentes con la trama en el dominio de la frecuencia actual en la posición de superposición. Según una realización adicional, el procesador de convolución 40 se configura para transformar de tiempo a frecuencia una ventana de síntesis en el dominio del tiempo y análisis en el dominio del tiempo para determinar una parte de una trama en el dominio de la frecuencia adyacente, que contribuye a la trama en el dominio de la frecuencia actual después de realizarse la superposición y adición en el dominio del tiempo en el dominio de la frecuencia. Además, el procesador de convolución se configura además para desplazar la parte de la trama en el dominio de la frecuencia adyacente a una posición de superposición dentro de la trama en el dominio de la frecuencia actual y para aplicar la parte de la trama en el dominio de la frecuencia adyacente a la trama actual en la posición de superposición.
En otras palabras, el procedimiento en el dominio del tiempo mostrado en la figura 3 puede transferirse (transformarse, aplicarse o convertirse) al dominio de la frecuencia. Por tanto, las ventanas de síntesis y análisis del convertidor de frecuencia a tiempo 22 y el convertidor de tiempo a frecuencia 26 pueden transferirse (transformarse, aplicarse o convertirse) al dominio de la frecuencia. La representación en el dominio de la frecuencia (resultante) de las ventanas de síntesis y análisis determina (o corta) partes de tramas adyacentes a una trama actual que se habría superpuesto en un procedimiento de superposición y adición en el dominio del tiempo. Además, las partes cortadas se desplazan a una posición correcta dentro de la trama actual y se agregan a la trama actual de manera que la transformación de frecuencia a tiempo y la transformación de tiempo a frecuencia en el dominio del tiempo se realicen en el dominio de la frecuencia. Esto es ventajoso, puesto que una transformación de señal explícita puede desatenderse o no realizarse, lo que puede aumentar la eficiencia computacional del calculador de fase 8 y el aparato 2.
La figura 5 muestra un diagrama de bloques esquemático del aparato 2 según una realización adicional que se centra en la reconstrucción de señal de canales o bandas separados de la señal de audio 4. Por tanto, la señal de audio 4 en el dominio del tiempo puede transformarse a la secuencia de tramas en el dominio de la frecuencia 12 que representan tramas superpuestas de la señal de audio 4 usando un convertidor de tiempo-frecuencia, por ejemplo, una STFT 42. Por tanto, un estimador de magnitud modificada 44' puede derivar una magnitud 44 de la secuencia de tramas en el dominio de la frecuencia o componentes o señales componentes de la secuencia de tramas en el dominio de la frecuencia. Además, puede calcularse una estimación de fase inicial 18 a partir de la secuencia de tramas en el dominio de la frecuencia 12 usando un estimador de fase inicial 18' o el estimador de fase inicial 18' puede elegir, por ejemplo, una estimación de fase arbitraria 18, que no se deriva de la secuencia de tramas en el dominio de la frecuencia 12. Basándose en la magnitud 44 de la secuencia de tramas en el dominio de la frecuencia 12 y la estimación de fase inicial 18, puede calcularse una MSTFT 12' como una secuencia inicial de tramas en el dominio de la frecuencia 12'' que tienen una magnitud (perfectamente) reconstruida 44 que permanece sin cambios en el procesamiento adicional, y únicamente una estimación de fase inicial 18. La estimación de fase inicial 18 se actualiza usando el calculador de fase 8.
En una etapa adicional, el convertidor de frecuencia a tiempo 22, por ejemplo, una STFT inversa (ISTFT), puede calcular la reconstrucción en el dominio del tiempo intermedia 28 de la secuencia (inicial) de tramas en el dominio de la frecuencia 12''. La reconstrucción en el dominio del tiempo intermedia 28 puede modularse por amplitud, por ejemplo, multiplicarse, con una envolvente objetivo o, de manera más precisa, la envolvente en el dominio del tiempo objetivo 14. El convertidor de tiempo a frecuencia 26, por ejemplo, una STFT, puede calcular la secuencia adicional de tramas en el dominio de la frecuencia 32 que tiene valores de fase 10. La MSTFT 12' puede usar el estimador de fase actualizado 10 y la magnitud 44 de la secuencia de tramas en el dominio de la frecuencia 12 en una secuencia actualizada de tramas en el dominio de la frecuencia. Este algoritmo iterativo puede realizarse o repetirse L veces dentro de, por ejemplo, el procesador de iteración 16, que puede realizar las etapas de procesamiento mencionadas anteriormente del calculador de fase 8. Por ejemplo, después de completar el procedimiento de iteración, la reconstrucción en el dominio del tiempo 28'' se deriva de la reconstrucción en el dominio del tiempo intermedia 28.
En otras palabras, a continuación, se muestra el modelo de anotación y señal y se describe el método de reconstrucción de señal empleado. Posteriormente, se muestra una extensión para la conservación transitoria en el método LSEE-MSTFTM en relación con un ejemplo ilustrativo.
La señal en el dominio del tiempo discreta con valores reales % : Z —> R se considera una mezcla de señales componentes concurrentes. Un objetivo es descomponer x en una señal objetivo transitoria : 7L —> K y una señal componente residual X1 : Z —> 3R de manera que
X ~ X t X T. (V)
Obsérvese que la descomposición se plantea como una aproximación, puesto que el enfoque es sobre la calidad perceptual mejorada de la señal transitoria x* y se acepta que la superposición dex*yxr puede no producir exactamente la x original. Por el momento, se supone que x* contiene precisamente un transitorio, cuya posición temporal n-0 £ ¿ se conoce. Dejando que x (m , k) con ^ ^ "~A sea un compartimiento de TF de valor complejo a la m-ésima trama de tiempo y k-ésimo coeficiente espectral de una Transformación de Fourier de Tiempo Reducido (STFT). El coeficiente se calcula por
N - l
X(m.k) x (n + mH)w(n)exp(-2nikn/N),
Figure imgf000010_0001
donde ^ • fO I JV l | —> R es una función de ventana adecuada de tamaño de bloque N í f j y f f € N es el parámetro de tamaño de salto. Por simplicidad, también puede escribirse como x = STFT(x). De x, se derivan el espectrograma de magnitud ^ y el espectrograma de fase <p como:
Figure imgf000010_0002
yp(m , k ) : = Z X ( m , k ) (4’)
con 0(m,k) e [0, 2n). Se supone que, a través de algún procedimiento de separación de fuentes adecuado, es posible la estimación de STFT (MSTFT) X modificada, que representa la señal componente transitoria. Más específicamente, se ajusta
X 1 A 1 O exp(¿y?t )i
cuando A y <p son estimaciones de la magnitud, espectrograma de fase de resp. y el operador Q indica la multiplicación por elementos La reconstrucción en el dominio del tiempo de X se logra aplicando primero la Transformación de Fourier Discreta inversa (DFT) a cada trama espectral, produciendo un conjunto de señales de
tiempo intermedias ym, m ^ definidas por
Figure imgf000010_0003
error por mínimos cuadrados como
X(«) := Entesé»(n - mH)w(n - mH)
Emez w (n -m H )2 ’ (g')
n € Z , donde la ventana de análisis w se reutiliza como ventana de síntesis. Por simplicidad, este procedimiento se indica como x‘ := iSTFTX*) (denominado LSEE-MSTFT en [8]).
Puesto que la estimación para X se obtiene en el dominio de TF (tiempo-frecuencia), no puede suponerse que xt es una señal consistente. En la práctica, es probable encontrar manchado transitorio y pre-ecos en xt. Esto es especialmente verdadero para N grande. Para remediar este problema, se propone retinar iterativamente X Por el
siguiente procedimiento, donde se introduce el índice de iteración ^ ~ 0 ,1 , 2 , .. . L C N y se usa la ubicación transitoria dada n0. Dado A* y 0(O), la estimación de MSTFT inicial del componente de señal transitoria se introduce como
( * t)(0) := A 10 exp(¡V(0))
y se repiten las siguientes etapas para l = 0, 1, 2, ... L
1. (x‘)(<:+1) := iSTFT ((X)m) mediante (5') y (6')
2. Imponer (x*)(t+1)(n) := 0 para W £ Z i n < no
3. 0(t+1):=zSTFT((xt)(t+1)) mediante (2') y (4')
4.
I. ( X ' f 1) : = ¿ t ©exp(tv><<+1>)
La realización de la figura 5 puede describirse de manera más general, usando las señales componentes indicadas
con 1 * x 4 '- lc p en l lu n g a r r da e l las señ a l le s t trra n s i itto r r iia s d e sc r riitta s al l n p rriinn ci ipni ion i ind i incadas n con X A *i t . En general, con respecto a todas las realizaciones descritas, las señales indicadas por un subíndice c pueden reemplazarse por la señal correspondiente indicada por un superíndice t y al contrario. El subíndice c indica una señal componente en la que el superíndice t indica una señal transitoria, que puede ser una señal componente. No obstante, una señal que tiene el superíndice t también puede reemplazarse por la señal (más general) que tiene el subíndice c. Las realizaciones descritas con respecto a las señales transitorias no se limitan a la señal transitoria y, por tanto, pueden aplicarse a
cualquier otra señal componente. Por ejemplo, X x A*ix n puede r rpe pe m p nl lafl7z a n rs ;ep n pnor r A ^ u . , y viceversa.
Figure imgf000011_0002
Figure imgf000011_0001
se considera una mezcla lineal
C £ N señales componentes xc correspondientes a fuentes individuales (por ejemplo, instrumentos). Tal como se muestra en la figura 10a, cada señal componente contiene al menos un evento de audio transitorio producido por el instrumento correspondiente (en el presente caso a modo de ejemplo, golpeando un tambor). Además, se supone que está disponible una transcripción simbólica que especifica el tiempo de comienzo (es decir, la posición transitoria) y el tipo de instrumento para cada uno de los eventos de audio. De esa transcripción, se deriva el número total de eventos de comienzo S así como el número de instrumentos únicos C. Un objetivo es extraer señales componentes individuales xc de la mezcla x tal como se muestra en la figura 10. Para propósitos de evaluación, se supone que tiene las señales componentes "oráculos" (es decir, verdaderas) xc disponibles. x se descompone en el dominio de TF, con este fin se emplea la STFT como sigue. Dejando que x (m, k) sea un coeficiente de TF de valor complejo a la m-ésima trama y el k-ésimo compartimiento espectral. El coeficiente se calcula por
X(m ,k ) := ^ 2 x (u + tnH)w(n) e\p(-2-nikn/N), (1)
donde : : M a es una función de ventana adecuada de tamaño de bloque ^ ^ y H £ N es el parámetro de tamaño de salto. El número de compartimientos de frecuencia es K = N/2 y el número de tramas espectrales M e [1 : M] se determina por las muestras de señal disponibles. Por simplicidad, puede escribirse como x = STFT(x). Tras [2], x se considera una STFT consistente puesto que es un conjunto de números complejos que se ha obtenido de la señal en el dominio del tiempo real x mediante (1). En contraste, una STFT inconsistente es un conjunto de números completos que no se obtuvo de una señal en el dominio del tiempo real. De x, se derivan el espectrograma de magnitud ^ y el espectrograma de fase 0 como
A{m, k) : = \X(m, fc )|, (2 )
(p(m, k) := ¿X(m, k), (3 )
con 0(m, k) e [0,2n).
Dejando que
V := A 1 G R£o* AÍ
sea una matriz no negativa que tiene una versión transpuesta del espectrograma de magnitud de la mezcla Un objetivo es descomponer V en espectrogramas de magnitud componente Vc que corresponden a los diferentes instrumentos tal como se muestra en la figura 10b. Por el momento, se supone que algún estimador de oráculo extrae el deseado.
Figure imgf000012_0001
Un posible enfoque para estimar las magnitudes componentes usando una técnica de descomposición del estado de la técnica se describirá más adelante. Con el fin de reconstruir una señal componente específica xc, se ajusta
Figure imgf000012_0002
donde
A - V¡T
y 0c es una estimación del espectrograma de fase componente. Es una práctica común usar la información de fase de la mezcla 0 como una estimación para 0c e invertir la MSTFT resultante mediante el método de reconstrucción de LSEE-MSTFT de [1]. El método aplica primero la Transformación de Fourier Discreta inversa (DFT) a cada marco espectral en Xc, produciendo un conjunto de señales de tiempo intermedias ym, con m e [0: M - 1], definida por
(4)
para n e [0 : N - 1] y ym{n) :=
Figure imgf000012_0003
reconstrucción de error por mínimos cuadrados se logra por
_ EmeZ Vm(n - m H ) w { n - m H )
(5)
{ ) ' E mez w (n ~ m H )2
C 7
f donde la ventana de análisis w se reutiliza como ventana de síntesis. Por simplicidad, el procedimiento se indica como Xc = iSTFT(X c) (denominado LSEE-MSTFT en [1]).
Puesto que la Xc de MSTFT se construye en el dominio de TF, tiene que suponerse que puede ser una STFT inconsistente, es decir, que puede no existir una señal en el dominio del tiempo real Xc que cumpla Xc = STFT(X c). Hablando de manera intuitiva, la interrelación compleja entre la magnitud y fase se corrompe probablemente tan pronto la magnitud en ciertos compartimientos de TF se modifica. En la práctica, esta inconsistencia puede llevar a manchado transitorio y pre-ecos en X c, especialmente para N grande.
Para remediar este problema, se propuso minimizar iterativamente la inconsistencia de Xc por la siguiente extensión del procedimiento LSEE-MSTFTM del procedimiento [1]. Por el momento, puede suponerse que Xc contiene precisamente un evento de comienzo transitorio, cuya ubicación exacta en el tiempo no se conoce. Ahora, se introduce el índice de iteración ^ — 0 ,1 , 2 , ... L £ N . Dado Ac y alguna estimación de fase inicial (0c )(0), la estimación de STFT inicial de la señal componente objetivo
(Xc){0) : = A 0 exp(¿(^c)<°>)
se introduce y se repiten las siguientes etapas para i = 0, 1,2, ... L.
1. (x C)(M) iSTFT ((Xc)(l)) mediante (4) y (5)
2. Imponer. ( X c f^ n ) := 0 para
Figure imgf000013_0001
3. (0 c)(t+1) := z STFT ((x c)(l+1)) mediante (1) y (3)
4.
Figure imgf000013_0002
Según realizaciones, un punto ventajoso de los métodos descritos, el codificador o decodificador es la etapa intermedia 2, que impone restricciones transitorias en el procedimiento LSEE-MSTFTM.
Las figuras 6a-d muestran un diagrama esquemático de la restauración transitoria según una realización que indica una señal en el dominio del tiempo 46, una envolvente de señal analítica 48, y una ubicación transitoria 50. La figura 6 ilustra el método o aparato propuesto con la señal componente objetivo 46, superpuesta con la envolvente de su señal analítica 48 en la figura 6a. La señal a modo de ejemplo presenta comportamiento transitorio o componente de señal transitoria alrededor de n050 cuando la forma de onda se convierte de silencio a una onda sinusoidal o sinusoide que decrece exponencialmente. La figura 6b muestra la reconstrucción en el dominio del tiempo obtenida de la iSTFT con (0c)(0) = 0 (es decir, fase cero para todos los compartimientos de TF). A través de interferencia destructiva de las tramas superpuestas, el transitorio se destruye completamente, la amplitud del sinusoide se disminuye fuertemente y la envolvente parece casi plana. La figura 6c muestra la reconstrucción con una mancha transitoria pronunciada después de L = 200 iteraciones de LSEE-MSTFTM. La figura 6d muestra que el transitorio restaurado después de L = 200 iteraciones del método propuesto es mucho más cercana a la señal original. Son visibles pequeñas ondulaciones en la envolvente por encima de n0, pero en general la restauración es mucho más cercana a la señal original. En grabaciones reales, usualmente existen múltiples eventos de comienzo transitorios por toda la señal. En este caso, puede aplicarse el método propuesto a extractos de señal ubicados entre transitorios consecutivos (comienzos de resp.) tal como se muestra en la figura 9.
La figura 7 muestra un diagrama de bloque esquemático del aparato 2 según una realización adicional. De manera similar a la figura 4, el calculador de fase realiza el cálculo de fase en el dominio de la frecuencia. El procesamiento en el dominio de la frecuencia puede ser igual al procesamiento en el dominio del tiempo descrito con respecto a la realización mostrada en la figura 5. De nuevo, la señal en el dominio del tiempo 4 puede transformarse por tiempofrecuencia usando la STFT (ejecutora) 42 para derivar la secuencia de tramas en el dominio de la frecuencia 12. Por tanto, un estimador de magnitud modificada 44' puede derivar la magnitud modificada 44 de la secuencia de tramas en el dominio de la frecuencia 12. El estimador de fase inicial 18' puede derivar la estimación de fase inicial 18 de la secuencia de tramas en el dominio de la frecuencia o puede proporcionar, por ejemplo, una estimación de fase inicial arbitraria. Usando la estimación de magnitud modificada y la estimación de fase inicial, la MSTFT 12' calcula o determina la secuencia inicial de tramas en el dominio de la frecuencia 12'', que recibirán valores de fase actualizados después de cada etapa de iteración. Diferente a las realizaciones de la figura 5 es la secuencia (inicial) de tramas en el dominio de la frecuencia 12'' en el calculador de fase 8. Basándose en la síntesis en el dominio del tiempo y las ventanas de análisis, por ejemplo, la ventana de síntesis y análisis usada en la ISTFT 22 o la STFT 26 en la figura 5, un calculador del núcleo de convolución 52' puede calcular el núcleo de convolución 52 usando una representación en el dominio de la frecuencia de las ventanas de síntesis y análisis. El núcleo de convolución corta (secciona o usa) parte de tramas vecinas o adyacentes de una trama en el dominio de la frecuencia actual que se superpondría con la trama actual usando superposiciones y adiciones en la ISTFT 22. Un calculador de desplazamiento de núcleo 54' puede calcular un núcleo de desplazamiento 52 y aplicar el núcleo de desplazamiento 52 a las partes de las tramas en el dominio de la frecuencia adyacentes para desplazar esas partes a una posición de superposición correcta de una trama en el dominio de la frecuencia actual. Esto puede imitar la operación de superposición del procedimiento de superposición y adición de la ISTFT 22. Además, el bloque 56 realiza la adición del procedimiento de superposición y adición y agrega las partes superpuestas de las tramas adyacentes al periodo de trama central. El cálculo y la aplicación del núcleo de convolución, el cálculo y la aplicación del núcleo de desplazamiento y la adición en el bloque 56 pueden efectuarse en el procesador de convolución 40. La salida del procesador de convolución 40 puede ser una reconstrucción en el dominio de la frecuencia intermedia 28' de la secuencia de tramas en el dominio de la frecuencia 12 o la secuencia inicial de tramas en el dominio de la frecuencia 12''. La reconstrucción en el dominio de la frecuencia intermedia 28' puede convolucionarse (por tramas) con una representación en el dominio de la frecuencia de la envolvente objetivo 14 usando la convolución 34. La salida de la convolución 34 puede ser la secuencia adicional de tramas en el dominio de la frecuencia 32' que tienen valores de fase 10. Los valores de fase 10 reemplazan la estimación de fase inicial 18 en la MSTFT 12' en la etapa de iteración adicional. La iteración puede realizarse L veces usando el procesador de iteración 15. Después de detener el proceso de iteración, o en un cierto punto del tiempo dentro del procedimiento de iteración, puede derivarse una reconstrucción en el dominio de la frecuencia final 28''' del procesador de convolución 40. La reconstrucción en el dominio de la frecuencia final 28''' puede ser la reconstrucción en el dominio de la frecuencia intermedia 28' de una etapa de iteración más reciente. Usando un convertidor de frecuencia a tiempo 38, por ejemplo, una ISTFT, puede obtenerse la reconstrucción en el dominio del tiempo 28'' que puede ser la señal de audio procesada 6.
En otras palabras, es ventajoso aplicar una etapa intermedia en la iteración del LSEE-MSTFTM. Puede imponerse que todas las muestras por encima del transitorio sean cero antes de calcular la STFT de nuevo para obtener una estimación actualizada de las fases 0(M). Esta restricción también puede imponerse directamente en el dominio de TF. Por tanto, ajustar algunos prerrequisitos puede ser ventajoso. Primero, la normalización para la suma de las funciones de ventana desplazada en el tiempo y cuadrada en el denominador (6) puede omitirse imponiendo determinadas restricciones sobre w y H (por ejemplo, usando una ventana de Hann simétrica y requiriendo que la redundancia Q = N/H sea de raíz 4 [2]). El número de compartimientos espectrales únicos (hasta la conjugación) por trama es de K = N/2 y se evalúa el argumento de frecuencia para k e [-K : K]. Centrándose por el momento en una sola trama espectral, la operación de aplicación exitosa de isTFT y STFT puede expresarse de nuevo en el dominio de TF como una superposición de contribuciones espectrales ponderadas de las tramas anteriores y posteriores. Únicamente es necesario considerar las tramas que se superponen con la central. Esto se expresa por un índice de trama vecina q e [-(Q - 1) : (Q - 1)]. Se construyen dos núcleos de TF, siendo el primero un núcleo de convolución
Figure imgf000014_0001
que captura la DFT del producto por elementos de la ventana de síntesis con una versión truncada o desplazada en el tiempo de la ventana de análisis. El segundo núcleo es uno multiplicativo
Figure imgf000014_0002
que es necesario para desplazar la contribución de tramas vecinas a la posición correcta dentro de la trama central. Los núcleos se aplican a cada compartimiento de TF en sucesión
Figure imgf000014_0003
Ahora puede incluirse la restauración transitoria propuesta de una manera simple por una segunda operación de convolución que únicamente necesita aplicarse a tramas en las que se ubica no. Los núcleos de convolución correspondientes pueden tomarse por tramas de la STFT de una función del lado pesado desplazada apropiadamente
Figure imgf000014_0004
Obsérvese que, además de usar esta función formada por la etapa, se propone usar la STFT de señales de envolvente de amplitud en el dominio del tiempo de envolvente formada arbitrariamente. Se declara que puede imponerse una amplia gama de restricciones de reconstrucción a través de la modulación de señal apropiada en el dominio del tiempo, la convolución respectiva en el dominio de TF.
Tal como se muestra en [4], la carga computacional de aplicación de los operadores en el dominio de la frecuencia puede reducirse truncando el núcleo de convolución a a un número más pequeño de coeficientes centrales. Esto está motivado heurísticamente por la observación, de que los coeficientes más pronunciados se ubican alrededor de k = 0. Los experimentos han mostrado que la reconstrucción de TF todavía es muy cercana a la reconstrucción en el dominio del tiempo si se trunca a en la dirección de la frecuencia hacia k e [-3 : 3]. Además, a es el hermitiano si las funciones de ventana se eligen apropiadamente. Basándose en estas simetrías complejas conjugadas, pueden ahorrarse las multiplicaciones complejas y, por tanto, la potencia de procesamiento. Además, no es necesario considerar una actualización de fase de cada compartimiento de frecuencia. En su lugar, puede seleccionarse una fracción de los compartimientos que presenten la magnitud más grande y aplicar (9') únicamente a esas, puesto que dominarán la reconstrucción. Tal como se mostrará, una primera suposición razonable para la información de fase también ayudará a acelerar la convergencia de la reconstrucción.
Para la evaluación, la reconstrucción de LSEE-MSTFTM convencional (indicada como GL) se compara con el método propuesto (indicado como TR) bajo dos estrategias de inicialización diferentes para (x*)*01. A continuación, se describen el conjunto de datos usado, la generación del elemento de prueba y las métricas de evaluación usadas.
En todos los experimentos, se usa el conjunto de datos “ IDMT-SMT-Drums” disponible al público. En el subconjunto “WaveDrum02”, existen 60 bucles de tambor, cada uno dado como grabaciones de pista individuales perfectamente aisladas (es decir, señales componentes de oráculo) de los tres instrumentos, bombo, caja y charles. Todas las grabaciones de 3x60 están en el formato PCM WAV no comprimido con una velocidad de muestreo de 44:1 kHz, 16 bits, mono. Mezclando las tres pistas individuales juntas, se obtienen 60 señales de mezcla. Adicionalmente, los tiempos de comienzo y, por tanto, la aproximación n0 de todos los comienzos están disponibles por instrumento individual. Usando esta información, se construye un conjunto de prueba de 4421 eventos de comienzo de tambor tomando extractos de las mezclas, cada uno ubicado entre comienzos consecutivos del instrumento objetivo. Haciendo esto, N muestras delante de cada extracto se rellenan con ceros. Lo racional es anteponer deliberadamente una sección de silencio enfrente de la posición transitoria local. Dentro de esa sección, puede descartarse la influencia de descomposición de los comienzos de nota anteriores y pueden medirse los pre-ecos que se produzcan potencialmente. A su vez, esto conduce a un desplazamiento virtual de la ubicación transitoria local a n0 + N (que se indica nuevamente como n0 por conveniencia notacional).
La figura 8 muestra un diagrama en el dominio del tiempo esquemático que ilustra un segmento o trama de una señal de audio o elemento de prueba. La figura 8 muestra la señal de mezcla 61a, la señal de charles objetivo 61b, la reconstrucción usando LSEE-MSTFTM 61c comparada con la restauración transitoria 61d, ambas obtenidas después de 200 iteraciones aplicadas por extracto de comienzo 60, que es, por ejemplo, la sección entre las líneas discontinuas 60' y 60''. La señal de mezcla 61 a presenta claramente la influencia del bombo y caja a la señal de charles 61 b objetivo.
Las figuras 9a-c ilustran diagramas esquemáticos de diferentes señales componentes de charles de un bucle de tambor a modo de ejemplo. La posición transitoria n062 se indica por una línea continua, en la que los límites de extracto 60' y 60” se indican por líneas discontinuas. La figura 9a muestra una señal de muestra en la parte superior frente a una señal de charles de oráculo en la parte inferior. La figura 9b muestra una señal de charles obtenida a partir de la inicialización con la magnitud de oráculo y periodo de fase de cero. La reconstrucción después de L igual a 200 iteraciones de GL se muestra en la parte superior de la figura 9b frente a TR en la parte inferior de la figura 9b. La figura 9c muestra una señal de charles obtenida de la inicialización con magnitud basada en NMFD en el procesamiento basado en NMFD de fase cero como se describirá con respecto a (la memoria descriptiva) de las figuras 12-14. La reconstrucción después de L igual a 200 iteraciones de GL se presenta en la parte superior de la figura 9c y TR en la parte inferior de la figura 9c. Puesto que la descomposición funciona muy bien para el bucle de tambor a modo de ejemplo, casi no existe diferencia visual notable entre las figuras 9b y 9c.
La figura 10 muestra una ilustración esquemática de la señal. La figura 10a indica la señal de mezcla de x 64a como la suma de c = 3 señales componentes xc, conteniendo cada una secuencias de muestras de sonido de tambor sintéticos, por ejemplo, de una máquina de tambor Roland TR808. x164a'" indica un bombo, x264a" indica una caja y x364a' indica un charles. La figura 10b muestra una representación en el tiempo-frecuencia del espectrograma de magnitud de mezcla V y c = 3 espectrogramas de magnitud componente Vc . Para mejor visibilidad, el eje de frecuencia se remuestrea a la separación logarítmica y las magnitudes se han comprimido logarítmicamente. Además, las representaciones en el tiempo-frecuencia de las señales 64a se indican con el signo de referencia 64b. Además, en la figura 9, los límites de extracto ajustado se visualizan por líneas discontinuas y el n0 desplazado virtualmente por la línea continua. Puesto que los bucles de tambor son ritmos realistas, los extractos presentan diferentes grados de superposición con los instrumentos de percusión restantes tocados simultáneamente. En la figura 9a, la mezcla (parte superior) presenta influencia pronunciada del bombo en comparación con la señal de charles aislada (parte inferior). En comparación, los dos diagramas superiores en la figura 10a muestran un acercamiento en la versión de la mezcla x y el componente de charles x3 de la señal a modo de ejemplo usada. En el diagrama inferior, puede observarse el bombo x1 aislado. Se muestrea a partir de, por ejemplo, un ordenador de tambor Roland TR 808 y se asemeja a un sinusoide en descomposición.
A continuación, se mostrarán figuras de evaluación para diferentes escenarios de prueba, donde se usan dos casos de prueba para la inicialización de MSTFT. El caso 1 usa la estimación de fase inicial (0C)(0) := 0Mezcla y la estimación de magnitud fija
~4t; :— A, Oráculo
c
Según la anotación transitoria, el caso 1 usa la estimación de fase inicial de (0)(0): = ^Mezcla, y la estimación de magnitud fija
Figure imgf000015_0001
Dicho de otro modo, la información de fase de la señal separada o la señal parcial se toma de la fase de la señal de audio de mezcla, en lugar de, por ejemplo, una fase de la señal separada o la señal parcial. Además, el caso 2 usa la estimación de fase inicial (0c )(0) := 0 y la estimación de magnitud fija
Ac ■■= A, Oráculo
Según la anotación transitoria, el caso 2 es como la estimación de fase inicial ($)(0): = 0 y la estimación de magnitud fija
Figure imgf000016_0001
En el presente documento, la estimación de fase inicial se inicializa usando el valor (arbitrario) 0, aun cuando puede obtenerse un efecto mostrado en la figura 6b. Además, ambos casos de prueba usan valores de amplitud de la señal separada o parcial de la señal de audio. De nuevo, puede observarse que la anotación es mutuamente aplicable. G((Xc)®) := STFT (iSTFT((Xc )(l)) se introduce para indicar la aplicación sucesiva de iSTFT y STFT (central para el algoritmo LSEE-MSTFTM) en (Xc )(l). Tras [10], en cada iteración l la medición de la consistencia normalizada (NCM) se calcula como
Figure imgf000016_0002
para ambos casos de prueba. Como una medida más específica para la restauración transitoria, la energía de pre-eco se calcula como
Figure imgf000016_0003
de la sección entre el comienzo del extracto y la ubicación transitoria en las reconstrucciones de señales componentes en el dominio del tiempo intermedias (xc)(l) := iSTFT ((Xc)(l)) para ambos casos de prueba.
La figura 11a muestra una evolución de la medida de consistencia normalizada frente al número de iteraciones. La figura 11b muestra la evolución de la energía de pre-eco frente al número de iteraciones. Las curvas muestran los extractos de pruebas totales. Además, los resultados derivados del uso del algoritmo de GL se indican por líneas discontinuas, en las que los resultados derivados del algoritmo de TR se indican usando líneas continuas. Además, la inicialización del caso 1 se indica con el número de referencia 66a, 66a', en el que las curvas derivadas usando la inicialización del caso 2 se indican con los signos de referencia 66b, 66b'. Las curvas de la figura 11 se derivan calculando la STFT de cada extracto de mezcla mediante (1) con h = 1024 y n = 4096 y se indican como XMezcla. Como un objetivo de referencia, se toma el mismo extracto y se aplica el mismo relleno de ceros, en este momento de una pg t pista individual de cada instrumento de percusión individual, indicando la STFT resultante como ' Un£‘ . La señal ■v» Oráculo
componente correspondiente es ■. Se usa L = 200 iteraciones de ambos LSEE-MSTFTM (GL) y el método o aparato (TR) propuesto.
La evolución de ambas medidas de calidad de (11) y (12) con respecto a l se muestra en la figura 11. El diagrama (a) indica que, en promedio, el método propuesto (TR) realiza igualmente bien que el LSEE-MSTFTM (GL) en términos de reducción de inconsistencia. En ambos casos de prueba, puede observarse el mismo comportamiento relativo de las medidas para TR (línea continua) y GL (línea discontinua). Tal como se esperaba, las curvas 66a, 66a' (caso 1) comienzan a una inconsistencia inicial mucho más baja que las curvas 66b, 66b' (caso 2), lo que se debe claramente a la inicialización con la fase de mezcla ^Mezcla. El diagrama 11b muestra el beneficio de TR para la reducción de pre­ eco. En ambos casos, las medidas de Tr 66a 66b (líneas continuas) presentan una energía de pre-eco menor de alrededor de 20 dB en comparación con las medidas de GL (línea discontinua). De nuevo, el comienzo más consistente (x‘)<0> del caso 1 66a, 66a' puede presentar una ventaja considerable en términos de reducción de pre-eco en comparación con el caso 266b, 66b'. De manera sorprendente, el procesamiento TR propuesto aplicado al caso 2 supera ligeramente al GL aplicado al caso 1 en términos de la reducción de pre-eco para L > 100. De esos resultados, puede inferirse que basta con aplicar solo unas cuantas iteraciones (por ejemplo, L < 20) del método propuesto en escenarios donde esté disponible una estimación de fase y magnitud inicial razonable. Sin embargo, pueden aplicarse más iteraciones (por ejemplo, L < 200) en caso de que esté disponible una buena estimación de magnitud conjuntamente con una estimación de fase débil y viceversa. En la figura 8, se muestran diferentes versiones de un segmento de un elemento de prueba del caso de prueba 2. La reconstrucción de TR 61d presenta claramente pre­ ecos reducidos en comparación con la reconstrucción con LSEE-MSTFTM 61c. La señal de charles de referencia 61b y la señal de mezcla 61a se muestran anteriormente.
Sin embargo, las siguientes figuras se derivan usando un tamaño de salto diferente y una longitud de ventana diferente tal como se describe a continuación.
Para cada extracto de mezcla, la STFT se calcula mediante (1) con H = 512 y N = 2048 y se indica como x Mezcla. Puesto que todos los elementos de prueba tienen una velocidad de muestreo de 44:1 kHz, la resolución de frecuencia es de aproximadamente 21,5 Hz y la resolución temporal es de aproximadamente 11,6 ms. Una ventana de Hann simétrica de tamaño N se usa para w. Como un objetivo de referencia, se toman los mismos límites de extracto, se aplica el mismo relleno con ceros, pero esta vez de la pista individual de cada instrumento de percusión individual, la STFT ■y Oráculo
resultante se indica como Posteriormente, se definen dos casos diferentes para la inicialización de (Xc)(0) tal como se detalló anteriormente. Usando estos ajustes, se espera que la inconsistencia de la (Xc)(0) resultante sea menor en el caso 1 en comparación con el caso 2. Sabiendo que existe una ' Cc . consistente, se efectuaron L = 200 iteraciones de ambos LSEE-MSTFTM (GL) y el método o aparato propuesto (TR).
La figura 12a muestra un diagrama esquemático de una evolución de la medición de consistencia normalizada frente al número de iteraciones. La figura 12b muestra la evolución de la energía de pre-eco frente al número de iteraciones. Las curvas muestran el promedio de todos los extractos de prueba. Dicho de otro modo, la figura 12 muestra la evolución de ambas medidas de calidad de (6) y (7) con respecto a l. La figura 12a indica que, en promedio, el método propuesto (TR) se realiza igualmente bien que el LSEE-MSTFTM (GL) en términos de reducción de inconsistencia. En ambos casos de prueba, las curvas para TR (línea continua) y GL (línea discontinua) son casi indistinguibles, lo que indica que el nuevo enfoque, es decir, el método o aparato, muestra propiedades de convergencia similares a las del método original. Tal como se esperaba, las curvas 66a, 66a' (caso 1) comienzan a una inconsistencia inicial mucho más baja que las curvas 66b, 66b' (caso 2), lo que se debe claramente a la inicialización con la fase de mezcla 0Mezcla. La figura 12b muestra el beneficio de TR para la reducción de pre-eco. En ambos casos de prueba, la energía de pre­ eco para TR (líneas continuas) es alrededor de 15 dB menor y muestra una disminución más pronunciada durante las primeras iteraciones en comparación con GL (línea discontinua). De nuevo, la (Xc)(0) inicial más consistente del caso 1 66a, 66a' presenta una ventaja considerable en términos de la reducción de pre-eco en comparación con el caso 2 66b, 66b'. De esos resultados, se infiere que basta con aplicar solo unas cuantas iteraciones (por ejemplo, L < 20) del método propuesto en escenarios donde esté disponible una estimación de fase y magnitud inicial razonable. Sin embargo, aplicar más iteraciones (por ejemplo, L < 200) puede ser ventajoso en el caso de que esté presente una buena estimación de magnitud conjuntamente con una estimación de fase débil y viceversa.
A continuación, se describirán realizaciones de cómo aplicar el método o aparato de restauración transitoria propuesto en un escenario de descomposición de audio informado por puntuación . Un objetivo es la extracción de sonidos de tambor aislados de grabaciones de tambor polifónicos con conservación transitoria mejorada. En contraste con las condiciones de laboratorio idealizadas usadas anteriormente, se estiman los espectrogramas de magnitud de las señales componentes de la mezcla. Con este fin, puede emplearse una NMFD (Desconvolución de Factor de Matriz No Negativa) [3, 4] como técnica de descomposición. Las realizaciones describen una estrategia para imponer restricciones informadas por puntuación sobre NMFD. Finalmente, los experimentos se repiten bajo esas condiciones más realistas y se comentan las observaciones.
A continuación, se describe brevemente el método NMFD empleado para la descomposición de la representación de TF de x. Tal como ya se indicó, existe una amplia variedad de enfoques de separación alternativos. Trabajos anteriores [3, 4] aplicaron exitosamente NMFD, una versión convolutiva de NMF, para la separación de sonidos de tambor. Hablando de manera intuitiva, el modelo convolutivo o de convolución subyacente supone que todos los eventos de audio en una de las señales componentes pueden explicarse por un evento prototipo que actúa como una respuesta a un impulso a alguna activación relacionada con el comienzo (por ejemplo, golpeo de un tambor particular). En la figura 10b puede observarse este tipo de comportamiento en el componente de charles V3. Allí, todos los casos de los 8 eventos de comienzo parecen más o menos copias similares entre sí que podrían explicarse insertando un evento prototipo para cada posición de comienzo.
El NMF puede usarse para calcular una factorización V = W ■ H, donde las columnas de
Figure imgf000017_0001
representan las
funciones base espectrales (también denominadas plantillas) y las hileras de “ ~~ ““ í 0 contienen ganancias variables de tiempo (también denominadas activaciones). La NMFD extiende este modelo al caso convolutivo usando dos plantillas bidimensionales de modo que cada una de las bases espectrales C pueda interpretarse como un fragmento de espectrograma de magnitud que consiste en tramas espectrales T << M. Con este fin, la aproximación del espectrograma convolutivo V = A se modela como
7’- l
A W r • H , (8)
T = 0
donde
Figure imgf000017_0002
indica un operador de desplazamiento de trama. Como anteriormente, cada columna en W T € representa la base espectral de un componente particular, pero esta vez están disponibles diferentes versiones T de W r. Concatenando una columna específica de todas las versiones de W r, puede obtenerse un espectrograma de magnitud prototipo tal como se muestra en la figura 13. La NMFD comienza normalmente con una inicialización adecuada de matrices (Wr)(0) y (H)(0). Posteriormente, esas matrices se actualizan iterativamente para minimizar una medición de distancia adecuada entre la aproximación convolutiva A y V.
La figura 13 muestra plantillas de NMFD y activaciones calculadas para la grabación de tambor a modo de ejemplo de la figura 10. El espectrograma de magnitud V se muestra en el diagrama inferior derecho. Los tres diagramas a la izquierda son las plantillas espectrales en W t que se han extraído mediante NMFD. Sus activaciones correspondientes 78 y la inicialización informada por punto 70b (H)(0) se muestran en los tres diagramas superiores.
La inicialización apropiada de (W t)(0) y (H)(0) es un medio efectivo para restringir los grados de libertad en las iteraciones de NMFD e imponer convergencia a una solución deseada, musicalmente significativa. Una posibilidad es imponer restricciones informadas por puntuación derivadas de una transcripción simbólica, alineada en el tiempo. Con este fin, las hileras individuales de (H)(0) se inicializan como sigue: Cada trama correspondiente a un comienzo del instrumento de percusión respectivo se inicializa con un impulso de amplitud unitaria, todas las tramas restantes con una constante pequeña. Posteriormente, se aplica un filtro promedio de movimiento exponencial no lineal para modelar la descomposición corta típica de un evento de tambor. El resultado 70 de esta inicialización se muestra como curva 70b y los tres diagramas superiores de la figura 13.
Los mejores resultados de separación pueden obtenerse por inicialización informada por puntuación tanto de las plantillas como de las activaciones. Para la separación de instrumentos afinados (por ejemplo, piano), pueden construirse series de sobretonos prototípicas en (W t)(0). Para tambores, es más difícil modelar bases espectrales prototipo. Por tanto, se ha propuesto inicializar las bases con espectrogramas promediados o factorizados de sonidos de tambor aislados [21, 22, 4]. Sin embargo, se usa una alternativa simple que calcula primero un NMF convencional cuyas activaciones H y plantillas W se inicializan por (H)(0) informado por puntuación y ajuste de (W)(0) := 1.
Con esos ajustes, las plantillas de factorización resultantes son usualmente una aproximación muy decente del espectro promedio de cada instrumento de percusión implicado. Simplemente repetir estos espectros para todo el t e [0: T - 1] sirve como buena inicialización para los espectrogramas de plantilla. Después de algunas iteraciones de NMFD, cada espectrograma de plantilla normalmente corresponde al espectrograma prototipo del instrumento de percusión correspondiente y cada función de activación corresponde a la activación desconvolucionada de todos los casos de ese instrumento de percusión particular por toda la grabación. Un resultado de descomposición típico se muestra en la figura 13 donde puede observarse que las plantillas extraídas (tres diagramas en el extremo izquierdo) se asemejan a versiones prototipo de los eventos de comienzo V (diagrama inferior derecho). Además, la ubicación de los impulsos en el H extraído 70a (tres diagramas en el extremo superior) está muy cerca del máximo de la inicialización informada por puntuación.
A continuación, se describe cómo procesar adicionalmente los resultados de NMFD con el fin de extraer los R
componentes deseados. Dejando que H >o sea la matriz de activación aprendida por NMFD. Entonces, para [J r- 1D> C'xM
cada c e [1 : C] la matriz se define ajustando todos los elementos a cero excepto la c-ésima hilera que contiene las activaciones deseadas encontradas anteriormente mediante NMFD. El c-ésimo espectrograma de A •= S ' T1- ~ 1 I w • r H ~*
magnitud componente se aproxima por ‘ c ' ZjT=0 1 c• . Puesto que el modelo de NMFD produce solo una aproximación de rango bajo de V, los matices espectrales pueden no capturarse bien. Con el fin de remediar este problema, es una práctica común calcular máscaras suaves que pueden interpretarse como una matriz de ponderación que refleja la contribución de Ac a la mezcla V. La máscara correspondiente al componente deseado puede calcularse
M c := Ac 0 ( f I3c= i Ac)
como v donde 0 indica la división por elementos y e es una constante positiva pequeña para evitar la división por cero. La estimación basada en el enmascaramiento del espectrograma de magnitud componente se obtiene como Vc := V Q Mc, con Q indicando la multiplicación por elementos. Este procedimiento también se denomina a menudo filtración de Wiener.
A continuación, se repitieron básicamente los experimentos anteriores de las figuras 12a, b. Se conservaron los mismos parámetros de STFT y límites de extracto que se usaron en los ejemplos anteriores. Esta vez, sin embargo, los espectrogramas de magnitud componente no se derivaron de las señales componentes de oráculo, sino que se extrajeron de la mezcla usando 30 iteraciones de NMFD. En consecuencia, se introdujeron dos nuevos casos de prueba. El caso de prueba 366c, 66c' usa la estimación de fase inicial (0C)(0) := 0Mezcla y la estimación de magnitud fija
A c := V■t
= j
en el que el caso de prueba 466d usa la estimación de fase inicial (0C)(0) := 0 y la estimación de magnitud fija
Figure imgf000018_0001
La figura 14a muestra una evolución de la medida de consistencia normalizada frente al número de iteraciones. La figura 14b muestra una evolución de la energía de pre-eco frente al número de iteraciones. Las curvas muestran los extractos de prueba totales promedio, los límites de eje son los mismos que los de la figura 12. Además, en la figura 14a, la reducción de inconsistencia obtenida usando la reconstrucción de TR 66c, 66d (líneas continuas) es indistinguible del método GL 66c', 66d' (líneas discontinuas). Las mejoras son significativamente menores en comparación con los números que pueden obtenerse cuando se usan estimaciones de magnitud de oráculo (compárese la figura 12a). Como promedio, las reconstrucciones en el caso 3 66c, 66c' (inicializadas con 0Mezcla) parecen adherirse rápidamente en un óptimo local. Probablemente, esto se debe a la descomposición de NMFD imperfecta de las tramas de espectrograma relacionadas con el comienzo, donde todos los instrumentos presentan una distribución de magnitud más o menos plana y, por tanto, muestran superposición espectral aumentada.
En la figura 14b, la reducción de pre-eco con NMFD basada en estimaciones de magnitud
Figure imgf000019_0001
y fase cero (caso 4, diagrama 66d, 66d') funciona ligeramente peor que en el caso 2 (compárese la figura 12b). Esto apoya los hallazgos anteriores, que las estimaciones de fase inicial débiles se benefician principalmente de la aplicación de muchas iteraciones del método propuesto. La reconstrucción de GL usando 0Mezcla (caso 3, diagrama 66c, 66c') aumenta ligeramente la energía de pre-eco durante las iteraciones. En contraste, la aplicación de la reconstrucción de TR produce una buena mejora.
En la figura 9, se muestran con detalle reconstrucciones diferentes de un comienzo de charles seleccionado del bucle de tambor a modo de ejemplo. Sin importar la estimación de magnitud usada (oráculo en la figura 9b o basada en NMFD en la figura 9c), la reconstrucción de TR propuesta (parte inferior) presenta claramente pre-ecos reducidos en comparación con la reconstrucción de GL convencional (parte superior). Mediante pruebas de escucha informales (preferiblemente usando auriculares), pueden encontrarse claramente diferencias en la claridad de comienzos que pueden lograrse con diferentes combinaciones de inicializaciones de MSTFT y métodos de reconstrucción. Incluso en casos donde la descomposición de magnitud imperfecta conduce a distorsiones de diafonía no deseadas en las señales componentes individuales, el método TR según realizaciones conserva mejor las características transitorias que la reconstrucción de GL convencional. Además, el uso de la fase de mezcla para la inicialización de MSTFT parece ser una buena elección puesto que a menudo pueden verse diferencias sutiles en la reconstrucción de la fase de descomposición de eventos de tambor en comparación con las señales de oráculos. Sin embargo, las diferencias de timbre provocadas por la descomposición de magnitud imperfecta son mucho más pronunciadas.
Las realizaciones muestran una extensión efectiva al procedimiento de LSEE-MSTFTM iterativo de Griffin y Lim para la restauración mejorada de componentes de señales transitorias en la separación de fuentes de música. El aparato, codificador, decodificador o método usa información secundaria adicional acerca de la ubicación de los transitorios, que puede darse en un escenario de separación de fuentes informada.
Según realizaciones adicionales, se muestra una extensión mejorada del procedimiento de LSEE-MSTFTM iterativo de Griffin y Lim para la restauración mejorada de componentes de señales transitorios en la separación de fuentes de música. El método o aparato usa información secundaria adicional acerca de la ubicación de los transitorios, que se supone que se dan en un escenario de separación de fuentes informada. Dos experimentos con el conjunto de datos “ IDMTSMT-Drums” disponible al público mostraron que el método, codificador o decodificador según las realizaciones es beneficioso para reducir pre-ecos tanto bajo condiciones de laboratorio como para señales componentes obtenidas usando una técnica de separación de fuentes del estado de la técnica.
Según las realizaciones, se mejora la calidad de perceptual de componentes de señales transitorias extraídos en el contexto de separación de fuentes de música. Muchas técnicas en el estado de la técnica se basan en la aplicación de una descomposición adecuada a la Transformación de Fourier de Tiempo Reducido (STFT) de magnitud de la señal de mezcla. La información de fase usada para la reconstrucción de señales componentes individuales se toma usualmente de la mezcla, dando como resultado una STFT modificada (MSTFT) de valor complejo. Existen diferentes métodos para reconstruir una señal en el dominio del tiempo cuya STFT se aproxima al MSTFT objetivo. Debido a las inconsistencias de fase, es probable que estas señales reconstruidas contengan distorsiones tales como pre-ecos anteriores a componentes transitorios. Las realizaciones muestran una extensión del procedimiento de reconstrucción de señal iterativo de Griffin y Lim para remediar este problema. Un experimento elaborado cuidadosamente usando un conjunto de prueba disponible al público muestra que el método o aparato atenúa considerablemente pre-ecos mientras muestra todavía propiedades de convergencia similares a las del enfoque original.
En un experimento adicional, se mostró que el método o el aparato atenúa considerablemente pre-ecos mientras muestra todavía propiedades de convergencia similares a las del enfoque original de Griffin y Lim. Un tercer experimento que implica descomposición de audio informada por puntuación muestra mejoras también.
Las siguientes figuras se relacionarán con realizaciones adicionales en relación con el aparato 2.
La figura 15 muestra un codificador de audio 100 para codificar una señal de audio 4. El codificador de audio comprende un procesador de señales de audio y un determinador de envolvente. El procesador de señales de audio 102 se configura para codificar una señal de audio en el dominio del tiempo de manera que la señal de audio codificada 108 comprende una representación de una secuencia o tramas en el dominio de la frecuencia de la señal de audio en el dominio del tiempo y una representación de una envolvente en el dominio del tiempo objetivo 106. El determinador de envolvente se configura para determinar una envolvente de la señal de audio en el dominio del tiempo, en la que el determinador de envolvente se configura además para comparar la envolvente con un conjunto de envolventes predeterminadas para determinar una representación de la envolvente en el dominio del tiempo objetivo basándose en la comparación. La envolvente puede ser una envolvente en el dominio del tiempo de una parte de la señal de audio, por ejemplo, y la envolvente de una trama o una parte adicional de la señal de audio. Además, la envolvente puede proporcionarse al procesador de señales de audio que puede configurarse para incluir la envolvente en la señal de audio codificada.
En otras palabras, un codificador de audio (estándar) puede extenderse al codificador de audio 100 determinando una envolvente, por ejemplo, una envolvente en el dominio del tiempo de una parte, por ejemplo, una trama de la señal de audio. La envolvente derivada puede compararse con un conjunto o un número de envolventes en el dominio del tiempo predeterminadas en un libro de código o una tabla de consulta. La posición de la envolvente predeterminada de mejor ajuste puede codificarse usando, por ejemplo, un número de bits. Por tanto, pueden usarse cuatro bits para acceder a, por ejemplo, 16 envolventes en el dominio del tiempo predeterminadas diferentes, cinco bits para acceder a, por ejemplo, 32 envolventes en el dominio del tiempo predeterminadas, o cualquier número adicional de bits, dependiendo del número de envolventes en el dominio del tiempo predeterminadas diferentes.
La figura 16 muestra un decodificador de audio 110 que comprende el aparato 2 y una interfaz de entrada 112. La interfaz de entrada 112 puede recibir una señal de audio codificada. La señal de audio codificada puede comprender una representación de la secuencia de tramas en el dominio de la frecuencia y una representación de la envolvente en el dominio del tiempo objetivo.
En otras palabras, el decodificador 110 puede recibir la señal de audio codificada, por ejemplo, del codificador 100. La interfaz de entrada 112 o el aparato 2, o medios adicionales pueden extraer la envolvente en el dominio del tiempo objetivo 14 o una representación de la misma, por ejemplo, una secuencia de bits que indique una posición de la envolvente en el dominio del tiempo objetivo en una tabla de consulta o libro de código. Además, el aparato 2 puede decodificar la señal de audio codificada 108, por ejemplo, ajustando fases dañadas de la señal de audio codificada que tengan todavía valores de magnitud no dañados, o el aparato puede corregir valores de fase de una señal de audio decodificada, por ejemplo, de una unidad de decodificación que decodificó lo suficiente o incluso perfectamente la magnitud espectral de la señal de audio codificada, y el aparato ajusta además la fase de la señal de audio decodificada, que puede dañarse por la unidad de decodificación.
La figura 17 muestra una señal de audio 114 que comprende una representación de una secuencia de tramas en el dominio de la frecuencia 12 y una representación de una envolvente en el dominio del tiempo objetivo 14. La representación de una secuencia de tramas en el dominio de la frecuencia de la señal de audio en el dominio del tiempo 12 puede ser una señal de audio codificada según un esquema de codificación de audio estándar. Además, la representación de una envolvente en el dominio del tiempo objetivo 14 puede ser una representación de bits de la envolvente en el dominio del tiempo objetivo. La representación de bits puede derivarse, por ejemplo, usando muestreo y cuantificación de la envolvente en el dominio del tiempo objetivo o por un método de digitalización adicional. Además, la representación de la envolvente en el dominio del tiempo objetivo 14 puede ser un índice de, por ejemplo, un libro de código o una tabla de consulta indicada o codificada con un número de bits.
La figura 18 muestra un diagrama de bloques esquemático de un procesador de separación de fuentes de audio 116 según una realización. El procesador de separación de fuentes de audio comprende el aparato 2 y un enmascarador espectral 118. El enmascarador espectral puede enmascarar un espectro de la señal de audio original 4 para derivar una señal de audio modificada 120. En comparación con la señal de audio original 4, la señal de audio modificada 120 puede comprender un número reducido de bandas de frecuencia o compartimientos de frecuencia de tiempo. Además, la señal de audio modificada puede comprender únicamente una fuente o un instrumento o un orador (humano) de la señal de audio 4, en la que las contribuciones de frecuencia de otras fuentes, oradores o instrumentos se ocultan o se enmascaran. Sin embargo, puesto que los valores de magnitud de la señal de audio modificada 120 pueden igualar los valores de magnitud de una señal de audio procesada (deseada) 6, pueden dañarse los valores de fase de la señal de audio modificada. Por tanto, el aparato 2 puede corregir los valores de fase de la señal de audio modificada con respecto a la envolvente en el dominio del tiempo objetivo 14.
La figura 19 muestra un diagrama de bloques esquemático de un procesador de mejora de ancho de banda 122 según una realización. El procesador de mejora de ancho de banda 122 se configura para procesar una señal de audio codificada 124. Además, el procesador de mejora de ancho de banda 122 comprende un procesador de mejora 126 y el aparato 2. El procesador de mejora 126 se configura para generar una señal de mejora 127 a partir de una banda de señal de audio incluida en la señal codificada y en la que el procesador de mejora 126 se configura para extraer la envolvente en el dominio del tiempo objetivo 14 de una representación codificada incluida en la señal codificada 122 o de la banda de señal de audio incluida en la señal codificada. Además, el aparato 2 puede procesar la señal de mejora 126 usando la envolvente en el dominio del tiempo objetivo.
En otras palabras, el procesador de mejora 126 puede codificar centralmente la banda de señal de audio o recibir una banda de señal de audio codificada centralmente de la señal de audio codificada. Además, el procesador de mejora 126 puede calcular bandas adicionales de la señal de audio usando, por ejemplo, parámetros de la señal de audio codificada y la parte de banda base codificada centralmente de la señal de audio. Además, la envolvente en el dominio del tiempo objetivo 14 puede estar presente en la señal de audio codificada 124, o el procesador de mejora puede configurarse para calcular la envolvente en el dominio del tiempo objetivo de la parte de banda base de la señal de audio.
La figura 20 ilustra una representación esquemática del espectro. El espectro se subdivide en bandas de factor de escala SCB donde existen siete bandas de factor de escala SCB1 a SCB7 en el ejemplo ilustrado de la figura 20. Las bandas de factor de escala pueden ser bandas de factor de escala AAC que se definen en el estándar AAC y tienen un ancho de banda creciente hasta frecuencias superiores tal como se ilustra en la figura 20 esquemáticamente. Se prefiere realizar llenado de huecos inteligente no desde el principio del espectro, es decir, a frecuencias bajas, sino comenzar la operación de IGF a una frecuencia de comienzo de iGf ilustrada en 309. Por tanto, la banda de frecuencia central se extiende desde la frecuencia más baja hasta la frecuencia de comienzo de IGF. Por encima de la frecuencia de comienzo de IGF, se aplica el análisis de espectro para separar componentes espectrales de alta resolución 304, 305, 306, 307 (el primer conjunto de primeras partes espectrales) de componentes de baja resolución representados por el segundo conjunto de segundas partes espectrales. La figura 20 ilustra un espectro que se introduce a modo de ejemplo en el procesador de mejora 126, es decir, el codificador central puede funcionar en todo el intervalo, pero codifica una cantidad significativa de valores espectrales de cero, es decir, estos valores espectrales de cero se cuantifican a cero o se fijan en cero antes de la cuantificación o después de la cuantificación. De todas formas, el codificador central funciona en todo el intervalo, es decir, como si el espectro fuese tal como se ilustra, es decir, el decodificador central no tiene que ser consciente necesariamente de cualquier llenado de huecos inteligente o codificación de un segundo conjunto de segundas partes espectrales con una resolución espectral más baja.
Preferiblemente, la alta resolución se define por una codificación por líneas de líneas espectrales tales como líneas MDCT, mientras que la segunda resolución o resolución baja se define, por ejemplo, calculando únicamente un solo valor espectral por banda de factor de escala, donde una banda de factor de escala cubra varias líneas de frecuencia. Por tanto, la segunda resolución baja es, con respecto a su resolución espectral, mucho menor que la primera o alta resolución definida por la decodificación por líneas aplicada normalmente por el codificador central tal como el codificador central a Ac o USAC.
Debido al hecho de que el codificador es un codificador central y debido al hecho de que puede haber, pero no necesariamente tiene que haber, componentes del primer conjunto de partes espectrales en cada banda, el codificador central calcula un factor de escala para cada banda no solo en el intervalo central por debajo de la frecuencia de comienzo de IGF 309, sino también por encima de la frecuencia de comienzo de IGF hasta la frecuencia máxima fparadaiGF que es menor o igual a la mitad de la frecuencia de muestreo, es decir, fs/2. Por tanto, las partes tonales codificadas 302, 304, 305, 306, 307 de la figura 20 y, en esta realización, junto con los factores de escala SCB1 a SCB7 corresponden a los datos espectrales de alta resolución. Los datos espectrales de baja resolución se calculan partiendo de la frecuencia de comienzo de IGF y corresponden a los valores de información de energía E1 , E2, E3, E4, que se transmiten junto con los factores de escala SF4 a SF7.
Particularmente, cuando el codificador central se encuentra bajo una condición de velocidad de bits baja, puede aplicarse además una operación de llenado de ruido adicional en la banda central, es decir, menor en frecuencia que la frecuencia de comienzo de IGF, es decir, en las bandas de factor de escala SCB1 a SCB3. En el llenado de ruido, existen varias líneas espectrales adyacentes que se han cuantificado a cero. En el lado del decodificador, estos valores espectrales cuantificados a cero se re-sintetizan y los valores espectrales re-sintetizados se ajustan en su magnitud usando una energía de llenado de ruido. La energía de llenado de ruido, que puede darse en términos absolutos o en términos relativos particularmente con respecto al factor de escala como en USAC corresponde a la energía del conjunto de valores espectrales cuantificados a cero. Estas líneas espectrales de llenado de ruido también pueden considerarse un tercer conjunto de terceras partes espectrales que se regeneran por la síntesis de llenado de ruido simple sin ninguna operación de IGF basada en la regeneración de frecuencia usando mosaicos de frecuencia de otras frecuencias para la reconstrucción de mosaicos de frecuencia usando valores espectrales de un intervalo de origen y la información de energía E1 , E2, E3, E4.
Preferiblemente, las bandas, para las que se calcula la información de energía, coinciden con las bandas de factor de escala. En otras realizaciones, se aplica un grupo de valores de información de energía, de modo que, por ejemplo, para bandas de factor de escala 4 y 5, únicamente se transmite un único valor de información de energía, pero incluso en esta realización, los límites de las bandas de reconstrucción agrupadas coinciden con límites de las bandas de factor de escala. Si se aplican diferentes separaciones de banda, entonces pueden aplicarse determinadas repeticiones de cálculo o cálculos de sincronización, y esto puede tener sentido dependiendo de determinadas implementaciones.
La parte codificada central o la banda de frecuencia codificada central de la señal de audio codificada 124 puede comprender una representación de alta resolución de la señal de audio hasta una frecuencia de corte o la frecuencia de comienzo de IGF 309. Por encima de esta frecuencia de comienzo de IGF 309 la señal de audio puede comprender bandas de factor de escala codificadas con una resolución baja, por ejemplo, usando codificación paramétrica. Sin embargo, usando la parte de banda base codificada centralmente y, por ejemplo, los parámetros, puede decodificarse la señal de audio codificada 124. Esto puede realizarse una vez o múltiples veces.
Esto puede proporcionar una buena reconstrucción de valores de magnitud incluso por encima de la primera frecuencia de corte 130. Sin embargo, al menos alrededor de las frecuencias de corte entre bandas de factor de escala consecutivas, una frecuencia más superior o más alta de la parte de banda base codificada centralmente 128 puede ser adyacente a una frecuencia más baja de la parte de banda base codificada centralmente debido al relleno de la parte de banda base codificada centralmente hasta frecuencias más altas por encima de la frecuencia de comienzo de IGF 309, pueden dañarse los valores de fase. Por tanto, la señal de audio reconstruida de banda base puede introducirse al aparato 2 para reconstruir las fases de la señal extendida de ancho de banda.
Además, la mejora de ancho de banda funciona puesto que la parte de banda base codificada centralmente comprende mucha información con respecto a la señal de audio original. Esto conduce a la conclusión de que una envolvente de la parte de banda base codificada centralmente es al menos similar a una envolvente de la señal de audio original, aun cuando la envolvente de la señal de audio original puede ser más acentuada debido a componentes de alta frecuencia adicionales de la señal de audio, que no están presentes o ausentes en la parte de banda base codificada centralmente.
La figura 21 muestra una representación esquemática de la reconstrucción en el dominio del tiempo (intermedia) después de un primer número de etapas de iteración sobre la parte superior y después de un segundo número de etapas de iteración que es mayor que el primer número de etapas de iteración en la parte inferior de la figura 21. Las ondulaciones altamente comparables 132 resultan de una inconsistencia de tramas adyacentes de la secuencia de tramas en el dominio de la frecuencia. Usualmente, partiendo de una señal en el dominio del tiempo, la STFT inversa de la STFT de la señal en el dominio del tiempo de nuevo da como resultado la señal en el dominio del tiempo. En el presente documento, las tramas en el dominio de la frecuencia adyacentes son consistentes después de aplicar la STFT, de manera que el procedimiento de superposición y adición de la operación de STFT inversa suma o revela la señal original. Sin embargo, partiendo del dominio de la frecuencia con valores de fase dañados, las tramas en el dominio de la frecuencia adyacentes no son consistentes (es decir, inconsistentes), en el que la STFT de la ISTFT de la señal en el dominio de la frecuencia no conduce a una señal de audio apropiada o consistente tal como se indica en la parte superior de la figura 21. Sin embargo, se ha demostrado matemáticamente que el algoritmo, si se aplica iterativamente a la magnitud original, reduce las ondulaciones 132 en cada etapa de iteración que conduce a una señal de audio reconstruida (casi perfecta) indicada en la parte inferior de la figura 21. En el presente documento, se reducen las ondulaciones 132. En otras palabras, la magnitud de la señal en el dominio del tiempo intermedia se convierte al valor de magnitud inicial de la secuencia de tramas en el dominio de la frecuencia después de cada etapa de iteración. Debe observarse que el tamaño de salto de 0,5 entre ventanas de síntesis consecutivas 136 se elige por conveniencia y puede fijarse en cualquier valor apropiado tal como, por ejemplo, 0,75.
La figura 22 muestra un diagrama de bloques esquemático de un método 2200 para procesar una señal de audio para obtener a señal de audio procesada. El método 2200 comprende una etapa 2205 para calcular valores de fase para valores espectrales de una secuencia de tramas en el dominio de la frecuencia que representan tramas superpuestas de la señal de audio, en la que los valores de fase se calculan basándose en información sobre una envolvente en el dominio del tiempo objetivo relacionada con la señal de audio procesada, de modo que la señal de audio procesada tenga al menos en una aproximación la envolvente en el dominio del tiempo objetivo y la envolvente espectral determinada por la secuencia de tramas en el dominio de la frecuencia.
La figura 23 muestra un diagrama de bloques esquemático de un método 2300 de decodificación de audio. El método 2300 comprende en una etapa 2305 el método 2200 y en una etapa 2310, recibir una señal codificada, comprendiendo la señal codificada una representación de la secuencia de tramas en el dominio de la frecuencia, y una representación de la envolvente en el dominio del tiempo objetivo.
La figura 24 muestra un diagrama de bloques esquemático de un método 2400 de separación de fuentes de audio. El método 2400 comprende una etapa 2405 para realizar el método 2200, y una etapa 2410 de enmascarar un espectro de una señal de audio original para obtener una entrada de señal de audio modificada dentro del aparato para el procesamiento, en la que la señal de audio procesada es una señal de fuente separada relacionada con la envolvente en el dominio del tiempo objetivo.
La figura 25 muestra un diagrama de bloques esquemático de un método de mejora de ancho de banda de una señal de audio codificada. El método 2500 comprende una etapa 2505 de generación de una señal de mejora de una banda de señal de audio incluida en la señal codificada, una etapa 2510 para realizar el método 2200, y una etapa 2515, en la que el funcionamiento general comprende extraer la envolvente en el dominio del tiempo objetivo de una representación codificada incluida en la señal codificada o de la banda de señal de audio incluida en la señal codificada.
La figura 26 muestra un diagrama de bloques esquemático de un método 2600 de codificación de audio. El método 2600 comprende una etapa 2605 de codificación de una señal de audio en el dominio del tiempo de manera que la señal de audio codificada comprende una representación de una secuencia de tramas en el dominio de la frecuencia de la señal de audio en el dominio del tiempo y una representación de una envolvente en el dominio del tiempo objetivo, y una etapa 2610 de determinar una envolvente de la señal de audio en el dominio del tiempo, en la que el determinador de envolvente se configura además para comparar la envolvente con un conjunto de envolventes predeterminadas para determinar una representación de la envolvente en el dominio del tiempo objetivo basándose en la comparación.
Las realizaciones adicionales de la invención se refieren a los siguientes ejemplos. Estos pueden ser un método, un aparato o un programa informático para
1) reconstruir iterativamente una señal en el dominio del tiempo a partir de una representación en el dominio del tiempo-frecuencia,
2) generar una estimación inicial para la magnitud y la información de fase y la representación en el dominio del tiempofrecuencia,
3) aplicar manipulaciones de señal intermedias a determinadas propiedades de la señal durante las iteraciones,
4) transformar la representación en el dominio del tiempo-frecuencia nuevamente al dominio del tiempo,
5) modular la señal en el dominio del tiempo intermedia con una envolvente de amplitud arbitraria,
6) transformar la señal en el dominio del tiempo modulada nuevamente al dominio del tiempo-frecuencia,
7) usar la información de fase resultante para actualizar la representación en el dominio del tiempo-frecuencia,
8) simular la frecuencia de transformación inversa y transformación hacia adelante por un procedimiento en el dominio del tiempo-frecuencia que agrega contribuciones convolucionadas y desplazadas específicamente desde tramas adyacentes hasta una trama central,
9) aproximar el procedimiento anterior usando núcleos de convolución truncados y explotar las propiedades de simetría,
10) simular la modulación en el dominio del tiempo por convolución de las tramas deseadas con la representación en el tiempo-frecuencia de la envolvente objetivo,
11) aplicar las manipulaciones en el dominio del tiempo-frecuencia de una manera dependiente del tiempo-frecuencia, por ejemplo, aplicar las operaciones únicamente para seleccionar compartimientos de tiempo-frecuencia, o
12) usar los procedimientos descritos anteriormente para la codificación de audio perceptual, separación de fuentes de audio y/o mejora de ancho de banda.
Múltiples tipos de evaluaciones en un escenario de descomposición de audio se aplican al aparato o al método según las realizaciones, donde un objetivo es extraer sonidos de tambor aislados de grabaciones de tambor polifónicas. Puede usarse un conjunto de prueba disponible al público que se enriquece con toda la información secundaria necesaria, tal como las señales componentes de “oráculo” verdaderas y sus posiciones transitorias precisas. En un experimento, bajo condiciones de laboratorio, se hace uso de toda la información secundaria para centrarse en la evaluación del beneficio del método o aparato propuesto para la conservación transitoria en la reconstrucción de señal. Bajo estas condiciones idealizadas, un método propuesto puede atenuar considerablemente pre-ecos mientras presenta todavía propiedades de convergencia similares a las del método o aparato original. En un experimento adicional, se emplea una técnica de descomposición del estado de la técnica [3, 4] con restricciones informadas por puntuación para estimar la STFTM de la señal componente de la mezcla. Bajo estas condiciones (más realistas), el método propuesto todavía produce mejoras significativas.
Debe comprenderse que en esta memoria descriptiva las señales sobre las líneas se denominan algunas veces por los números de referencia para las líneas o se indican algunas veces por los propios números de referencia, que se han atribuido a las líneas. Por tanto, la anotación es tal que una línea que tiene una determinada señal indica la propia señal. Una línea puede ser una línea física en una implementación cableada. En una implementación computarizada, sin embargo, no existe una línea física, sino que la señal representada por la línea se transmite desde un módulo de cálculo a otro módulo de cálculo.
Aunque la presente invención se ha descrito en el contexto de diagramas de bloques donde los bloques representan componentes de hardware reales o lógicos, la presente invención también puede implementarse por un método implementado por ordenador. En el último caso, los bloques representan etapas del método correspondientes donde estas etapas representan las funcionalidades realizadas por bloques de hardware lógicos o físicos correspondientes.
Aunque algunos aspectos se han descrito en el contexto de un aparato, está claro que estos aspectos también representan una descripción del método correspondiente, donde un bloque o dispositivo corresponde a una etapa del método o una característica de una etapa del método. De manera análoga, los aspectos descritos en el contexto de una etapa del método también representan una descripción de un bloque o un elemento o una característica correspondiente de un aparato correspondiente. Algunas o todas las etapas del método pueden ejecutarse por (o usando) un aparato de hardware como, por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, un aparato de este tipo puede ejecutar algunas de una o más de las etapas del método más importantes.
La señal transmitida o codificada de la invención puede almacenarse en un medio de almacenamiento digital o puede transmitirse en un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión por cable tal como Internet.
Dependiendo de determinados requisitos de implementación, las realizaciones de la invención pueden implementarse en hardware o en software. La implementación puede realizarse usando un medio de almacenamiento digital, por ejemplo, un disquete, un DVD, un Blu-Ray, un CD, una memoria ROM, una PROM, una EPROM, una EEPROM o una FLASH, que tienen señales de control electrónicamente legibles almacenadas en las mismas, que actúan conjuntamente (o son capaces de actuar conjuntamente) con un sistema informático programable de manera que se realice el método respectivo. Por tanto, el medio de almacenamiento digital puede ser legible por ordenador.
Algunas realizaciones según la invención comprenden un portador de datos que tiene señales de control legibles electrónicamente, que son capaces de actuar conjuntamente con un sistema informático programable, de manera que se realice uno de los métodos descritos en el presente documento.
Generalmente, las realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, estando el código de programa en funcionamiento para realizar uno de los métodos cuando el producto de programa informático se ejecuta en un ordenador. El código de programa puede, por ejemplo, almacenarse en un portador legible por máquina.
Otras realizaciones comprenden el programa informático para realizar uno de los métodos descritos en el presente documento, almacenado en un portador legible por máquina.
En otras palabras, una realización del método de la invención es, por tanto, un programa informático que tiene un código de programa para realizar uno de los métodos descritos en el presente documento, cuando el programa informático se ejecuta en un ordenador.
Las realizaciones descritas anteriormente son meramente ilustrativas de los principios de la presente invención. Debe comprenderse que las modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento serán evidentes a otros expertos en la técnica. El propósito es, por tanto, estar limitado únicamente por el alcance de las reivindicaciones de patente inminentes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en el presente documento.
BIBLIOGRAFÍA
[1] Daniel W. Griffin y Jae S. Lim, "Signal estimation from modified short-time Fourier transform", IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 32, n.° 2, págs. 236-243, abril de 1984.
[2] Jonathan Le Roux, Nobutaka Ono, y Shigeki Sagayama, “Explicit consistency constraints for STFT spectrograms and their application to phase reconstruction” en Proceedings of the ISCA Tutorial and Research Workshop on Statistical And Perceptual Audition, Brisbane, Australia, septiembre de 2008, págs. 23-28.
[3] Xinglei Zhu, Gerald T. Beauregard, y Lonce L. Wyse, “Real-time signal estimation from modified short-time Fourier transform magnitude spectra”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, n.° 5, págs.
1645-1653, julio de 2007.
[4] Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, y Shigeki Sagayama, “Phase initialization schemes for faster spectrogram-consistency-based signal reconstruction” en Proceedings of the Acoustical Society of Japan Autumn Meeting, septiembre de 2010, número 3-10-3.
[5] Nicolas Sturmel y Laurent Daudet, “Signal reconstruction from STFT magnitude: a state of the art” en Proceedings of the International Conference on Digital Audio Effects (DAFx), París, Francia, septiembre de 2011, págs. 375-386.
[6] Nathanael Perraudin, Peter Balazs, y Peter L. Sondergaard, "A fast Griffin-Lim algorithm" en Proceedings IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), New Paltz, NY, EE.UU., octubre de 2013, págs. 1-4.
[7] Dennis L. Sun y Julius O. Smith III, "Estimating a signal from a magnitude spectrogram via convex optimization" en Proceedings of the Audio Engineering Society (AES) Convention, San Francisco, EE.UU., octubre de 2012, prepublicación 8785.
[8] Tomohiko Nakamura y Hiokazu Kameoka, “Fast signal reconstruction from magnitude spectrogram of continuous wavelet transform based on spectrogram consistency” en Proceedings of the International Conference on Digital Audio Effects (DAFx), Erlangen, Alemania, septiembre de 2014, págs. 129-135.
[9] Volker Gnann y Martin Spiertz, “ Inversion of shorttime fourier transform magnitude spectrograms with adaptive window lengths” en Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, (ICASSP), Taipéi, Taiwán, abril de 2009, págs. 325-328.
[10] Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, y Shigeki Sagayama, “Fast signal reconstruction from magnitude STFT spectrogram based on spectrogram consistency” en Proceedings International Conference on Digital Audio Effects (DAFx), Graz, Austria, septiembre de 2010, págs. 397-403.
[11] Volker Gnann y Julian Becker, "Signal reconstruction from multiresolution STFT magnitudes with mutual initialization" en Proceedings 45th Int. Conf. Applications of time-frequency processing in audio, Helsinki, Finlandia, marzo de 2012, págs. 1-6.

Claims (22)

  1. REIVINDICACIONES
    i. Aparato (2) para procesar una señal de audio (49) para obtener una señal de audio procesada (6), que comprende:
    un calculador de fase (8) para calcular valores de fase (10) para valores espectrales de una secuencia de tramas en el dominio de la frecuencia (12) que representan tramas superpuestas de la señal de audio (4), caracterizado porque el calculador de fase (8) se configura para calcular los valores de fase (10) basándose en información sobre una envolvente en el dominio del tiempo objetivo (14) relacionada con la señal de audio procesada (6), de modo que la señal de audio procesada tenga al menos en una aproximación la envolvente en el dominio del tiempo objetivo (14) y una envolvente espectral determinada por la secuencia de tramas en el dominio de la frecuencia (12).
  2. 2. Aparato (2) según la reivindicación 1,
    en el que el calculador de fase (8) comprende:
    un procesador de iteración (16) para realizar un algoritmo iterativo para calcular, partiendo de los valores de fase iniciales (18), los valores de fase para los valores espectrales usando un objetivo de optimización que requiera consistencia de los bloques de superposición en el intervalo de superposición,
    en el que el procesador de iteración (16) se configura para usar, en una etapa de iteración adicional, una estimación de fase actualizada (20) dependiendo de la envolvente en el dominio del tiempo objetivo (14).
  3. 3. Aparato (2) según la reivindicación 1 o 2, en el que el calculador de fase (8) se configura para aplicar una modulación de amplitud a una reconstrucción en el dominio del tiempo intermedia de una señal de audio basada en la envolvente en el dominio del tiempo objetivo.
  4. 4. Aparato (2) según la reivindicación 1 o 2, en el que el calculador de fase (8) se configura para aplicar una convolución de una representación espectral de al menos una envolvente en el dominio del tiempo objetivo (14) y al menos una reconstrucción en el dominio de la frecuencia intermedia (28) o partes o bandas seleccionadas o únicamente una parte de paso alto o únicamente varias partes de paso de banda de la al menos una envolvente en el dominio del tiempo objetivo o la al menos una reconstrucción en el dominio de la frecuencia intermedia de una señal de audio.
  5. 5. Aparato (2) según la reivindicación 3, en el que el calculador de fase comprende:
    un convertidor de frecuencia a tiempo (22) para calcular la reconstrucción en el dominio del tiempo intermedia (28) de la señal de audio (4) a partir de la secuencia de tramas en el dominio de la frecuencia (12) y estimaciones del valor de fase inicial (18) o estimaciones de valor de fase (20) de una etapa de iteración anterior,
    un modulador de amplitud (24) para modular la reconstrucción en el dominio del tiempo intermedia (28) usando una envolvente en el dominio del tiempo objetivo (14) para obtener una señal de audio modulada por amplitud (30), y
    un convertidor de tiempo a frecuencia (26) para convertir la señal modulada por amplitud (30) en una secuencia adicional de tramas en el dominio de la frecuencia (32) que tienen valores de fase (10), y en el que el calculador de fase se configura para usar, para una etapa de iteración posterior, los valores de fase y los valores espectrales de la secuencia de tramas en el dominio de la frecuencia (12).
  6. 6. Aparato (2) según la reivindicación 5,
    en el que el calculador de fase (8) se configura para emitir la reconstrucción en el dominio del tiempo intermedia (28) como la señal de audio procesada (6), cuando se cumple una condición de determinación de iteración.
  7. 7. Aparato (2) según la reivindicación 4,
    en el que el calculador de fase comprende:
    un procesador de convolución (40) para aplicar un núcleo de convolución y para aplicar un núcleo de desplazamiento y para agregar una parte superpuesta de una trama adyacente de una trama central a la trama central para obtener la reconstrucción en el dominio de la frecuencia intermedia (28') de la señal de audio (4).
  8. 8. Aparato (2) según la reivindicación 4 o 7,
    en el que el calculador de fase (8) se configura para usar valores de fase (10) obtenidos por la convolución (34) como estimaciones de valor de fase actualizadas (20) para una etapa de iteración posterior.
  9. 9. Aparato (2) según una de las reivindicaciones 4, 7 u 8,
    que comprende además un convertidor de envolvente objetivo (36) para convertir la envolvente en el dominio del tiempo objetivo en el dominio espectral.
  10. 10. Aparato (2) según una de las reivindicaciones 4, 7, 8, 9, que comprende además:
    un convertidor de frecuencia a tiempo (38) para calcular la reconstrucción en el dominio del tiempo (28") a partir de la reconstrucción en el dominio de la frecuencia intermedia (28', 28"') usando las estimaciones de valor de fase (10, 20) obtenidas de una etapa de iteración más reciente y la secuencia de tramas en el dominio de la frecuencia (12).
  11. 11. Aparato (2) según una de las reivindicaciones 4, 7, 8, 9, 10,
    en el que el calculador de fase (8) comprende un procesador de convolución (40) para procesar la secuencia de tramas en el dominio de la frecuencia (12), en el que el procesador de convolución se configura para aplicar un procedimiento de superposición y adición en el dominio del tiempo a la secuencia de tramas en el dominio de la frecuencia (12) en el dominio de la frecuencia para determinar la reconstrucción en el dominio de la frecuencia intermedia.
  12. 12. Aparato (2) según la reivindicación 11,
    en el que el procesador de convolución (40) se configura para determinar, basándose en una trama en el dominio de la frecuencia actual, una parte de una trama en el dominio de la frecuencia adyacente que contribuye a la trama en el dominio de la frecuencia actual después de realizar la superposición y adición en el dominio del tiempo en el dominio de la frecuencia,
    en el que el procesador de convolución se configura además para determinar una posición de superposición de la parte de la trama en el dominio de la frecuencia adyacente dentro de la trama en el dominio de la frecuencia actual y para realizar una adición de las partes de las tramas en el dominio de la frecuencia adyacentes con la trama en el dominio de la frecuencia actual en la posición de superposición.
  13. 13. Aparato (2) según una de las reivindicaciones 11 o 12, en el que el procesador de convolución se configura para transformar de frecuencia a tiempo una ventana de síntesis en el dominio del tiempo y de análisis en el dominio del tiempo para determinar una parte de una trama en el dominio de la frecuencia adyacente que contribuye a la trama en el dominio de la frecuencia actual después de realizarse la superposición y adición en el dominio del tiempo en el dominio de la frecuencia, en el que el procesador de convolución se configura además para desplazar la posición de la trama en el dominio de la frecuencia adyacente a una posición de superposición dentro de la trama en el dominio de la frecuencia actual y para aplicar la parte de la trama en el dominio de la frecuencia adyacente a la trama actual en la posición de superposición.
  14. 14. Aparato (2) según una de las reivindicaciones anteriores,
    en el que el calculador de fase (8) se configura para realizar el algoritmo iterativo según el procedimiento de reconstrucción de señal iterativo de Griffin y Lim.
  15. 15. Codificador de audio (110), que comprende:
    el aparato (2) según una de las reivindicaciones 1 a 14, y
    una interfaz de entrada (112) para recibir una señal codificada (108), comprendiendo la señal codificada una representación de la secuencia de tramas en el dominio de la frecuencia y una representación de la envolvente en el dominio del tiempo objetivo (18).
  16. 16. Procesador de separación de fuentes de audio (116), que comprende:
    un aparato (2) de procesamiento según una de las reivindicaciones 1 a 14, y un enmascarador espectral (118) para enmascarar un espectro de una señal de audio original para obtener una señal de audio modificada introducida en el aparato para el procesamiento,
    en el que la señal de audio procesada (6) es una señal de fuente separada relacionada con la envolvente en el dominio del tiempo objetivo (14).
  17. 17. Procesador de mejora de ancho de banda (122) para procesar una señal de audio codificada, que comprende:
    un procesador de mejora (126) para generar una señal de mejora (127) a partir de una banda de señal de audio incluida en la señal codificada, y
    un aparato (2) de procesamiento según una de las reivindicaciones 1 a 14,
    en el que el procesador de mejora (126) se configura para extraer la envolvente en el dominio del tiempo objetivo (14) de una representación codificada incluida en la señal codificada o de la banda de señal de audio incluida en la señal codificada.
  18. 18. Método (2200) para procesar una señal de audio para obtener una señal de audio procesada, que comprende:
    calcular valores de fase para valores espectrales de una secuencia de tramas en el dominio de la frecuencia que representen tramas superpuestas de la señal de audio,
    caracterizado porque los valores de fase se calculan basándose en información sobre una envolvente en el dominio del tiempo objetivo relacionada con la señal de audio procesada, de modo que la señal de audio procesada tenga al menos en una aproximación la envolvente en el dominio del tiempo objetivo y una envolvente espectral determinada por la secuencia de tramas en el dominio de la frecuencia.
  19. 19. Método (2300) de decodificación de audio, que comprende:
    el método según la reivindicación 18;
    recibir una señal codificada, comprendiendo la señal codificada una representación de la secuencia de tramas en el dominio de la frecuencia, y una representación de la envolvente en el dominio del tiempo objetivo.
  20. 20. Método (2400) de separación de fuentes de audio, que comprende:
    el método según la reivindicación 18, y
    enmascarar un espectro de una señal de audio original para obtener una señal de audio modificada introducida en el aparato para el procesamiento;
    en el que la señal de audio procesada es una señal de fuente separada relacionada con la envolvente en el dominio del tiempo objetivo.
  21. 21. Método (2500) de mejora de ancho de banda de una señal de audio codificada, que comprende:
    generar una señal de mejora a partir de una banda de señal de audio incluida en la señal codificada; el método según la reivindicación 18;
    en el que la generación comprende extraer la envolvente en el dominio del tiempo objetivo de una representación codificada incluida en la señal codificada o de la banda de señal de audio incluida en la señal codificada.
  22. 22. Programa informático para realizar, cuando se ejecuta en un ordenador o un procesador, el método según una de las reivindicaciones 18, 19, 20 o 21.
ES16705948T 2015-02-26 2016-02-23 Aparato y método para procesar una señal de audio para obtener una señal de audio procesada usando una envolvente en el dominio del tiempo objetivo Active ES2837107T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15156704 2015-02-26
EP15181118 2015-08-14
PCT/EP2016/053752 WO2016135132A1 (en) 2015-02-26 2016-02-23 Apparatus and method for processing an audio signal to obtain a processed audio signal using a target time-domain envelope

Publications (1)

Publication Number Publication Date
ES2837107T3 true ES2837107T3 (es) 2021-06-29

Family

ID=55409840

Family Applications (1)

Application Number Title Priority Date Filing Date
ES16705948T Active ES2837107T3 (es) 2015-02-26 2016-02-23 Aparato y método para procesar una señal de audio para obtener una señal de audio procesada usando una envolvente en el dominio del tiempo objetivo

Country Status (11)

Country Link
US (1) US10373623B2 (es)
EP (1) EP3262639B1 (es)
JP (1) JP6668372B2 (es)
KR (1) KR102125410B1 (es)
CN (1) CN107517593B (es)
BR (1) BR112017018145B1 (es)
CA (1) CA2976864C (es)
ES (1) ES2837107T3 (es)
MX (1) MX2017010593A (es)
RU (1) RU2679254C1 (es)
WO (1) WO2016135132A1 (es)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6445417B2 (ja) * 2015-10-30 2018-12-26 日本電信電話株式会社 信号波形推定装置、信号波形推定方法、プログラム
US9842609B2 (en) * 2016-02-16 2017-12-12 Red Pill VR, Inc. Real-time adaptive audio source separation
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3382703A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and methods for processing an audio signal
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
EP3457401A1 (en) * 2017-09-18 2019-03-20 Thomson Licensing Method for modifying a style of an audio object, and corresponding electronic device, computer readable program products and computer readable storage medium
WO2019083130A1 (ko) * 2017-10-25 2019-05-02 삼성전자주식회사 전자 장치 및 그 제어 방법
US10529349B2 (en) * 2018-04-16 2020-01-07 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction
EP3576088A1 (en) 2018-05-30 2019-12-04 Fraunhofer Gesellschaft zur Förderung der Angewand Audio similarity evaluator, audio encoder, methods and computer program
EP3841821B1 (en) * 2018-08-20 2023-06-28 Telefonaktiebolaget Lm Ericsson (Publ) Physical random access channel signal generation optimization for 5g new radio
WO2020094263A1 (en) * 2018-11-05 2020-05-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs
US10659099B1 (en) * 2018-12-12 2020-05-19 Samsung Electronics Co., Ltd. Page scanning devices, computer-readable media, and methods for bluetooth page scanning using a wideband receiver
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
US11456007B2 (en) * 2019-01-11 2022-09-27 Samsung Electronics Co., Ltd End-to-end multi-task denoising for joint signal distortion ratio (SDR) and perceptual evaluation of speech quality (PESQ) optimization
CN109753943B (zh) * 2019-01-14 2023-09-19 沈阳化工大学 一种自适应分配变模态分解方法
CN110411439B (zh) * 2019-07-15 2021-07-09 北京控制工程研究所 一种根据星能量等级生成仿真星点的方法、装置及介质
KR102294639B1 (ko) 2019-07-16 2021-08-27 한양대학교 산학협력단 다중 디코더를 이용한 심화 신경망 기반의 비-자동회귀 음성 합성 방법 및 시스템
CN110838299B (zh) * 2019-11-13 2022-03-25 腾讯音乐娱乐科技(深圳)有限公司 一种瞬态噪声的检测方法、装置及设备
CN111402858B (zh) * 2020-02-27 2024-05-03 平安科技(深圳)有限公司 一种歌声合成方法、装置、计算机设备及存储介质
CN112133319B (zh) * 2020-08-31 2024-09-06 腾讯音乐娱乐科技(深圳)有限公司 音频生成的方法、装置、设备及存储介质
WO2022076404A1 (en) * 2020-10-05 2022-04-14 The Trustees Of Columbia University In The City Of New York Systems and methods for brain-informed speech separation
CN112257577A (zh) * 2020-10-21 2021-01-22 华北电力大学 一种利用线性流形投影的微震信号重构方法和系统
CN113191317B (zh) * 2021-05-21 2022-09-27 江西理工大学 一种基于极点构造低通滤波器的信号包络提取方法和装置
US11682411B2 (en) 2021-08-31 2023-06-20 Spotify Ab Wind noise suppresor
CN113835065B (zh) * 2021-09-01 2024-05-17 深圳壹秘科技有限公司 基于深度学习的声源方向确定方法、装置、设备及介质
CN113903355B (zh) * 2021-12-09 2022-03-01 北京世纪好未来教育科技有限公司 语音获取方法、装置、电子设备及存储介质
CN115116460B (zh) * 2022-06-17 2024-03-12 腾讯科技(深圳)有限公司 音频信号增强方法、装置、设备、存储介质及程序产品
CN115691541B (zh) * 2022-12-27 2023-03-21 深圳元象信息科技有限公司 语音分离方法、装置及存储介质
CN116229999A (zh) * 2022-12-28 2023-06-06 阿里巴巴达摩院(杭州)科技有限公司 音频信号处理方法、装置、设备及存储介质
CN117745551B (zh) * 2024-02-19 2024-04-26 电子科技大学 一种图像信号相位恢复的方法
CN118230745B (zh) * 2024-05-23 2024-07-26 玖益(深圳)医疗科技有限公司 连续调制声音信号生成方法、耳鸣匹配方法及存储介质

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69612958T2 (de) 1995-11-22 2001-11-29 Koninklijke Philips Electronics N.V., Eindhoven Verfahren und vorrichtung zur resynthetisierung eines sprachsignals
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
EP1527441B1 (en) * 2002-07-16 2017-09-06 Koninklijke Philips N.V. Audio coding
DE10313875B3 (de) * 2003-03-21 2004-10-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Analysieren eines Informationssignals
US7415392B2 (en) 2004-03-12 2008-08-19 Mitsubishi Electric Research Laboratories, Inc. System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution
DE102004021403A1 (de) * 2004-04-30 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung
NZ562182A (en) * 2005-04-01 2010-03-26 Qualcomm Inc Method and apparatus for anti-sparseness filtering of a bandwidth extended speech prediction excitation signal
TWI324336B (en) * 2005-04-22 2010-05-01 Qualcomm Inc Method of signal processing and apparatus for gain factor smoothing
CN101140759B (zh) * 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
CN101197577A (zh) * 2006-12-07 2008-06-11 展讯通信(上海)有限公司 一种用于音频处理框架中的编码和解码方法
US7715342B2 (en) * 2007-06-22 2010-05-11 Research In Motion Limited Location of packet data convergence protocol in a long-term evolution multimedia broadcast multicast service
CN101521010B (zh) * 2008-02-29 2011-10-05 华为技术有限公司 一种音频信号的编解码方法和装置
CN101662288B (zh) * 2008-08-28 2012-07-04 华为技术有限公司 音频编码、解码方法及装置、系统
WO2010028297A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
CN101770776B (zh) 2008-12-29 2011-06-08 华为技术有限公司 瞬态信号的编码方法和装置、解码方法和装置及处理系统
PL2234103T3 (pl) * 2009-03-26 2012-02-29 Fraunhofer Ges Forschung Urządzenie i sposób manipulacji sygnałem audio
WO2011039668A1 (en) * 2009-09-29 2011-04-07 Koninklijke Philips Electronics N.V. Apparatus for mixing a digital audio
JP5651980B2 (ja) * 2010-03-31 2015-01-14 ソニー株式会社 復号装置、復号方法、およびプログラム
US9546924B2 (en) * 2011-06-30 2017-01-17 Telefonaktiebolaget Lm Ericsson (Publ) Transform audio codec and methods for encoding and decoding a time segment of an audio signal
CN103258539B (zh) * 2012-02-15 2015-09-23 展讯通信(上海)有限公司 一种语音信号特性的变换方法和装置
EP2631906A1 (en) * 2012-02-27 2013-08-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Phase coherence control for harmonic signals in perceptual audio codecs
EP2819783B1 (en) * 2012-02-27 2018-10-10 Ecole Polytechnique Fédérale de Lausanne (EPFL) Sample processing device with detachable slide
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
US9368103B2 (en) * 2012-08-01 2016-06-14 National Institute Of Advanced Industrial Science And Technology Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
CN104103276B (zh) * 2013-04-12 2017-04-12 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
KR101732059B1 (ko) * 2013-05-15 2017-05-04 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
WO2015087107A1 (en) * 2013-12-11 2015-06-18 European Aeronautic Defence And Space Company Eads France Phase retrieval algorithm for generation of constant time envelope with prescribed fourier transform magnitude signal

Also Published As

Publication number Publication date
CN107517593A (zh) 2017-12-26
US10373623B2 (en) 2019-08-06
KR102125410B1 (ko) 2020-06-22
KR20170125058A (ko) 2017-11-13
US20170345433A1 (en) 2017-11-30
EP3262639A1 (en) 2018-01-03
EP3262639B1 (en) 2020-10-07
JP2018510374A (ja) 2018-04-12
BR112017018145B1 (pt) 2023-11-28
CA2976864A1 (en) 2016-09-01
WO2016135132A1 (en) 2016-09-01
BR112017018145A2 (pt) 2018-04-10
MX2017010593A (es) 2018-05-07
CN107517593B (zh) 2021-03-12
JP6668372B2 (ja) 2020-03-18
RU2679254C1 (ru) 2019-02-06
CA2976864C (en) 2020-07-14

Similar Documents

Publication Publication Date Title
ES2837107T3 (es) Aparato y método para procesar una señal de audio para obtener una señal de audio procesada usando una envolvente en el dominio del tiempo objetivo
RU2667629C1 (ru) Гармоническое преобразование, усовершенствованное перекрестным произведением
RU2676414C2 (ru) Аудиопроцессор и способ для обработки аудиосигнала с использованием вертикальной фазовой коррекции
ES2807248T3 (es) Procesamiento de señales de audio durante la reconstrucción de alta frecuencia
ES2657337T3 (es) Extensión de ancho de banda de audio mediante inserción de ruido pre-formado temporal en el dominio de frecuencia
Dittmar et al. Towards transient restoration in score-informed audio decomposition
RU2778834C1 (ru) Гармоническое преобразование, усовершенствованное перекрестным произведением
RU2825717C1 (ru) Гармоническое преобразование, усовершенствованное перекрестным произведением
RU2806621C1 (ru) Гармоническое преобразование, усовершенствованное перекрестным произведением