ES2930268T3 - Descomposición de una señal de audio en señales de componente transitorias y tipo ruido - Google Patents

Descomposición de una señal de audio en señales de componente transitorias y tipo ruido Download PDF

Info

Publication number
ES2930268T3
ES2930268T3 ES17798236T ES17798236T ES2930268T3 ES 2930268 T3 ES2930268 T3 ES 2930268T3 ES 17798236 T ES17798236 T ES 17798236T ES 17798236 T ES17798236 T ES 17798236T ES 2930268 T3 ES2930268 T3 ES 2930268T3
Authority
ES
Spain
Prior art keywords
signal
block
blocks
foreground
current block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17798236T
Other languages
English (en)
Inventor
Alexander Adami
Jürgen Herre
Sascha Disch
Florin Ghido
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2930268T3 publication Critical patent/ES2930268T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/035Crossfade, i.e. time domain amplitude envelope control of the transition between musical sounds or melodies, obtained for musical purposes, e.g. for ADSR tone generation, articulations, medley, remix
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)

Abstract

Un aparato para descomponer una señal de audio (100) en una señal de componente de fondo (140) y una señal de componente de primer plano (150), comprende: un generador de bloques (110) para generar una secuencia temporal de bloques de valores de señal de audio; un analizador de señales de audio (120) para determinar una característica de bloque de un bloque actual de la señal de audio y para determinar una característica promedio para un grupo de bloques, comprendiendo el grupo de bloques al menos dos bloques; y un separador (130) para separar el bloque actual en una porción de fondo y una porción de primer plano en respuesta a una proporción de la característica de bloque del bloque actual y la característica promedio del grupo de bloques, (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Descomposición de una señal de audio en señales de componente transitorias y tipo ruido
La presente invención se refiere a procesamiento de audio y, en particular, a la descomposición de señales de audio en una señal de componente de fondo y una señal de componente de primer plano.
Existen una cantidad significativa de referencias dirigidas a procesamiento de señales de audio, en las cuales algunas de estas referencias están relacionadas con descomposición de señales de audio. Referencias de ejemplo son:
[1] S. Disch y A. Kuntz, A Dedicated Decorrelator for Parametric Spatial Coding of Applause-Like Audio Signals. Springer-Verlag, enero 2012, pp. 355-363.
[2] A. Kuntz, S. Disch, T. Backstrom y J. Robilliard, “The Transient Steering Decorrelator Tool in the Upcoming MPEG Unified Speech and Audio Coding Standard,” en 131st Convention ofthe AES, Nueva York, EE. UU., 2011.
[3] A. Walther, C. Uhle y S. Disch, “Using Transient Suppression in Blind Multi-channel Upmix Algorithms,” en Proceedings, 122nd AES Pro Audio Expo and Convention, mayo 2007.
[4] G. Hotho, S. van de Par y J. Breebaart, “Multichannel coding of applause signals”, EURASIP J. Adv. Signal Process, vol. 2008, enero, 2008. [En línea]. Disponible: http://dx.doi.org/10.1155/2008/531693
[5] D. FitzGerald, “Harmonic/Percussive Separation Using Median Filtering,” en Proceedings of the 13th International Conference on Digital Audio Effects (DAFx-10), Graz, Austria, 2010.
[6] J. P. Bello, L. Daudet, S. Abdallah, C. Duxbury, M. Davies y M. B. Sandler, “A Tutorial on Onset Detection in Music Signals,” IEEE Transactions on Speech and Audio Processing, vol. 13, no. 5, pp. 1035-1047, 2005.
[7] M. Goto e Y. Muraoka, “Beat tracking based on multiple-agent architecture - a real-time beat tracking system for audio signals,” en Proceedings of the 2nd International Conference on Multiagent Systems, 1996, pp. 103-110.
[8] A. Klapuri, “Sound onset detection by applying psychoacoustic knowledge,” en Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol. 6,1999, pp. 3089-3092 vol.6.
Adicionalmente, el documento WO 2010017967 describe un aparato para determinar una señal de audio multicanal de salida espacial con base en una señal de audio de entrada que comprende un descomponedor semántico para descomponer la salida de audio de entrada en una primera señal descompuesta que es una parte de señal de primer plano y en una segunda señal descompuesta que es una parte de señal de fondo. Adicionalmente, un renderizador se configura para renderizar la parte de señal de primer plano utilizando paneo de amplitud y para renderizar la parte de señal de fondo por descorrelación. Finalmente, la primera señal renderizada y la segunda señal renderizada se procesan para obtener una señal de audio multicanal de salida espacial.
Adicionalmente, las referencias [1] y [2] dan a conocer un descorrelacionador de dirección transitoria.
La solicitud europea aún no publicada 16156200.4 da a conocer un procesamiento de envolvente de alta resolución. El procesamiento de envolvente de alta resolución es una herramienta para codificación mejorada de señales que consiste predominantemente en muchos eventos transitorios densos tal como aplauso, sonidos de gotas de lluvia, etc. En un lado de codificador, la herramienta funciona como un preprocesador con alta resolución temporal antes del códec de audio perceptual real al analizar la señal de entrada, atenuándola y, por lo tanto, aplanando temporalmente la parte de alta frecuencia de eventos transitorios y generando una pequeña cantidad de información adicional tal como 1 a 4 kbps para señales estéreo. En el lado de decodificador, la herramienta funciona como un posprocesador después del códec de audio al aumentar y, por lo tanto, conformar temporalmente la parte de alta frecuencia de eventos transitorios, haciendo uso de la información adicional que se generó durante la codificación.
La mezcla ascendente implica por lo general una descomposición de señal en partes de señal directa y ambiente, donde la señal directa se panea entre altavoces y la parte ambiente se descorrelaciona y se distribuye a través del número dado de canales. Los componentes directos restantes, como transitorios, dentro de las señales ambiente conducen a un deterioro del ambiente percibido resultante en la escena de sonido mezclada ascendentemente. En [3] se propone una detección y un procesamiento de transitorios que reduce transitorios detectados dentro de la señal ambiente. Un método propuesto para detección de transitorios comprende una comparación entre una suma ponderada por frecuencia de bins en un bloque de tiempo y una media ponderada de larga duración para decidir si se va a eliminar o no un determinado bloque.
En [4], se aborda la codificación de audio espacial eficiente de señales de aplauso. Todos los métodos de mezcla ascendente y mezcla descendente propuestos funcionan para una señal de aplauso completo.
Adicionalmente, la referencia [5] da a conocer una separación armónica/de percusión donde las señales se separan en componentes de señal armónicos y de percusión al aplicar filtros de mediana al espectrograma en dirección horizontal y vertical.
La referencia [6] representa un tutorial que comprende enfoques en el dominio de la frecuencia, enfoques en el dominio del tiempo tal como un seguidor de envolvente o un seguidor de energía en el contexto de detección de inicio. La referencia [7] describe rastreo de potencia en el dominio de la frecuencia tal como un incremento rápido de potencia y la referencia [8] describe una medición novedosa para el propósito de detección de inicio.
La separación de una señal en una parte de señal de primer plano y una parte de señal de fondo como se describe en las referencias de la técnica anterior es desventajosa debido al hecho de que estos procedimientos conocidos pueden dar como resultado una calidad de audio reducida de una señal resultante o de señales descompuestas.
Es un objeto de la presente invención proporcionar un concepto mejorado para el propósito de descomponer una señal de audio en una señal de componente de fondo y una señal de componente de primer plano.
Este objeto se logra por un aparato para descomponer una señal de audio en una señal de componente de fondo y una señal de componente de primer plano según la reivindicación 1, un método para descomponer una señal de audio en una señal de componente de fondo y una señal de componente de primer plano según la reivindicación 18 o por un programa informático según la reivindicación 19.
En un aspecto, un aparato para descomponer una señal de audio en una señal de componente de fondo y una señal de componente de primer plano comprende un generador de bloques para generar una secuencia de tiempo de bloques de valores de señal de audio, un analizador de señales de audio conectado al generador de bloques y un separador conectado al generador de bloques y el analizador de señales de audio. Según un primer aspecto, el analizador de señales de audio se configura para determinar una característica de bloque de un bloque actual de señal de audio y una característica promedio para un grupo de bloques, comprendiendo el grupo de bloques al menos dos bloques tal como un bloque precedente, el bloque actual y un bloque siguiente e incluso más bloques precedentes o más bloques siguientes.
El separador se configura para separar el bloque actual en una porción de fondo y una porción de primer plano en respuesta a una relación de la característica de bloque del bloque actual y la característica promedio. Por lo tanto, la señal de componente de fondo comprende la porción de fondo del bloque actual y la señal de componente de primer plano comprende la porción de primer plano del bloque actual. Por lo tanto, el bloque actual no se decide simplemente como que es ya sea de fondo o de primer plano. En su lugar, el bloque actual se separa realmente en una porción de fondo diferente de cero y una porción de primer plano diferente de cero. Este procedimiento refleja la situación de que, normalmente, una señal de primer plano nunca existe por separado en una señal sino que siempre está combinada con un componente de señal de fondo. Por lo tanto, la presente invención, según este primer aspecto, refleja la situación de que, independientemente de si se lleva a cabo o no una cierta fijación de umbral, la separación real, ya sea sin algún umbral o cuando se alcanza un cierto umbral por la relación, siempre permanece una porción de fondo además de la porción de primer plano.
Adicionalmente, la separación se hace por una medición de separación muy específica, es decir, la relación de una característica de bloque del bloque actual y la característica promedio derivada de al menos dos bloques, es decir, derivada del grupo de bloques. Por lo tanto, dependiendo del tamaño del grupo de bloques, se puede establecer un promedio móvil que varía de forma bastante lenta o un promedio móvil que varía de forma bastante rápida. Para un alto número de bloques en el grupo de bloques, el promedio móvil cambia relativamente de forma lenta en tanto que, para un número pequeño de bloques en el grupo de bloques, el promedio móvil cambia bastante rápido. Adicionalmente, el uso de una relación entre una característica del bloque actual y una característica promedio a través del grupo de bloques refleja una situación perceptual, es decir, que los individuos perciben un cierto bloque como que comprende un componente de primer plano cuando una relación entre una característica de este bloque con respecto a un promedio está a un cierto valor. Según este aspecto, sin embargo, este determinado valor no tiene que ser necesariamente un umbral. En su lugar, la propia relación ya se puede utilizar para llevar a cabo una separación cuantitativa del bloque actual en una porción de fondo y una porción de primer plano. Una alta relación da como resultado una alta porción del bloque actual que es una porción de primer plano en tanto que una baja relación da como resultado la situación de que la mayoría o casi todo el bloque actual permanece en la porción de fondo y el bloque actual solo tiene una pequeña porción de primer plano y no tiene ninguna porción de primer plano.
Según la invención, se determina una característica relacionada con la amplitud y esta característica relacionada con la amplitud tal como una energía del bloque actual se compara con una energía promedio del grupo de bloques para obtener la relación, con base en la cual se lleva a cabo la separación. A fin de asegurarse que en respuesta a una separación permanezca una señal de fondo, se determina un factor de ganancia y este factor de ganancia entonces controla la cantidad de la energía promedio de un cierto bloque que permanece dentro de la señal de fondo o tipo ruido y cuya porción entra a la porción de señal de primer plano que, por ejemplo, puede ser una señal transitoria tal como una señal de aplauso o una señal de gota de lluvia o similares.
En un segundo aspecto adicional de la presente invención que se puede utilizar además del primer aspecto o de manera independiente del primer aspecto, el aparato para descomponer la señal de audio comprende un generador de bloques, un analizador de señales de audio y un separador. El analizador de señales de audio se configura para analizar la característica del bloque actual de la señal de audio. La característica del bloque actual de la señal de audio es la relación como se analiza con respecto al primer aspecto. Adicionalmente, el analizador de señales de audio se configura para determinar una variabilidad de la característica dentro de un grupo de bloques, donde el grupo de bloques comprende al menos dos bloques y de manera preferente al menos dos bloques precedentes con o sin el bloque actual o al menos dos siguientes bloques con o sin el bloque actual, o ambos al menos dos bloques precedentes, al menos dos siguientes bloques, de nuevo con o sin el bloque actual. En realizaciones preferidas, el número de bloques es mayor que 30 o incluso 40.
Adicionalmente, el separador se configura para separar el bloque actual en la porción de fondo y la porción de primer plano, en el que este separador se configura para determinar un umbral de separación con base en la variabilidad determinada por el analizador de señales y para separar el bloque actual cuando la característica del bloque actual está en una relación predeterminada al umbral de separación tal como mayor que o igual al umbral de separación. Naturalmente, cuando se define que el umbral es una clase de valor inverso entonces la relación predeterminada puede ser más pequeña que la relación o más pequeña que o igual a la relación. Por lo tanto, la fijación de umbral siempre se lleva a cabo de tal forma que cuando la característica está dentro de una relación predeterminada al umbral de separación entonces la separación en la porción de fondo y la porción de primer plano se lleva a cabo en tanto que, cuando la característica no está dentro de la relación predeterminada al umbral de separación entonces no se lleva a cabo una separación.
Según el segundo aspecto que utiliza el umbral variable dependiendo de la variabilidad de la característica dentro del grupo de bloques, la separación puede ser una separación completa, es decir, que el bloque completo de valores de señal de audio se introduzca en el componente de primer plano cuando se lleva a cabo una separación o el bloque completo de los valores de señal de audio se asemeje a una porción de señal de fondo cuando no se cumple la relación predeterminada con respecto al umbral de separación variable. En una realización preferida este aspecto se combina con el primer aspecto ya que tan pronto como se encuentra que el umbral variable está en una relación predeterminada con la característica entonces se lleva a cabo una separación no binaria, es decir, que solo una porción de los valores de señal de audio se pone en la porción de señal de primer plano y una porción restante se deja en la señal de fondo.
De manera preferente, la separación de la porción de la porción de señal de primer plano y la porción de señal de fondo se determina con base en un factor de ganancia, es decir, los mismos valores de señal están, al final, dentro de la porción de señal de primer plano y la porción de señal de fondo pero la energía de los valores de señal dentro de las diferentes porciones son diferentes entre sí y se determinan por una ganancia de separación que, al final, depende de la relación para el bloque actual entre la característica de bloque para el bloque actual y una característica promedio para el grupo de bloques asociados con el bloque actual.
El uso de un umbral variable refleja la situación de que los individuos perciben una porción de señal de primer plano incluso como una pequeña desviación de una señal bastante estacionaria, es decir, cuando se considera que una determinada señal es muy estacionaria, es decir, no tiene fluctuaciones significativas. Entonces incluso una pequeña fluctuación ya se percibe que es una porción de señal de primer plano. Sin embargo, cuando existe una señal fuertemente fluctuante entonces parece que la propia señal fuertemente fluctuante se percibe como el componente de señal de fondo y una pequeña desviación de este patrón de fluctuaciones no se percibe como una porción de señal de primer plano. Solo desviaciones más fuertes del valor promedio o esperado se perciben como una porción de señal de primer plano. Por lo tanto, se prefiere utilizar un umbral de separación bastante pequeño para señales con una pequeña varianza y utilizar un umbral de separación más alto para señales con una alta varianza. Sin embargo, cuando se consideran valores inversos la situación es opuesta a lo anterior.
Ambos aspectos, es decir, el primer aspecto que tiene una separación no binaria en la porción de señal de primer plano y la porción de señal de fondo con base en la relación entre la característica de bloque y la característica promedio y el segundo aspecto que comprende un umbral variable dependiendo de la variabilidad de la característica dentro del grupo de bloques, se pueden utilizar de forma independiente entre sí o incluso se pueden utilizar conjuntamente, es decir, en combinación entre sí. Esta última alternativa constituye una realización preferida como se describe posteriormente.
Las realizaciones de la invención están relacionadas con un sistema donde una señal de entrada se descompone en dos componentes de señal a los cuales se puede aplicar procesamiento individual y donde las señales procesadas se resintetizan para formar una señal de salida. Señales de aplauso y también otras señales transitorias se pueden ver como una superposición de eventos de aplauso transitorios que se pueden percibir de manera distinta e individual y una señal de fondo más tipo ruido. A fin de modificar características tal como la relación de densidad de señal de primer plano y de fondo, etc., de estas señales, es ventajoso permitir aplicar un procesamiento individual a cada parte de señal. Adicionalmente, se obtiene una separación de señal motivada por percepción humana. Adicionalmente, el concepto también se puede utilizar como un dispositivo de medición para medir características de señal tal como en un sitio de emisor y restablecer aquellas características en un sitio de receptor.
Las realizaciones de la presente invención no tienen como objetivo exclusivamente generar una señal de salida espacial multicanal. Una señal de entrada monofónica se descompone y partes de señales individuales se procesan y se resintetizan a una señal de salida monofónica. En algunas realizaciones el concepto, como se define en el primer o segundo aspecto, se producen mediciones de salida o información adicional en lugar de una señal audible.
Adicionalmente, una separación se basa en un aspecto perceptual y de manera preferente una característica o valor cuantitativo en lugar de un aspecto semántico.
Según las realizaciones, la separación se basa en una desviación de una energía instantánea con respecto a una energía promedio dentro de un intervalo de tiempo considerado corto. En tanto que un evento transitorio con un nivel de energía cerca de o por debajo de la energía promedio en este intervalo de tiempo no se percibe como sustancialmente diferente del fondo, eventos con una desviación alta de energía se pueden distinguir de la señal de fondo. Esta clase de separación de señal adopta el principio y permite procesamiento más cerca a la percepción humana de eventos transitorios y más cerca a la percepción humana de eventos de primer plano con respecto a eventos de fondo.
Posteriormente, se analizan las realizaciones preferidas de la presente invención con respecto a los dibujos anexos, en los cuales:
La figura 1a es un diagrama de bloques de un aparato para descomponer una señal de audio que se basa en una relación según un primer aspecto;
la figura 1b es un diagrama de bloques de una realización de un concepto para descomponer una señal de audio que se basa en un umbral de separación variable según un segundo aspecto;
la figura 1c ilustra un diagrama de bloques de un aparato para descomponer una señal de audio según el primer aspecto, el segundo aspecto o ambos aspectos;
la figura 1d ilustra una ilustración preferida del analizador de señales de audio y el separador según el primer aspecto, el segundo aspecto o ambos aspectos;
la figura 1e ilustra una realización del separador de señales según el segundo aspecto;
la figura 1f ilustra una descripción del concepto para descomponer una señal de audio según el primer aspecto, el segundo aspecto y con referencia a diferentes umbrales;
la figura 2 ilustra dos formas diferentes de separar valores de señal de audio del bloque actual en un componente de primer plano y un componente de fondo según el primer aspecto, el segundo aspecto o ambos aspectos;
la figura 3 ilustra una representación esquemática de bloques superpuestos generados por el generador de bloques y la generación de señales de componente de primer plano en el dominio de tiempo y señales de componente de fondo posteriores a una separación;
la figura 4a ilustra una primera alternativa para determinar un umbral variable con base en un suavizado de variabilidades sin procesar;
la figura 4b ilustra una determinación de un umbral variable con base en un suavizado de umbrales sin procesar; la figura 4c ilustra diferentes funciones para mapear variabilidades (suavizadas) a umbrales;
la figura 5 ilustra una implementación preferida para determinar la variabilidad como se requiere en el segundo aspecto; la figura 6 ilustra una vista general con respecto a la separación, un procesamiento de primer plano y un procesamiento de fondo y una resíntesis de señal posterior;
la figura 7 ilustra una medición y restauración de características de señal con o sin metadatos; y
la figura 8 ilustra un diagrama de bloques para un caso de uso de codificador-decodificador.
La figura 1a ilustra un aparato para descomponer una señal de audio en una señal de componente de fondo y una señal de componente de primer plano. La señal de audio se introduce a una entrada de señal de audio 100. La entrada de señal de audio se conecta a un generador de bloques 110 para generar una secuencia de tiempo de bloques de valores de señal de audio producidos en línea 112. Adicionalmente, el aparato comprende un analizador de señales de audio 120 para determinar una característica de bloque de un bloque actual de la señal de audio y para determinar, además, una característica promedio para un grupo de bloques, en el que el grupo de bloques comprende al menos dos bloques. De manera preferente, el grupo de bloques comprende al menos un bloque precedente o al menos un siguiente bloque y, además, el bloque actual.
Adicionalmente, el aparato comprende un separador 130 para separar el bloque actual en una porción de fondo y una porción de primer plano en respuesta a una relación de la característica de bloque del bloque actual y la característica promedio. Por lo tanto, la relación de la característica de bloque del bloque actual y la característica promedio se utiliza como una característica, con base en la cual se lleva a cabo la separación del bloque actual de valores de señal de audio. Particularmente, la señal de componente de fondo en la salida de señal 140 comprende la porción de fondo del bloque actual, y la señal de componente de primer plano producida en la salida de señal de componente de primer plano 150 comprende la porción de primer plano del bloque actual. El procedimiento ilustrado en la figura 1a se lleva a cabo de una forma de bloque por bloque, es decir, un bloque de la secuencia de tiempo de bloques se procesa después del otro por lo que, al final, cuando se ha procesado una secuencia de bloques de valores de señal de audio introducidos en la entrada 100, una secuencia correspondiente de bloques de la señal de componente de fondo y una misma secuencia de bloques de la señal de componente de primer plano existen en las líneas 140, 150 como se analizará posteriormente con respecto a la figura 3.
En la invención, el analizador de señales de audio se configura para analizar una medición relacionada con amplitud como la característica de bloque del bloque actual y, adicionalmente, el analizador de señales de audio 120 se configura para analizar adicionalmente la característica relacionada con amplitud para el grupo de bloques también.
En la invención, una medición de potencia o una medición de energía para el bloque actual y una medición de potencia promedio o una medición de energía promedio para el grupo de bloques se determina por el analizador de señales de audio, y una relación entre aquellos dos valores para el bloque actual se utiliza por el separador 130 para llevar a cabo la separación.
La figura 2 ilustra un procedimiento llevado a cabo por el separador 130 de la figura 1a según el primer aspecto. La etapa 200 representa la determinación de la relación según el primer aspecto.
En la etapa 202, se calcula una ganancia de separación de la relación. Entonces, una comparación de umbral en la etapa 204 se puede llevar a cabo de forma opcional. Cuando se lleva a cabo una comparación de umbral en la etapa 204, entonces el resultado puede ser que la característica está en una relación predeterminada al umbral. Cuando este es el caso, el control procede a la etapa 206. Cuando, sin embargo, se determina en la etapa 204 que la característica no está relacionada con el umbral predeterminado, entonces no se lleva a cabo ninguna separación y el control procede al siguiente bloque en la secuencia de bloques.
Según el primer aspecto, una comparación de umbral en la etapa 204 se puede llevar a cabo o, alternativamente, puede no llevarse a cabo como se ilustra por la línea punteada 208. Cuando se determina en el bloque 204 que la característica está en una relación predeterminada con el umbral de separación o, en la alternativa de la línea 208, en cualquier caso, se lleva a cabo la etapa 206, donde las señales de audio se ponderan utilizando una ganancia de separación. Para este fin, la etapa 206 recibe los valores de señal de audio de una señal de audio de entrada en una representación de tiempo o, de manera preferente, una representación espectral como se ilustra por la línea 210. Entonces, dependiendo de la aplicación de la ganancia de separación, el componente de primer plano C se calcula como se ilustra por la ecuación directamente más adelante en la figura 2. Específicamente, la ganancia de separación, que es una función de gN y la relación no se utilizan directamente, sino en una forma de diferencia, es decir, la función se resta de 1. Alternativamente, el componente de fondo N se puede calcular directamente al ponderar realmente la señal de audio A(k,n) por la función de gN/ (n).
La figura 2 ilustra varias posibilidades para calcular el componente de primer plano y el componente de fondo que se pueden llevar a cabo por el separador 130. Una posibilidad es que ambos componentes se calculen utilizando la ganancia de separación. Una alternativa es que solo se calcule el componente de primer plano utilizando la ganancia de separación y el componente de fondo N se calcule al restar el componente de primer plano de los valores de señal de audio como se ilustra en 210. La otra alternativa, sin embargo, es que el componente de fondo N se calcule directamente utilizando la ganancia de separación por el bloque 206 y, entonces, el componente de fondo N se resta de la señal de audio A para obtener finalmente el componente de primer plano C. Por lo tanto, la figura 2 ilustra 3 realizaciones diferentes para calcular el componente de fondo y el componente de primer plano en tanto que cada una de aquellas alternativas al menos comprende la ponderación de los valores de señal de audio utilizando la ganancia de separación.
Posteriormente, se ilustra la figura 1b a fin de describir el segundo aspecto de la presente invención que se basa en un umbral de separación variable.
La figura 1b, que representa el segundo aspecto, se basa en la señal de audio 100 que se introduce en el generador de bloques 110 y el generador de bloques se conecta al analizador de señales de audio 120 a través de la línea de conexión 122. Adicionalmente, la señal de audio se puede introducir en el analizador de señales de audio directamente a través de la línea de conexión adicional 111. El analizador de señales de audio 120 se configura para determinar una característica del bloque actual de la señal de audio, por una parte, y, adicionalmente, para determinar una variabilidad de la característica dentro de un grupo de bloques, comprendiendo el grupo de bloques al menos dos bloques y comprendiendo de manera preferente al menos dos bloques precedentes o dos siguientes bloques o al menos dos bloques precedentes, al menos dos siguientes bloques y el bloque actual también.
La característica del bloque actual y la variabilidad de la característica se retransmiten al separador 130 a través de una línea de conexión 129. El separador entonces se configura para separar el bloque actual en una porción de fondo y la porción de primer plano para generar la señal de componente de fondo 140 y la señal de componente de primer plano 150. Particularmente, el separador se configura, según el segundo aspecto, para determinar un umbral de separación con base en la variabilidad determinada por el analizador de señales de audio y para separar el bloque actual en la porción de señal de componente de fondo y la porción de señal de componente de primer plano, cuando la característica del bloque actual es una relación predeterminada con el umbral de separación. Cuando, sin embargo, la característica del bloque actual no está en la relación predeterminada al umbral de separación (variable), entonces no se lleva a cabo ninguna separación del bloque actual y el bloque actual completo se retransmite a o se utiliza o se asigna como la señal de componente de fondo 140.
Específicamente, el separador 130 se configura para determinar el primer umbral de separación para una primera variabilidad y el segundo umbral de separación para una segunda variabilidad, en el que el primer umbral de separación es menor que el segundo umbral de separación y la primera variabilidad es menor que la segunda variabilidad, y en el que la relación predeterminada es “mayor que”.
Se ilustra un ejemplo en la figura 4c, porción izquierda, donde el primer umbral de separación se indica en 401, donde el segundo umbral de separación se indica en 402, donde la primera variabilidad se indica en 501 y la segunda variabilidad se indica en 502. Particularmente, se hace referencia a la función lineal por partes, superior 410 que representa el umbral de separación en tanto que la función lineal por partes inferior 412 en la figura 4c ilustra el umbral de liberación que se describirá posteriormente. La figura 4c ilustra la situación, donde los umbrales son de tal forma que, para variabilidades crecientes, se determinan umbrales crecientes. Cuando, sin embargo, la situación se implementa de tal forma que, por ejemplo, se toman valores umbrales inversos con respecto a aquellos en la figura 4c, entonces la situación es de tal forma que el separador se configura para determinar un primer umbral de separación para una primera variabilidad y un segundo umbral de separación para una segunda variabilidad, en el que el primer umbral de separación es mayor que el segundo umbral de separación, y la primera variabilidad es menor que la segunda variabilidad y, en esta situación, la relación predeterminada es “menor que”, en lugar de “mayor que” como en la primera alternativa ilustrada en la figura 4c.
Dependiendo de ciertas implementaciones, el separador 130 se configura para determinar el umbral de separación (variable) ya sea utilizando un acceso de tabla, donde se almacenan las funciones ilustradas en la figura 4c, porción izquierda o porción derecha, o según una función de interpolación monótona que interpola entre el primer umbral de separación 401 y el segundo umbral de separación 402 de tal forma que, para una tercera variabilidad 503, se obtiene un tercer umbral de separación 403, y para una cuarta variabilidad 504, se obtiene un cuarto umbral, en el que el primer umbral de separación 401 se asocia con la primera variabilidad 501 y el segundo umbral de separación 402 se asocia con la segunda variabilidad 502, y en el que las variabilidades la tercera y cuarta 503, 504 se colocan, con respecto a sus valores, entre las variabilidades primera y segunda y los umbrales de separación tercero y cuarto 403, 404 se colocan, con respecto a sus valores, entre los umbrales de separación primero y segundo 401,402.
Como se ilustra en la figura 4c, porción izquierda, la interpolación monótona es una función lineal o, como se ilustra en la figura 4c, porción derecha, la función de interpolación monótona es una función cúbica o cualquier función de potencia con un orden mayor que 1.
La figura 6 representa un diagrama de bloques de nivel superior de una separación, procesamiento y síntesis de señal de aplauso de señales procesadas.
Particularmente, una etapa de separación 600 que se ilustra en detalle en la figura 6 separa una señal de audio de entrada a(t) en una señal de fondo n(t), y una señal de primer plano c(t), la señal de fondo se introduce en una etapa de procesamiento de fondo 602 y la señal de primer plano se introduce a una etapa de procesamiento de primer plano 604 y, con posterioridad al procesamiento, ambas señales n’(t) y c’(t) se combinan por un combinador 606 para obtener finalmente la señal procesada a’(t).
De manera preferente, con base en descomposición/separación de señales de la señal de entrada a(t) en aplausos distintamente perceptibles c(t) y señales de fondo más tipo ruido n(t), se lleva a cabo un procesamiento individual de las partes de señal descompuestas. Después del procesamiento, las señales de fondo y de primer plano modificadas c’(t) y n’(t) se resintetizan dando como resultado la señal de salida a’(t).
La figura 1c ilustra un diagrama de nivel superior de una etapa de separación de aplauso preferida. Un modelo de aplauso se da en la ecuación 1 y se ilustra en la figura 1f, donde una señal de aplauso A(k,n) consiste en una superposición de aplausos de primer plano distintamente e individualmente perceptibles C(k,n) y una señal de fondo más tipo ruido N(k,n). Las señales se consideran en el dominio de la frecuencia con alta resolución de tiempo, mientras que k y n denotan la frecuencia discreta k e índices de tiempo n de una transformada de frecuencia de tiempo corto, respectivamente.
Particularmente, el sistema en la figura 1c ilustra un procesador DFT 110 como el generador de bloques, un detector de primer plano que tiene funcionalidades del analizador de señales de audio 120 y el separador 130 de la figura 1a o la figura 1b, y etapas de separador de señales adicionales tal como un ponderador 152, que lleva a cabo la funcionalidad analizada con respecto a la etapa 206 de la figura 2, y un restador 154 que implementa la funcionalidad ilustrada en la etapa 210 en la figura 2. Adicionalmente, se proporciona un compositor de señales que compone, de una representación en el dominio de la frecuencia correspondiente, la señal de primer plano en dominio del tiempo c(t) y la señal de fondo n(t), donde el compositor de señales comprende, para cada componente de señal, un bloque DFT 160a, 160b.
La señal de entrada de aplauso a(t), es decir, la señal de entrada que comprende componentes de fondo y componentes de aplauso se alimenta a un conmutador de señales (no mostrado en la figura 1c) así como al detector de primer plano 150 donde, con base en las características de señal, se identifican cuadros que corresponden a aplausos de primer plano. La etapa de detector 150 produce la ganancia de separación gs(n) que se alimenta al conmutador de señales y controla las cantidades de señal encaminadas a la señal de aplauso distintamente e individualmente perceptible C(k,n) y la señal más tipo ruido N(k,n). El conmutador de señales se ilustra en el bloque 170 para ilustrar un conmutador binario, es decir, que un cierto cuadro o segmento de tiempo/frecuencia, es decir, solo un cierto bin de frecuencia de un cierto cuadro se encamina a ya sea C o N, según el segundo aspecto. Según el primer aspecto, la ganancia se utiliza para separar cada cuadro o varios bins de frecuencia de la representación espectral A(k,n) en un componente de primer plano y en un componente de fondo, por lo que, según la ganancia gs(n), que se basa en la relación entre la característica de bloque y la característica promedio según el primer aspecto, el cuadro completo o al menos uno o más segmentos de tiempo/frecuencia o bins de frecuencia se separan de tal forma que el bin correspondiente en cada una de las señales C y N tiene el mismo valor, pero con una amplitud diferente donde la relación de las amplitudes depende de gs(n).
La figura 1d ilustra una realización más detallada del detector de primer plano 150 que ilustra específicamente las funcionalidades del analizador de señales de audio. En una realización, el analizador de señales de audio recibe una representación espectral generada por el generador de bloques que tiene el bloque DFT (Transformada Discreta de Fourier) 110 de la figura 1c. Adicionalmente, el analizador de señales de audio se configura para llevar a cabo una filtración de paso alto con una cierta frecuencia de cruce predeterminada del bloque 170. Entonces, el analizador de señales de audio 120 de las figuras 1a o 1b lleva a cabo un procedimiento de extracción de energía en el bloque 172. El procedimiento de extracción de energía da como resultado una energía instantánea o actual del bloque actual !¡nst(n) y una energía promedio !avg(n).
El separador de señales 130 en las figuras 1a o 1b determina entonces la relación como se ilustra en 180 y, además, determina un umbral adaptativo o no adaptativo y lleva a cabo la operación de fijación de umbral correspondiente 182.
Adicionalmente, cuando se lleva a cabo la operación de fijación de umbral adaptativo según el segundo aspecto, entonces el analizador de señales de audio lleva a cabo adicionalmente una estimación de variabilidad de envolvente como se ilustra en el bloque 174, y la medición de variabilidad v(n) se retransmite al separador, y particularmente, al bloque de procesamiento de fijación de umbral adaptativo 182 para obtener finalmente la ganancia gs(n) como se describirá posteriormente.
Un diagrama de flujo de las partes internas del detector de señales del primer plano se representa en la figura 1d. Si se considera solo la ruta superior, esto corresponde a un caso sin fijación de umbral adaptativo mientras que es posible fijación de umbral adaptativo si también se tiene en cuenta la ruta inferior. La señal alimentada al detector de señales de primer plano se filtra por paso alto y se estima su energía promedio O") e instantánea. O") Las energías instantáneas de una señal X(k,n) están dadas por O$ n) = || ) (k,n) II, donde INI denota el vector normal y la energía promedio está dada por:
Figure imgf000009_0001
donde w(n) denota una ventana de ponderación aplicada a las estimaciones de energía instantánea con longitud de ventana L9 = 2M 1. Como una indicación en cuanto a si está activo un aplauso distinto dentro de la señal de entrada, la relación de energía (n) de energía instantánea y promedio se utiliza según;
, A(n ')
: n ) =
, a (%)
En el caso más simple sin fijación de umbral adaptativo, para casos de tiempo donde la relación de energía excede el umbral de ataque ; attack, la ganancia de separación que extrae la parte de aplauso distinta de la señal de entrada se ajusta a 1; en consecuencia, la señal tipo ruido es cero en estos casos de tiempo. Un diagrama de bloques de un sistema con conmutación de señal por hardware se representa en la figura 1e. Si es necesario evitar pérdidas de señal en la señal tipo ruido, se puede restar un término de corrección de la ganancia. Un buen punto de inicio es dejar que la energía promedio de la señal de entrada permanezca dentro de la señal tipo ruido. Esto se hace al restar @#(n)-1 o # (n )-1 de la ganancia. La cantidad de la energía promedio también se puede controlar al introducir una ganancia gN $ 0 que controla la cantidad de la energía promedio que permanece dentro de la señal tipo ruido. Esto conduce a la forma general de la ganancia de separación:
Figure imgf000009_0002
En una realización adicional, la ecuación anterior se remplaza por la siguiente ecuación:
Figure imgf000009_0003
Nota: si ; attack = 0, la cantidad de señal encaminada al aplauso distintivo solo depende de la relación de energía (n) y la ganancia fija gN que produce una decisión programada dependiente de la señal. En un sistema bien sintonizado, el periodo de tiempo en el cual la relación de energía excede los umbrales de ataque capta solo el evento transitorio real. En algunos casos, puede ser deseable extraer un periodo más largo de intervalos de tiempo después de que se presenta un ataque. Esto se puede hacer, por ejemplo, al introducir un umbral de liberación Trelease que indica el nivel al cual la relación de energía tiene que disminuir después de un ataque antes de que la ganancia de separación se ajuste de nuevo a cero:
Figure imgf000009_0004
En una realización adicional, la ecuación inmediatamente precedente se remplaza por la siguiente ecuación:
í 3 n ! m ax ( l ) >
: n ) ,0 ) , s í : n Tattack ,
As n ) = -As n — l ) , SÍ Tattack > : n ) > Trelease ,
° , SÍ : n ) ' Trelease
Un método alternativo, pero más estático, es simplemente encaminar un cierto número de cuadros después de un ataque detectado a la señal de aplauso distinta.
A fin de incrementar la flexibilidad de la fijación de umbral, los umbrales se pueden elegir de una forma adaptativa a la señal que da como resultado ; attack(n) y ; release(n), respectivamente. Los umbrales se controlan por una estimación de la variabilidad de la envolvente de la señal de entrada de aplauso, donde una alta variabilidad indica la presencia de aplausos distintiva e individualmente perceptibles y una variabilidad bastante baja indica una señal más tipo ruido y estacionaria. La estimación de variabilidad puede hacerse en el dominio del tiempo, así como en el dominio de la frecuencia. El método preferido en este caso es hacer la estimación en el dominio de la frecuencia:
v ' n ) = v a r ( [ , A n — M ), , A n — M 1 ),... , , A n m ) ]) , m = —M .... M
donde var() denota el cálculo de varianza. Para producir una señal más estable, la variabilidad estimada se suaviza por filtración de paso bajo que produce la estimación de variabilidad de envolvente final
v n ) = h TP n ) * v '(n )
donde * denota una convolución. El mapeo de variabilidad de envolvente a valores umbrales correspondientes se puede hacer por funciones de mapeo f attack(x) y f release(x) de tal forma que
Tattack n)= f attack(v n))
Trelease n)= f reiease (v n))
En una realización, la función de mapeo se puede llevar a cabo como funciones lineales recortadas, que corresponden a una interpolación lineal de los umbrales. La configuración para este escenario se representa en la figura 4c. Adicionalmente, también se podría utilizar una función de mapeo cúbica o funciones con mayor orden en general. En particular, los puntos de silla se pueden utilizar para definir niveles umbrales adicionales para valores de variabilidad entre aquellos definidos para aplausos escasos y densos. Esto se ilustra en forma de ejemplo en la figura 4c, lado derecho.
Las señales separadas se obtienen por
C k ,n ) = g s n ) ■ A k, n )
N k ,n ) = A k ,n ) — C (k ,n )
La figura 1f ilustra las ecuaciones analizadas anteriormente en general y con respecto a los bloques funcionales en las figuras 1a y 1b.
Adicionalmente, la figura 1f ilustra una situación donde, dependiendo de una cierta realización, no se aplica ningún umbral, un solo umbral o un umbral doble.
Adicionalmente, como se ilustra con respecto a las ecuaciones (7) a (9) en la figura 1f, se pueden utilizar umbrales adaptativos. Naturalmente, ya sea un solo umbral se utiliza como un solo umbral adaptativo. Entonces, solo la ecuación (8) sería activa y la ecuación (9) no sería activa. Sin embargo, se prefiere llevar a cabo fijación de umbral doble adaptativo en una determinada realización preferida, que implementa características del primer aspecto y el segundo aspecto conjuntamente.
Adicionalmente, las figuras 7 y 8 ilustran implementaciones adicionales en cuanto a cómo se puede implementar una cierta aplicación de la presente invención.
Particularmente, la figura 7, porción izquierda, ilustra un medidor de característica de señal 700 para medir una característica de señal de la señal de componente de fondo o la señal de componente de primer plano. Particularmente, la medición de la característica de señal 700 se configura para determinar una densidad del primer plano en el bloque 702 que ilustra una calculadora de densidad de primer plano que utiliza la señal de componente de primer plano o, alternativamente, o adicionalmente, el medidor de característica de señal se configura para llevar a cabo un cálculo de prominencia de primer plano que utiliza una calculadora de prominencia de primer plano 704 que calcula la fracción del primer plano con respecto a la señal de entrada original a(t).
Alternativamente, como se ilustra en la porción derecha de la figura 7, un procesador de primer plano 604 y un procesador de fondo 602 están allí, donde estos procesadores, en contraste con la figura 6, se basan en ciertos metadatos 0 que pueden ser los metadatos derivados por la figura 7, porción izquierda, o pueden ser cualquier otro metadato útil para llevar a cabo procesamiento de primer plano y procesamiento de fondo.
Las partes de señal de aplauso separadas se pueden alimentar en las etapas de medición donde se pueden medir ciertas características (perceptualmente motivadas) de señales transitorias. Una configuración de ejemplo para este caso de uso se representa en la figura 7a donde se estima la densidad de los aplausos de primer plano distintiva e individualmente perceptibles, así como la fracción de energía de los aplausos de primer plano con respecto a la energía de señal total.
La estimación de la densidad de primer plano 0 FGD(n) se puede hacer al contar la tasa de eventos por segundo, es decir, el número de aplausos detectados por segundo. La prominencia de primer plano 0 FFG(n) está dada por la relación de energía de señal de aplauso de primer plano estimada C(n) y A(n):
, c (%)
®ffg n ) — 0 " ( n )
Un diagrama de bloques de la restauración de las características de señal medidas se representa en la figura 7b, donde 0 y las líneas punteadas denotan información adicional.
En tanto que en la realización anterior solo se midió la característica de señal, el sistema se utiliza para modificar características de señal. En una realización, el procesamiento de primer plano puede producir un número reducido de los aplausos de primer plano detectados que da como resultado una modificación de densidad hacia menor densidad de la señal de salida resultante. En otra realización, el procesamiento de primer plano puede producir un número incrementado de aplausos de primer plano, por ejemplo, al añadir una versión retardada de la señal de aplauso de primer plano a sí misma que da como resultado una modificación de densidad hacia densidad incrementada. Adicionalmente, al aplicar factores de ponderación en las etapas de procesamiento respectivas, se puede modificar el equilibrio de aplausos de primer plano y fondo tipo ruido. Adicionalmente, cualquier procesamiento como filtración, adición de reverberación, retardo, etc. en ambas rutas se puede utilizar para modificar las características de una señal de aplauso.
La figura 8 se refiere adicionalmente a una etapa de codificador para codificar la señal de componente de primer plano y la señal de componente de fondo para obtener una representación codificada de la señal de componente de primer plano y una representación codificada independiente de la señal de componente de fondo para transmisión o almacenamiento. Particularmente, el codificador de primer plano se ilustra en 801 y el codificador de fondo se ilustra en 802. Las representaciones codificadas de forma independiente 804 y 806 se retransmiten a un dispositivo del lado de decodificador 808 que consiste en un decodificador de primer plano 810 y un decodificador de fondo 812 que finalmente decodifican las representaciones independientes y las representaciones decodificadas y entonces se combinan por un combinador 606 para producir finalmente la señal decodificada a'(t).
Posteriormente, se analizan realizaciones preferidas adicionales con respecto a la figura 3. En particular, la figura 3 ilustra una representación esquemática de señal de audio de entrada dada en la línea de tiempo 300, donde la representación esquemática ilustra una situación de bloques superpuestos temporalmente. Se ilustra en la figura 3 una situación donde existe un intervalo de superposición 302 de 50%. También se pueden utilizar otros intervalos de superposición, tal como intervalos de múltiples superposiciones con más de 50% o intervalos de menos superposición donde solo se superpone menos del 50%.
En la realización de la figura 3, un bloque convencionalmente tiene menos de 600 valores de muestreo y, de manera preferente, solo 256 o solo 128 valores de muestreo para obtener una alta resolución de tiempo.
Los bloques de superposición ilustrados a modo de ejemplo consisten, por ejemplo, en un bloque actual 304 que se superpone dentro del intervalo de superposición con un bloque precedente 303 o un siguiente bloque 305. Por lo tanto, cuando un grupo de bloques comprende al menos dos bloques precedentes entonces este grupo de bloques consistiría en el bloque precedente 303 con respecto al bloque actual 304 y el bloque precedente adicional indicado con el número de orden 3 en la figura 3. Adicionalmente, y de forma análoga, cuando un grupo de bloques comprende al menos dos siguientes bloques (en el tiempo) entonces estos dos siguientes bloques comprenderían el siguiente bloque 305 indicado con el número de orden 6 y el bloque adicional 7 ilustrado con el número de orden 7.
Estos bloques, por ejemplo, se forman por el generador de bloques 110 que de manera preferente también lleva a cabo una conversión temporal-espectral tal como la DFT mencionada anteriormente o una FFT (Transformada Rápida de Fourier).
El resultado de la conversión temporal-espectral es una secuencia de bloques espectrales I a VIII, donde cada bloque espectral ilustrado en la figura 3 por debajo del bloque 110 corresponde a uno de ocho bloques de la línea de tiempo 300.
De manera preferente, entonces se lleva a cabo una separación en el dominio de la frecuencia, es decir, utilizando la representación espectral donde los valores de señal de audio son valores espectrales. Posterior a la separación, se obtienen una representación espectral de primer plano, que consiste una vez más en bloques I a VIII, y una representación de fondo, que consiste en I a VIII. Naturalmente, y dependiendo de la operación de fijación de umbral, no es necesario el caso en el que cada bloque de la representación de primer plano posterior a la separación 130 tiene valores diferentes de cero. Sin embargo, de manera preferente, se asegura por al menos el primer aspecto de la presente invención que cada bloque en la representación espectral del componente de fondo tiene valores diferentes de cero a fin de evitar una pérdida de energía en el componente de señal de fondo.
Para cada componente, es decir, el componente de primer plano y el componente de fondo, se lleva a cabo una conversión temporal-espectral como se ha analizado en el contexto de la figura 1c y se lleva a cabo la desaparición/aparición posterior con respecto al intervalo de superposición 302 para ambos componentes como se ilustra en el bloque 161a y el bloque 161b para los componentes de primer plano y de fondo respectivamente. Por lo tanto, al final, la señal de primer plano y la señal de fondo tienen la misma longitud L como la señal de audio original antes de la separación.
De manera preferente, como se ilustra en la figura 4b, se suaviza el separador 130 que calcula las variabilidades o umbrales.
En particular, la etapa 400 ilustra la determinación de una característica general o una relación entre una característica de bloque y una característica promedio para un bloque actual como se ilustra en 400.
En el bloque 402, se calcula una variabilidad sin procesar con respecto al bloque actual. En el bloque 404, las variabilidades sin procesar para bloques precedentes o siguientes se calculan para obtener, por la salida de bloque 402 y 404, una secuencia de variabilidades sin procesar. En el bloque 406, la secuencia se suaviza. Por lo tanto, en la salida de bloque 406 existe una secuencia suavizada de variabilidades. Las variabilidades de la secuencia suavizada se mapean a umbrales adaptativos correspondientes como se ilustra en el bloque 408 de tal forma que se obtiene el umbral variable para el bloque actual.
Se ilustra una realización alternativa en la figura 4b en la cual, en contraste con el suavizado de las variabilidades, se suavizan los umbrales. Para este fin, una vez más, la característica/relación para un bloque actual se determina como se ilustra en el bloque 400.
En el bloque 403, se calcula una secuencia de variabilidades utilizando, por ejemplo, la ecuación 6 de la figura 1f para cada bloque actual indicado por el número entero m.
En el bloque 405, la secuencia de variabilidades se mapea a una secuencia de umbrales sin procesar según la ecuación 8 y la ecuación 9 pero con variabilidades no suavizadas en contraste con la ecuación 7 de la figura 1f.
En el bloque 407, la secuencia de umbrales sin procesar se suaviza a fin de obtener finalmente el umbral (suavizado) para el bloque actual.
Posteriormente, la figura 5 se analiza en más detalle a fin de ilustrar diferentes formas para calcular la variabilidad de la característica dentro de un grupo de bloques.
Una vez más, en la etapa 500, se calcula una característica o relación entre una característica de bloque actual y una característica de bloque promedio.
En la etapa 502, se calcula un promedio o, en general, una expectativa con respecto a las características/relaciones para el grupo de bloques.
En el bloque 504, se calculan las diferencias entre características/relaciones y el valor de expectativa/valor promedio y, como se ilustra en el bloque 506, la adición de las diferencias o ciertos valores derivados de las diferencias se lleva a cabo de manera preferente con una normalización. Cuando las diferencias al cuadrado se suman entonces la secuencia de etapas 502, 504, 506 reflejan el cálculo de una varianza como se ha señalado con respecto a la ecuación 6. Sin embargo, por ejemplo, cuando magnitudes de diferencias u otras potencias de diferencias diferentes de dos se suman conjuntamente entonces un valor estadístico diferente derivado de las diferencias entre las características y el valor promedio/de expectativa se utiliza como la variabilidad.
Alternativamente, sin embargo, como se ilustra en la etapa 508, también las diferencias entre características/relaciones de seguimiento de tiempo para bloques adyacentes se calculan y se utilizan como la medición de variabilidad. Por lo tanto, el bloque 508 determina una variabilidad que no se basa en un valor promedio, sino que se basa en un cambio de un bloque al otro, en el que, como se ilustra en la figura 6, las diferencias entre las características para bloques adyacentes se pueden sumar conjuntamente ya sea al cuadrado, sus magnitudes o sus potencias para obtener finalmente otro valor de la variabilidad diferente de la varianza. Queda claro para aquellos expertos en la técnica que se pueden utilizar también otras mediciones de variabilidad diferentes de lo que se ha analizado con respecto a la figura 5.
Una señal de audio codificada de manera inventiva se puede almacenar en un medio de almacenamiento digital o un medio de almacenamiento no transitorio o se puede transmitir en un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión alámbrico tal como internet.
Aunque se han descrito algunos aspectos en el contexto de un aparato, queda claro que estos aspectos también representen una descripción del método correspondiente, donde un bloque o dispositivo corresponde a una etapa del método o una característica de una etapa del método. De forma análoga, aspectos descritos en el contexto de una etapa del método también representan una descripción de un bloque o elemento o característica correspondiente de un aparato correspondiente.
Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención se pueden implementar en hardware o software. La implementación se puede llevar a cabo utilizando un medio de almacenamiento digital, por ejemplo, un disco flexible, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM, o una memoria flash, que tiene señales de control electrónicamente legibles almacenadas en el mismo, que cooperan (o son capaces de cooperar) con un sistema informático programable de tal forma que se lleva a cabo el método respectivo.
Algunas realizaciones según la invención comprenden un portador de datos que tiene señales de control electrónicamente legibles, que son capaces de cooperar con un sistema informático programable, de tal forma que se lleva a cabo uno de los métodos descritos en el presente documento.
En general, realizaciones de la presente invención se pueden implementar como un producto de programa informático con un código de programa, siendo el código de programa operativo para llevar a cabo uno de los métodos cuando el producto de programa informático se ejecuta en un ordenador. El código de programa, por ejemplo, se puede almacenar en un portador legible por máquina.
Otras realizaciones comprenden el programa informático para llevar a cabo uno de los métodos descritos en el presente documento, almacenado en un portador legible por máquina o un medio de almacenamiento no transitorio.
En otras palabras, una realización del método inventivo, por lo tanto, es un programa informático que tiene un código de programa para llevar a cabo uno de los métodos descritos en el presente documento, cuando el programa informático se ejecuta en un ordenador.
Una realización adicional de los métodos inventivos es, por lo tanto, un portador de datos (o un medio de almacenamiento digital o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para llevar a cabo uno de los métodos descritos en el presente documento.
Una realización adicional del método inventivo, por lo tanto, es un flujo de datos o una secuencia de señales que representa el programa informático para llevar a cabo uno de los métodos descritos en el presente documento. El flujo de datos o la secuencia de señales se puede configurar, por ejemplo, para transferirse a través de una conexión de comunicación de datos, por ejemplo, a través de internet.
Una realización adicional comprende medios de procesamiento, por ejemplo, un ordenador o un dispositivo lógico programable, configurados para o adaptados para llevar a cabo uno de los métodos descritos en el presente documento.
Una realización adicional comprende un ordenador que tiene instalado en el misma el programa informático para llevar a cabo uno de los métodos descritos en el presente documento.
En algunas realizaciones, un dispositivo lógico programable (por ejemplo, una matrizde puertas de campo programable) se puede utilizar para llevar a cabo algunas o todas las funcionalidades de los métodos descritos en el presente documento. En algunas realizaciones, una matrizde puertas de campo programable puede cooperar con un microprocesador a fin de llevar a cabo uno de los métodos descritos en el presente documento. En general, los métodos se llevan a cabo de manera preferente por cualquier aparato de hardware.
Las realizaciones descritas anteriormente son simplemente ilustrativas para los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento serán evidentes para aquellos expertos en la técnica. Se propone, por lo tanto, que se limiten solo por el alcance de las reivindicaciones de patente inminentes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en el presente documento.

Claims (19)

  1. REIVINDICACIONES
  2. Aparato para descomponer una señal de audio (100) en una señal de componente de fondo (140) y una señal de componente de primer plano (150), comprendiendo el aparato:
    un generador de bloques (110) para generar una secuencia de tiempo de bloques de valores de señal de audio;
    un analizador de señales de audio (120) para determinar una característica de bloque de un bloque actual de la señal de audio (100) y para determinar una característica promedio para un grupo de bloques, comprendiendo el grupo de bloques al menos dos bloques, en el que el analizador de señales de audio (120) se configura para determinar, como la característica de bloque del bloque actual, una medición de potencia o una medición de energía para el bloque actual y para determinar, como la característica promedio para el grupo de bloques, una medición de potencia promedio o una medición de energía promedio para el grupo de bloques; y
    un separador (130) para separar el bloque actual en una porción de fondo y una porción de primer plano en respuesta a una relación de la característica de bloque del bloque actual y la característica promedio del grupo de bloques, en el que la señal de componente de fondo (140) comprende la porción de fondo del bloque actual y la señal de componente de primer plano (150) comprende la porción de primer plano del bloque actual, en el que la señal de componente de fondo (140) es una señal tipo ruido y en el que la señal de componente de primer plano (150) es una señal transitoria, y
    en el que el separador (130) se configura
    para calcular una ganancia de separación de la relación, para ponderar los valores de señal de audio del bloque actual utilizando la ganancia de separación para obtener la porción de primer plano del bloque actual y para determinar la porción de fondo de tal forma que la señal de componente de fondo (140) constituye una señal restante, o
    para calcular una ganancia de separación de la relación, para ponderar los valores de señal de audio del bloque actual utilizando la ganancia de separación para obtener la porción de fondo del bloque actual y para determinar la porción de primer plano de tal forma que la señal de componente de primer plano (150) constituye una señal restante.
  3. Aparato de la reivindicación 1,
    en el que el separador (130) se configura para calcular la ganancia de separación utilizando ponderación de la relación utilizando un factor de ponderación predeterminado diferente de cero.
  4. Aparato de la reivindicación 2,
    en el que el separador (130) se configura para calcular la ganancia de separación utilizando un término 1 -(gN/ (n))p, en el que gN es el factor predeterminado, (n) es la relación y p es una potencia mayor que cero y que es un número entero o un número no entero, y en el que n es un índice de bloque.
  5. Aparato de la reivindicación 1,
    en el que el separador (130) se configura para comparar la relación del bloque actual con un umbral de separación y para separar el bloque actual, cuando la relación del bloque actual está en una relación predeterminada con el umbral de separación y para no separar un bloque adicional, teniendo el bloque adicional una relación que no tiene la relación predeterminada con el umbral de separación, de tal forma que el bloque adicional pertenece completamente a la señal de componente de fondo (140), y
    en el que el separador (130) se configura para separar un siguiente bloque que sigue al bloque actual en el tiempo utilizando comparación de la relación del siguiente bloque con un umbral de liberación, en el que el umbral de liberación se ajusta de tal forma que la relación que no está en la relación predeterminada con el umbral de separación está en la relación predeterminada con el umbral de liberación. Aparato de la reivindicación 4,
    en el que la relación predeterminada es “mayor que” y en el que el umbral de liberación es menor que el umbral de separación, o
    en el que la relación predeterminada es “menor que” y en el que el umbral de liberación es mayor que el umbral de separación.
  6. 6. Aparato de una de las reivindicaciones precedentes,
    en el que el generador de bloques (110) se configura para determinar bloques superpuestos temporalmente de valores de señal de audio, o
    en el que los bloques superpuestos temporalmente tienen un número de valores de muestreo que es menor que o igual a 600.
  7. 7. Aparato de una de las reivindicaciones precedentes,
    en el que el generador de bloques (110) se configura para llevar a cabo una conversión basada en bloques de la señal de audio (100) estando en un dominio del tiempo a un dominio de la frecuencia para obtener una representación espectral para cada bloque,
    en el que el analizador de señales de audio (120) se configura para calcular la característica utilizando la representación espectral del bloque actual, y
    en el que el separador (130) se configura para separar la representación espectral en la porción de fondo y la porción de primer plano de tal forma que, para bins espectrales de la porción de fondo y la porción de primer plano que corresponden a la misma frecuencia, cada uno tiene un valor espectral diferente de cero, en el que una relación del valor espectral de la porción de primer plano y el valor espectral de la porción de fondo dentro del mismo bin de frecuencia depende de la relación.
  8. 8. Aparato de una de las reivindicaciones precedentes,
    en el que el generador de bloques (110) se configura para llevar a cabo una conversión basada en bloques de la señal de audio (100) estando en un dominio del tiempo a un dominio de la frecuencia para obtener una representación espectral para cada bloque,
    en el que bloques adyacentes en el tiempo se superponen en un intervalo de superposición (302),
    en el que el aparato comprende además un compositor de señales (160a, 161a, 160b, 161b) para componer la señal de componente de fondo (140) y para componer la señal de componente de primer plano (150), en el que el compositor de señales se configura para llevar a cabo una conversión en el dominio de la frecuenciatiempo (161a, 160a, 160b) para la señal de componente de fondo (140) y para la señal de componente de primer plano (150) y para representaciones de tiempo de desvanecimiento (161a, 161b) de bloques adyacentes en el tiempo dentro del intervalo de superposición para obtener una señal de componente de primer plano en el dominio del tiempo y una señal de componente de fondo en el dominio del tiempo separada.
  9. 9. Aparato de una de las reivindicaciones precedentes,
    en el que el analizador de señales de audio (120) se configura para determinar la característica promedio para el grupo de bloques utilizando una suma ponderada de características individuales de bloques en el grupo de bloques.
  10. 10. Aparato de una de las reivindicaciones precedentes,
    en el que el analizador de señales de audio (120) se configura para llevar a cabo una suma ponderada de características de bloques individuales de bloques en el grupo de bloques, en el que un valor de ponderación para una característica de un bloque cerca en el tiempo del bloque actual es mayor que un valor de ponderación para una característica de un bloque adicional menos cerca en el tiempo del bloque actual.
  11. 11. Aparato de la reivindicación 9 o 10,
    en el que el analizador de señales de audio (120) se configura para determinar el grupo de bloques de tal forma que el grupo de bloques comprende al menos veinte bloques antes del bloque actual o al menos veinte bloques después del bloque actual.
  12. 12. Aparato de una de las reivindicaciones precedentes,
    en el que el analizador de señales de audio (120) se configura para utilizar un valor de normalización dependiendo de un número de bloques en el grupo de bloques o dependiendo de los valores de ponderación para los bloques en el grupo de bloques.
  13. 13. Aparato de una de las reivindicaciones precedentes,
    que comprende además un medidor de característica de señal (702, 704) para medir una característica de señal de al menos una de las señales de componente de fondo (140) o las señales de componente de primer plano (150).
  14. 14. Aparato de la reivindicación 13,
    en el que el medidor de característica de señal (702, 704) se configura para determinar una densidad del primer plano utilizando la señal de componente de primer plano (150) o para determinar una prominencia de primer plano utilizando la señal de componente de primer plano (150) y la señal de audio (100).
  15. 15. Aparato de una de las reivindicaciones precedentes,
    en el que la señal de componente de primer plano (150) comprende señales de aplauso, en el que el aparato comprende además un modificador de característica de señal para modificar la señal de componente de primer plano (150) al incrementar un número de aplausos o disminuir un número de aplausos o al aplicar una ponderación a la señal de componente de primer plano (150) o la señal de componente de fondo (140) para modificar una relación de energía entre la señal de componente del primer plano (150) y la señal de componente de fondo (140) que es una señal tipo ruido.
  16. 16. Aparato de una de las reivindicaciones precedentes,
    que comprende además un mezclador ascendente ciego para mezclar de forma ascendente la señal de audio (100) en una representación que tiene un número de canales de salida, siendo el número de canales de salida mayor que un número de canales de la señal de audio (100),
    en el que el mezclador ascendente ciego se configura para distribuir espacialmente la señal de componente de primer plano (150) en el número de canales de salida en el que se correlacionan la señal de componente de primer plano (150) en el número de canales de salida, y para distribuir espacialmente la señal de componente de fondo (140) en los canales de salida, en el que las señales de componente de fondo (140) en el número de canales de salida están menos correlacionadas que las señales de componente de primer plano (150) o no están correlacionadas entre sí.
  17. 17. Aparato de una de las reivindicaciones precedentes,
    que comprende además una etapa de codificador (801,802) para codificar de forma separada la señal de componente de primer plano (150) y la señal de componente de fondo para obtener una representación codificada (804) de la señal de componente de primer plano (150) y una representación codificada separada (806) de la señal de componente de fondo (140) para transmisión o almacenamiento o decodificación.
  18. 18. Método para descomponer una señal de audio (100) en una señal de componente de fondo (140) y una señal de componente de primer plano (150), comprendiendo el método:
    generar (110) una secuencia de tiempo de bloques de valores de señal de audio;
    determinar (120) una característica de bloque de un bloque actual de la señal de audio (100) y determinar una característica promedio para un grupo de bloques, comprendiendo el grupo de bloques al menos dos bloques, en el que la determinación (120) comprende determinar, como la característica de bloque de un bloque actual, una medición de potencia o una medición de energía para el bloque actual y determinar, como la característica promedio para el grupo de bloques, una medición de potencia promedio o una medición de energía promedio para el grupo de bloques; y
    separar (130) el bloque actual en una porción de fondo y una porción de primer plano en respuesta a una relación de la característica de bloque del bloque actual y la característica promedio del grupo de bloques,
    en el que la señal de componente de fondo (140) comprende la porción de fondo del bloque actual y la señal de componente de primer plano (150) comprende la porción de primer plano del bloque actual, en el que la señal de componente de fondo (140) es una señal tipo ruido y en el que la señal de componente de primer plano (150) es una señal transitoria, y
    en el que la separación (130) comprende
    calcular una ganancia de separación de la relación, ponderando los valores de señal de audio del bloque actual utilizando la ganancia de separación para obtener la porción de primer plano del bloque actual y determinando la porción de fondo de tal forma que la señal de fondo (140) constituye una señal restante, o
    calcular una ganancia de separación de la relación, ponderando los valores de señal de audio del bloque actual utilizando la ganancia de separación para obtener la porción de fondo del bloque actual y determinando la porción de primer plano de tal forma que la señal de componente de primer plano (150) constituye una señal restante.
  19. 19. Programa informático que comprende instrucciones que, cuando el programa se ejecuta por un ordenador o un procesador, hace que el ordenador lleve a cabo el método de la reivindicación 18.
ES17798236T 2016-11-17 2017-11-16 Descomposición de una señal de audio en señales de componente transitorias y tipo ruido Active ES2930268T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP16199402.5A EP3324407A1 (en) 2016-11-17 2016-11-17 Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
PCT/EP2017/079516 WO2018091614A1 (en) 2016-11-17 2017-11-16 Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic

Publications (1)

Publication Number Publication Date
ES2930268T3 true ES2930268T3 (es) 2022-12-09

Family

ID=57348523

Family Applications (1)

Application Number Title Priority Date Filing Date
ES17798236T Active ES2930268T3 (es) 2016-11-17 2017-11-16 Descomposición de una señal de audio en señales de componente transitorias y tipo ruido

Country Status (11)

Country Link
US (1) US11183199B2 (es)
EP (2) EP3324407A1 (es)
JP (1) JP7161215B2 (es)
KR (1) KR102427414B1 (es)
CN (1) CN110114828B (es)
BR (1) BR112019009944A2 (es)
CA (1) CA3043964C (es)
ES (1) ES2930268T3 (es)
MX (1) MX2019005739A (es)
RU (1) RU2729050C1 (es)
WO (1) WO2018091614A1 (es)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
US11023722B2 (en) * 2018-07-11 2021-06-01 International Business Machines Corporation Data classification bandwidth reduction
US11934737B2 (en) * 2020-06-23 2024-03-19 Google Llc Smart background noise estimator

Family Cites Families (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
US6400996B1 (en) 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
US7006881B1 (en) 1991-12-23 2006-02-28 Steven Hoffberg Media recording device with remote graphic user interface
JP2000250568A (ja) 1999-02-26 2000-09-14 Kobe Steel Ltd 音声区間検出装置
US6424960B1 (en) 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
AU2001276588A1 (en) * 2001-01-11 2002-07-24 K. P. P. Kalyan Chakravarthy Adaptive-block-length audio coder
US7058889B2 (en) 2001-03-23 2006-06-06 Koninklijke Philips Electronics N.V. Synchronizing text/visual information with audio playback
US7283954B2 (en) * 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7386217B2 (en) 2001-12-14 2008-06-10 Hewlett-Packard Development Company, L.P. Indexing video by detecting speech and music in audio
CN1830009B (zh) 2002-05-03 2010-05-05 哈曼国际工业有限公司 声音检测和定位系统
US7567845B1 (en) 2002-06-04 2009-07-28 Creative Technology Ltd Ambience generation for stereo signals
KR100908117B1 (ko) * 2002-12-16 2009-07-16 삼성전자주식회사 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
EP1604354A4 (en) * 2003-03-15 2008-04-02 Mindspeed Tech Inc VOICE INDEX CONTROLS FOR CELP LANGUAGE CODING
KR100486736B1 (ko) 2003-03-31 2005-05-03 삼성전자주식회사 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
US7710982B2 (en) 2004-05-26 2010-05-04 Nippon Telegraph And Telephone Corporation Sound packet reproducing method, sound packet reproducing apparatus, sound packet reproducing program, and recording medium
DE102005014477A1 (de) * 2005-03-30 2006-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US8086451B2 (en) * 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US7996216B2 (en) * 2005-07-11 2011-08-09 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signal
KR101237413B1 (ko) * 2005-12-07 2013-02-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법, 오디오 신호의부호화 및 복호화 장치
EP1989777A4 (en) 2006-03-01 2011-04-27 Softmax Inc SYSTEM AND METHOD FOR GENERATING A SEPARATE SIGNAL
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
JP2008015481A (ja) 2006-06-08 2008-01-24 Audio Technica Corp 音声会議装置
EP2064658A4 (en) 2006-09-07 2017-08-23 Lumex As Relative threshold and use of edges in optical character recognition process
US8036767B2 (en) * 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
WO2008133097A1 (ja) 2007-04-13 2008-11-06 Kyoto University 音源分離システム、音源分離方法及び音源分離用コンピュータプログラム
EP2028651A1 (en) 2007-08-24 2009-02-25 Sound Intelligence B.V. Method and apparatus for detection of specific input signal contributions
RU2474887C2 (ru) 2007-10-17 2013-02-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аудиокодирование с использованием повышающего микширования
US8892432B2 (en) 2007-10-19 2014-11-18 Nec Corporation Signal processing system, apparatus and method used on the system, and program thereof
US9374453B2 (en) * 2007-12-31 2016-06-21 At&T Intellectual Property I, L.P. Audio processing for multi-participant communication systems
CN101981811B (zh) 2008-03-31 2013-10-23 创新科技有限公司 音频信号的自适应主体-环境分解
US20090281803A1 (en) * 2008-05-12 2009-11-12 Broadcom Corporation Dispersion filtering for speech intelligibility enhancement
US8630848B2 (en) * 2008-05-30 2014-01-14 Digital Rise Technology Co., Ltd. Audio signal transient detection
ES2683077T3 (es) * 2008-07-11 2018-09-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
EP2154911A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
US8359205B2 (en) * 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
JP5277887B2 (ja) 2008-11-14 2013-08-28 ヤマハ株式会社 信号処理装置およびプログラム
US20100138010A1 (en) 2008-11-28 2010-06-03 Audionamix Automatic gathering strategy for unsupervised source separation algorithms
US20100174389A1 (en) 2009-01-06 2010-07-08 Audionamix Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation
EP2249334A1 (en) 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
EP3352168B1 (en) * 2009-06-23 2020-09-16 VoiceAge Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
MX2011013829A (es) 2009-06-24 2012-03-07 Fraunhofer Ges Forschung Decodificador de señales de audio, metodo para decodificar una señal de audio y programa de computacion que utiliza etapas en cascada de procesamiento de objetos de audio.
WO2011029048A2 (en) 2009-09-04 2011-03-10 Massachusetts Institute Of Technology Method and apparatus for audio source separation
JP5493655B2 (ja) 2009-09-29 2014-05-14 沖電気工業株式会社 音声帯域拡張装置および音声帯域拡張プログラム
CN102044246B (zh) 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
WO2011049515A1 (en) 2009-10-19 2011-04-28 Telefonaktiebolaget Lm Ericsson (Publ) Method and voice activity detector for a speech encoder
US20110099010A1 (en) * 2009-10-22 2011-04-28 Broadcom Corporation Multi-channel noise suppression system
WO2011111091A1 (ja) 2010-03-09 2011-09-15 三菱電機株式会社 雑音抑圧装置
US8447595B2 (en) * 2010-06-03 2013-05-21 Apple Inc. Echo-related decisions on automatic gain control of uplink speech signal in a communications device
JP5706782B2 (ja) 2010-08-17 2015-04-22 本田技研工業株式会社 音源分離装置及び音源分離方法
US8812322B2 (en) * 2011-05-27 2014-08-19 Adobe Systems Incorporated Semi-supervised source separation using non-negative techniques
CN102208188B (zh) * 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
CN103959376B (zh) * 2011-12-06 2019-04-23 英特尔公司 低功率语音检测
US9524730B2 (en) * 2012-03-30 2016-12-20 Ohio State Innovation Foundation Monaural speech filter
JP6064566B2 (ja) 2012-12-07 2017-01-25 ヤマハ株式会社 音響処理装置
US9338420B2 (en) 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
US9076459B2 (en) 2013-03-12 2015-07-07 Intermec Ip, Corp. Apparatus and method to classify sound to detect speech
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
US9384741B2 (en) 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
CN104217729A (zh) * 2013-05-31 2014-12-17 杜比实验室特许公司 音频处理方法和音频处理装置以及训练方法
US20150127354A1 (en) 2013-10-03 2015-05-07 Qualcomm Incorporated Near field compensation for decomposed representations of a sound field
FR3013885B1 (fr) * 2013-11-28 2017-03-24 Audionamix Procede et systeme de separation de contributions specifique et de fond sonore dans un signal acoustique de melange
CN104143326B (zh) 2013-12-03 2016-11-02 腾讯科技(深圳)有限公司 一种语音命令识别方法和装置
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US20170178664A1 (en) 2014-04-11 2017-06-22 Analog Devices, Inc. Apparatus, systems and methods for providing cloud based blind source separation services
WO2016001223A1 (en) 2014-06-30 2016-01-07 Ventana Medical Systems, Inc. Detecting edges of a nucleus using image analysis
EP2980789A1 (en) 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
RU2589298C1 (ru) * 2014-12-29 2016-07-10 Александр Юрьевич Бредихин Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
FR3031225B1 (fr) * 2014-12-31 2018-02-02 Audionamix Procede de separation ameliore et produit programme d'ordinateur
CN105989852A (zh) * 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
EP3079151A1 (en) * 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and method for encoding an audio signal
TWI573133B (zh) * 2015-04-15 2017-03-01 國立中央大學 音訊處理系統及方法
US9747923B2 (en) * 2015-04-17 2017-08-29 Zvox Audio, LLC Voice audio rendering augmentation
BR112018005910B1 (pt) * 2015-09-25 2023-10-10 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Codificador e método para codificar um sinal de áudio com ruído de fundo reduzido com o uso de conversão em código preditiva linear e sistema
US9812132B2 (en) * 2015-12-31 2017-11-07 General Electric Company Acoustic map command contextualization and device control
EP3411876B1 (en) * 2016-02-05 2021-12-15 Cerence Operating Company Babble noise suppression
US9881619B2 (en) 2016-03-25 2018-01-30 Qualcomm Incorporated Audio processing for an acoustical environment
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
US10504539B2 (en) * 2017-12-05 2019-12-10 Synaptics Incorporated Voice activity detection systems and methods

Also Published As

Publication number Publication date
RU2729050C1 (ru) 2020-08-04
JP7161215B2 (ja) 2022-10-26
US11183199B2 (en) 2021-11-23
BR112019009944A2 (pt) 2019-08-20
EP3542362B1 (en) 2022-09-21
JP2019537750A (ja) 2019-12-26
CN110114828B (zh) 2023-10-27
CN110114828A (zh) 2019-08-09
KR20190085062A (ko) 2019-07-17
MX2019005739A (es) 2019-09-11
US20190272835A1 (en) 2019-09-05
CA3043964C (en) 2022-06-28
WO2018091614A1 (en) 2018-05-24
CA3043964A1 (en) 2018-05-24
KR102427414B1 (ko) 2022-08-01
EP3324407A1 (en) 2018-05-23
EP3542362A1 (en) 2019-09-25

Similar Documents

Publication Publication Date Title
ES2837007T3 (es) Aparato y procedimiento para descomponer una señal de audio usando un umbral variable
JP7161564B2 (ja) チャネル間時間差を推定する装置及び方法
ES2930268T3 (es) Descomposición de una señal de audio en señales de componente transitorias y tipo ruido
ES2771200T3 (es) Postprocesador, preprocesador, codificador de audio, decodificador de audio y métodos relacionados para mejorar el procesamiento de transitorios
ES2399058T3 (es) Aparato y procedimiento para generar una señal de control de sintetizador de múltiples canales y aparato y procedimiento para sintetizar múltipes canales
TWI490853B (zh) 多聲道音訊處理技術
ES2927808T3 (es) Aparato y método para determinar una característica relacionada a un procesamiento de limitación de ancho de banda artificial de una señal de audio
JP2019074755A (ja) 独立したノイズ充填を用いた強化された信号を生成するための装置および方法